배점에 대한 고찰

초등학교 때 부터 대학교 때 까지 우리의 성적을 평가 받는다. 이 성적은 다양한 활동을 가지고 평가받는데 주로 필기 시험이 60~80퍼센트를 차지하고 나머지는 출석, 과제(수행 평가)등으로 채워진다. 각각의 weight은 교수(선생)가 판단한 중요도나 난이도를 가지고 매겨진다. 예를 들어 중간고사는 30퍼를 차지하고, 전체 범위인 기말고사는 40%를 차지하며, 큰 프로젝트는 20%, 작은 과제는 10%를 주는 등으로 이루어진다.
COMP2711의 Grading Scheme

거의 모든 수업은 시험이 다음과 같이 매겨진다. 예를 들어 중간고사를 100점 만점에 70점을 맞았고, 기말을 80%, In-class Participation 만점, 퀴즈 만점의 경우
[latex]\frac{30}{100}*(70)+\frac{40}{100}*(80)+\frac{10}{100}*(100)+\frac{20}{100}*(100)[/latex]
으로 평가된다. 이는 절대평가의 경우 아무런 문제가 되지 않지만, 만약 상대평가일 경우 문제가 된다.
작년에 LIFS1901 수업을 들은적이 있다. 이 수업은 일반 생물학 수업이였고 난이도는 그렇게 어렵지 않았다. 중간고사가 50%, 기말고사가 45%, 퀴즈가 5%의 특이하다고 하면 특이하고 평범하다고 하면 평범한 그저 그런 강의였다.
문제는 두 시험의 난이도가 확연하게 차이에서 나타났다. 중간고사는 책에 나온 문제들이 그대로 나온 바람에 50점 만점에 평균 40점이 나왔으며 표준 편차는 주어지지 않았지만 꽤나 작았을 것이라고 예상 된다. 그 반면에 기말고사는 45점 만점에 평균 17.7, 표준 편차 8.7로 나왔다.
이 강의는 상대평가제도이기 때문에 내 절대적인 점수보다는 다른 학생에 비해 얼마나 잘했는 지, 못했는지에 따라 성적이 나오는데 모두가 중간고사를 만점에 가깝게 받았고, 기말고사는 엄청난 편차를 보이며 낮은 평균을 보여주었다면, 거의 기말고사 하나로 모든 성적이 결정된 것이다.

LIFS1901 Grade

물론 45% 비중의 기말고사의 만점이 45점이고 50% 비중의 중간고사의 만점이 50점이기 때문에 각 시험의 1점은 동일한 비중을 가지고 있지만, 시험 전체로 보았을 때 당연히 성적에 대한 영향력은 기말고사가 더 크게 가지게 되었다.

이러한 문제점은 시험 비중 시스템 그 자체에 문제가 있다. 당연히 이 방법이 교수(선생)에게는 성적을 주기에 쉬운 방법인 것은 부정할 수 없으나, 어떤 면에서는 공정하지 못하다고 볼 수 있다.
몇년전에 친 국제 생물 올림피아드 대회에서는 특이한 방법으로 성적을 계산했다. 통계를 배우지 않았고, 친구가 한 설명이 정확히 기억이 나지는 않지만 다음과 같은 방법으로 계산했지 싶다. 실험 시험의 경우 4개의 실험이 있다. 전체 학생의 각 실험의 점수를 가지고 표준편차와 평균을 구한 뒤 모든 시험을 같은 분포로 만들어 모든 시험이 같은 영향을 가지게 만들었다.

예를 들어 각 시험 1,2,3,4와 학생 A,B,C를 다음과 같이 나타내 보자.

시험 1: {10,20,30}
시험 2: {40,60,20}
시험 3: {7,6,5}
시험 4: {1,2,3}

물론 실제로는 제대로된 통계적인 방법을 쓰지만 대충 아래와 같은 방식이다.

시험 1의 경우 평균 20을 빼고 분포 10으로 나누어서 {-1,0,1}로 만든다. 나머지 경우도 동일하게 진행하게 평균과 분포를 구해서 원점수를 변환점수로 바꾸어 준다.

시험 1: {-1,0,1}
시험 2: {0,1,-1}
시험 3: {1,0,-1}
시험 4: {-1,0,1}
이렇게 만든 뒤 총점을 계산하면
A는 -1
B는 1
C는 0이 나온다.

이런 방법을 쓸 경우 모든 시험이 동일하게 평가가 될 수가 있다. 즉 Grade를 내는 것 뿐만 아니라 성적 그 자체까지도 상대적으로 계산이 되어 더욱더 공정한 결과가 나오게 된다. 만약 평가자가 생각하기에 어느 시험을 더 큰 비중을 두고 싶다고 생각하면 그 시험에 좀 더 많은 퍼센트를 두면 된다. 예를 들어 위 예시를 들면, (시험 1 변환된 점수)x1.5 + (시험 2 변환된 점수)x0.5 + … 이런식으로 두면 된다.

물론 이런 방법으로 채점되는 것들은 많고, 그 예시중 하나가 위에서 말했던 IBO이다. 다른 올림피아드의 경우는 잘 모르겠지만 아무래도 학생의 실력을 변별력있게 봐야된다는 점에서 IBO는 이러한 방법으로 채점을 두는 것 같다.
위 방법은 단순한 Feature Scaling과 Mean normalization을 통해 이루어 진 것이지만 당연히 더 제대로 된 통계적인 방법은 있을 것이다. 중요한건 이런 공정한 방법이 있지만 학교 시스템에서는 그 어느 곳에서도 이러한 방법으로 성적을 주지 않는다는 것에서 문제가 있다고 생각한다.