Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 2005-0461(Print)
ISSN : 2287-7975(Online)
Journal of Society of Korea Industrial and Systems Engineering Vol.36 No.1 pp.44-52
DOI : https://doi.org/10.11627/jkise.2013.36.1.44

통계적 기법을 이용한 집단 협업 프로젝트에서의 공정한 동료 평가 방법론에 대한 연구

조미연*, 고성석**†
*카를스루에 공과대학교 산업공학, **건국대학교 산업공학

Equitable Peer Assessment Method in Collaboration Project Using Statistical Technique

Sung-Seok Ko**†, Miyeon Cho*
**Department of Industrial Engineering, Konkuk University
*Department of Business Engineering, Karlsruhe Institute of Technology(KIT)
Corresponding Author ssko@konkuk.ac.kr
Received 15 November 2012; Accepted 15 February 2013

Abstract

For evaluating participation in collaboration project, the peer assement method is mostly used and various scoring methodshave been proposed. But, the reliability and validity of the peer assessment method are still doubted for all most method. Inorder to overcome these weaknesss, some guidelines and training methods have been recommended. In this article, however,statistical technique is proposed for measuring individual contributions to collaboration projects considering each assessor’sreliability. The gist of our proposed algorithm is that an assessor’s reliability depends on the evaluation policy, and this reliabilityis evaluated by an analysis of variance of the scores assigned by the assessor. We also show that the proposed method is veryefficient by case study in university class.

1. 서 론

오픈소스 소프트웨어를 시작으로, 집단 협업의 형태는 점점 더 다양해지고 그 적용 범위는 나날이 늘어나고 있다[1, 7]. 따라서 기존의 전통적인 방법과는 다르게, 집단협업에서는 다양한 구성원들이 자유롭게 자신의 일을 선택할 수 있는 등 여러 가지 특성을 가지고 있기 때문에 이에 맞는 관리방법이 필요하다[5]). Panchal and Fathianathan[8]은 집단 협업을 활성화시키기 위한 중요 과제 중 하나로서 인센티브 분배문제를 들었다. 집단 협업에서는 참여자들이 각자 다른 목적을 가지고 있기 때문에 그 목적들의 관계를 기반으로 협업이 이루어진다. 이를 잘 관리하기 위하여 참여자들의 동기를 파악하는 것과 그들에게 적절한 인센티브를 주는 것이 필요하다. 특히, 공정하게 인센티브를 부여하는 것은 향후 집단 협업의 동기 부여에도 영향을 미친다. 자신의 프로젝트 공헌에 대한 제대로 된 평가를 받지 못한다면 그것에 대한 불만을 가지게되고, 그렇다면 다음 집단 협업에서 그 참가자가 참여할 확률은 낮기 때문이다. 즉, 참여자들의 참여를 유도하는 동기 부여의 한 방편으로서 적절한 인센티브 분배가 있어야 하고 이를 위해서는 공정하게 기여도를 측정할 수있는 방법이 필요한 것이다. 

이 연구에서는 기여도 측정 방법에서도 특히 동료 평가를 이용한 방법에 초점을 맞추었다. 집단 협업에서의 동료 평가란 한 집단 협업에 참여한 다양한 참가자들이 각자 다른 참가자들에 대한 기여도를 직접 산정하는 방법으로서 이 평가 방법은 제 3자가 아닌 참가자들이 직접 평가를 한다는 데에 의의를 두고 있다. 또, 이 방법은 산출물을 기반으로 기여도를 산정하는 콘텐츠 기반의 기여도 산정 방법에 비해 평가 방법이 간단한 편이며, 교육현장에서 개인 프로젝트가 아닌 그룹 프로젝트 과제를 수행했을 때 그룹에 속해 있는 각 학생들의 기여도를 최종 평가자가 직접 측정하기 매우 어렵기 때문에 주로 동료 평가 방법을 사용하여 학생들이 서로의 점수를 부여하는 방식으로 많이 사용되어 왔다. 

제 3자가 아닌 학생들이 스스로 평가하기 때문에 객관성을 가지고 있고, 재학습의 효과, 평가의 용이성 등 동료 평가가 여러 가지 장점을 가지고 있지만, 학생들의 평가 기준이 각기 다르고, 평가를 해야 하는 대상이 자신과 경쟁자라는 점들 때문에 자신의 점수를 높이기 위해 공정성을 가지지 않는 등의 문제점도 가지고 있다. 이러한 문제점을 해결하기 위해 기존 연구에서 여러 가지 방법을 제시해 왔지만 아직까지 문제점들을 완전히 해결하지는 못하였다. 그러므로 이 논문에서는 통계적 기법을 이용하여 각 평가자의 공정성을 평가하고, 공정성을 기반한 각 평가자의 평가 결과에 가중치를 부여함으로써 공정성을 확보할 수 있는 동료 평가 방법을 제시하고 사례를 통해 이 방법론을 검증하고자 한다. 

이 논문은 제 2장에서는 기존의 관련된 연구에 대한 분석과 논문의 연구 방향에 대하여 설명하고, 제 3장에서는 동료 평가 방법의 문제점을 자세히 살펴보고 또 기존의 방법의 한계점을 극복할 수 있는 새로운 동료 평가 방법을 제 4장에서는 제시하고자 하며, 제 5장에서는 제시한 방법을 바탕으로 사례 연구를 진행하여 그 결과를 분석하고 마지막으로 제 6장에서는 이 연구의 결론 및 향후연구과제에 대한 논의로 이 논문을 마무리 할 것이다. 

2. 기존 연구

기존의 동료 평가에 대한 연구는 주로 교육학에서 학생들이 팀을 구성하여 과제를 수행하였을 때 학생들이 스스로 평가하는 방법에 대한 내용이나, 집단 협업에서도 다른 참가자들의 기여도를 참가자들 자신이 평가함으로써 동료 평가 방법을 적용시킬 수 있다. 

Topping[11]는 동료 평가를 “다른 동료들의 산출물을 성과의 수준, 가치, 질을 고려하여 구체화하는 참여자들의 협의”라고 정의하였다. 동료 평가 방법들은 동료들끼리 서로 점수를 부여한다는 기본 원리 아래, 어떻게 점수를 부여할 것인지, 또 부여 받은 점수로 기여도를 어떻게 산정할 것인지에 따라 방법이 나누어진다. 동료 평가는 여러 명의 동료들에 의해서 직접 평가를 받기 때문에 제3자가 혼자 평가를 하는 기존의 평가 시스템보다 객관성과 타당성이 있으며, 평가 과정에서의 재학습 효과도 주장하였다. Kennedy[4]는 동료 평가의 타당성을 연구하면서 여러 문제점에 도출하였는데, 첫째, 각 개인마다 기여도를 평가하는 기준이 다르기 때문에 객관성이 떨어질 수 있다는 점이다. 즉, 평가의 일관성이 없는 것이다. 둘째, 협업이기 때문에 그룹 내 약자는 상대적으로 불이익을 볼 수 있다. 셋째, 동료들을 경쟁자로 인식하여 갈등을 유발하여 팀워크를 감소시킬 수 있다. 넷째, 동료 평가에서는 참가자들이 서로 평가하는 것을 꺼리기 때문에 비슷한 점수를 매기는 등 공정성에 문제가 발생할 수 있다고 주장하였다. 

그 동안의 연구들은 위의 문제점을 극복하기 위하여, Parsons[9]는 공정한 평가를 위하여 여러 가지 방법을 제시하였다. (1) Zero-Sum 방법 : 참가자들은 자신을 포함하여 점수를 할당하며 0점을 기준으로 -12점에서 +12점까지 줄 수 있고 모든 점수의 합은 0이 되어야 한다. (2)60-Sum 방법 : 할당한 전체 참가자의 점수의 합이 60점이 되어야 한다. (3) Flexi-Sum 방법 : 먼저 기본 점수를 정하고 그것을 기준으로 더하거나 빼서 점수를 할당한다. 모든 점수의 합은 [참가자의 수×기본 점수]가 된다. 그러나 이러한 방법들 역시 참가자들의 점수 부여 기준이 다르다는 문제가 존재한다. 이를 해결하기 위하여 Parsons은 제3자의 개입을 통하여 재평가를 유도함으로써 피드백을 통하여 극복할 수 있을 것이라고 주장하였다. 

그러나 위의 세 가지 방법은 최종 점수를 계산하는 방법으로 평균값을 사용하기 때문에 공정하지 않은 평가들이 최종 점수에 그대로 반영된다는 문제점을 가지고 있다. 이러한 공정하지 못한 평가들에 대하여 개선하기 위해서 Herbet[3] 기여도에 관한 객관적인 지표가 필요하다고 주장하였고, 타임시트나 피드백 등을 통해서 개선이 가능하다고 보았다. 

Raban[10]도 마찬가지로 동료 평가를 지원해주는 도구들(타임시트, TeCTra)을 제시하였고, 도구들이 적용된 경우와 아닌 경우를 비교해 보았을 때, 이러한 도구가 공정성있는 동료 평가에 도움을 준다는 것을 밝혔다. Marjo[6]은 효과적인 동료 평가를 촉진하는 변수들이 무엇인지 또 그것이 어떻게 작용하는 지를 연구하였다. 동료 평가를 촉진하는 네 가지 변수와 그 결과는 첫째, 동료 평가에 대한 심리적 자질 : 훈련과 경험에 의해 강화될 수 있다. 둘째, 범위 구체화 능력 : 피드백을 통하여 개선이 가능하다. 셋째, 동료 평가 능력 : 훈련에 의하여 강화될 수 있으며, 참여자의 성향과 연관 관계가 있다. 넷째, 동료 평가를 바라보는 태도 : 훈련과 경험에 영향을 받다고 제시하였다. 또한 Gehringer[2]는 동료 평가를 기존의 그룹 프로젝트가 아닌, 위키를 이용하여 프로젝트를 수행하도록 하였다. 학생들이 위키라는 것을 처음 접해보았을 경우 이에 적응하는데 부정적인 면을 보이는등 문제점도 있었지만, 위키를 이용함으로써 학생들이 과제에 대한 고민을 더 많이 할 수 있었고 또 협업을 하는데 편리하게 이용할 수 있다는 장점을 가지고 있다는것을 밝혀냈다. 또한 그는 동료 평가 방식이 위키 기반의 프로젝트의 기여도 산정에서 효율적이고 계산하기 쉬운 방법이라고 주장하였다. 

이와 같이 기존 연구에서 동료 평가의 문제점을 해소하기 위하여 여러 가지 방법을 제시해 왔고 동료 평가방법이 집단협업에도 적용 가능하다는 것을 보여 주고있다. 그러나 평가 방법만으로 공정성을 확보하는 방법에 대해서는 연구가 거의 이루어 지지 않아 아직 그 문제점을 해결할 수 없었다. 그러므로 이 연구에서는 카이제곱 검정을 이용하여 전체 평가의 평균 점수와 평가자 각자 매긴 점수를 비교하여 그 평가가 제대로 된 평가인지에 대한 공정성을 확보한 동료 평가 기여도 산정 방법을 제안하고자 한다. 

3. 일관성과 공정성

동료 평가의 문제점 중 하나는 참여자들이 다른 참여자들을 평가할 때 각자가 평가하는 기준이 다르다는 것이다. 또한 평가 기준은 물론, 점수 부여 기준도 각자가 다르다. 어떤 이는 특정 기준이 없다면 잘한다고 생각하는 사람에게 10점을 주고 상대적으로 못했다고 생각하는 사람에게는 순차적으로 8, 6, 4등으로 2점 차씩 구분을하여 주지만 또 다른 어떤 이는 잘한다고 생각하는 사람에게 5점을 주고 그 이외의 사람에게는 1점 차씩 4, 3, 2점을 줄 수 있는 것이다. 이러한 점들 때문에 평가의 일관성 문제가 발생한다. 

일관성이 있는 동료 평가란 각 참여자이 다른 참여자을 평가할 때 준 점수들의 분포가 비슷한 경우이다. 이때에는 각 평가자가 준 점수들의 평균과 표준편차가 비슷한 값을 갖는다. 그러므로 이것은 평가 결과로부터 평가자가 점수를 부여하는 방식이 비슷하다고 할 수 있다. 일관성의 여부를 판별하기 위하여 Parsons의 논문에 있는 Flexi-Sum 방법의 참여자들이 동의한 동료 평가 결과와 참여자들이 동의하지 않은 동료 평가 결과 예제를 가져와 설명하도록 하겠다. 

<Table 1>은 참가한 참여자들이 평가 결과에 대하여 동의한 공정한 동료 평가의 예이다. 이 결과를 보면 평가자 A가 A, B, C, D에게 매긴 점수의 평균은 15점이고 표준편차는 5.83임을 확인 할 수 있다. 마찬가지 방법으로 B, C, D가 매긴 점수들도 평균값과 표준편차값을 산출해보면, 이 동료 평가는 Flexi-Sum방식을 이용하여 점수가 매겨졌기 때문에 한 사람이 매긴 점수의 합이 40점으로 일정하여 평균값은 15점으로 모두 같고 표준편차 값도 각각 5.83, 4.47, 4.47, 5로 비슷하다. 이 값들의 표준편차값은 0.56으로 0에 가까워 비슷한 값을 가진다는 것을 확인할 수 있다. 또한 각 참여자가 받은 점수의 평균값은 21.75, 16.75, 13.25, 8.25인데, 이 값의 표준편차는 4.93으로 앞서 구한 각 참여자이 매긴 점수의 표준편차값과 비슷하기 때문에 일관적인 평가가 이루어졌음을 확인할 수있다. 

<Table 1> Example of Fair Flexi-sum.

<Table 2> 참여자들이 동의하지 않은 동료 평가 결과로써 이 역시 Flexi-sum 방법으로 점수가 매겨졌기 때문에 매겨진 점수의 평균은 15로 동일하다. 그러나 매겨진 점수의 표준편차를 계산해보면, 각각 5.83, 4.47, 4.47, 0으로 D가 매긴 점수의 표준편차가 다른 사람이 매긴 점수와 비교했을 때 차이가 많이 난다. 즉 다른 평가자와 비교해 보았을 때 일관성이 없는 평가 척도를 가지고 평가를 했다고 볼 수 있다. 또한 각 참여자이 받은 점수의 평균값의 표준편차는 3.69로 앞서 구한 각 참여자이 매긴 점수의 표준편차값과 달라, 일관성이 없는 평가가 이루어졌음을 확인할 수 있다. 

<Table 2> Example of Unfair Flexisum.

일관성에 대한 확인은 각 평가자가 매긴 점수들의 분포(평균, 표준편차)로 확인할 수 있고 일관성을 갖기 위해서는 Parsons의 방법들처럼 부여할 수 있는 점수의 범위를 미리 정해주는 것이 도움이 되며, 교육 및 훈련을 통해 해결할 수 있다. 

동료 평가의 장점은 그룹 프로젝트에 참여했던 참여자들끼리의 평가이므로 제3자가 개입하지 않기 때문에 제3자에 의한 불합리한 평가는 피할 수 있지만, 참여자들끼리 서로 평가를 해준다는 것은 경쟁자의 점수를 매기는 것이라고도 볼 수 있다. 이러한 이유 때문에 동료 평가는 공정성에 큰 문제를 갖는다. 즉, 자신의 점수를 높이기 위하여 자신의 기여도에 대하여 매우 높은 점수를 주거나, 실제로 기여도가 많은 참여자의 점수를 낮추기 위하여 일부러 낮은 점수를 주는 등의 악의적 행동이 가능하다. 또한 자신과 인간적인 관계가 좋지 않은 참여자에 대해서도 보복성으로 낮은 점수를 줄 수 있다. 이 뿐만 아니라 여러 연구로부터 참여자들은 같은 동료를 평가한다는 것에 대하여 기본적으로 거부감을 가지고 있다는 것을 확인할 수 있었다. 그렇기 때문에 정확하고 객관적인 평가보다는 일괄 점수나 비슷한 점수를 주는 등 공정성을 띄지 않는 동료 평가가 이루어지고 있다. 이를 해결하기 위하여 공정성 여부를 확인할 수 있는 방법과 공정성을 확보한 동료 평가 방법이 필요하다. 공정성 여부는 한대상에 대하여 평가자가 매긴 점수들을 비교해 봄으로써 확인할 수 있다. 공정한 평가가 이루어졌다면 모든 평가자들이 비슷한 점수를 줄 것이다. 그러나 한 평가자가 공정하지 않은 평가를 하였다면 그 평가 점수는 다른 평가자들이 준 점수와 비교하였을 때 점수 차를 가지고 있을것이다. 그러므로 공정성 여부는 한 사람이 받은 점수들의 표준편차 값이 0에 가까운지 아닌지로 구분할 수 있다. 위에서 보았던 공정한 평가의 예인 <Table 1>의 경우에는 각 평가자가 받은 점수들의 표준편차가 각각 0.83, 0.43, 0.43, 0.83으로 모두 큰 차이는 없지만 공정하지 못한 평가 결과의 예인 <Table 2>의 경우에는 3, 0.87, 0.87, 3으로 표준편차의 차이가 큰 것으로 나타났다. 

이것은 일관성과도 관계가 있으며, D의 경우 모든 사람에게 15점을 주어 다른 평가자들과 비교하여 일관성이 없는 평가를 하였는데 이것은 결국 공정성 문제와도 연결이 되어 한 사람에 대하여 매긴 점수가 다른 사람들과는 다른 결과를 가지게 되었다. 그래서 D가 A와 D에게 매긴 점수가 다른 평가자들과 비교해 보았을 때 차이가 많이 나 표준편차 값이 0에 가깝지 않은 3이라는 값을 가짐을 확인 할 수 있었다. 

이러한 문제를 해결하기 위해서는 최종 기여도를 산출하는 데에 있어서 공정성에 대한 평가 메커니즘이 필요하다. 다른 사람들과의 점수 비교를 통해서 매겨진 점수가 공정성이 있는지 없는지 그 여부를 판단하고 그것이 최종 기여도에 반영되는 평가 방법이 필요한 것이다. 

4. 제안 알고리듬

4.1 통계 기반 기여도 평가 알고리듬

앞에서 언급한 일관성과 공정성을 확보한 동료 평가 방법을 제시하기 위하여 동료 평가의 점수 부여와 점수산출 과정에 이를 보완해 주는 메커니즘을 넣었다. 먼저 일관성을 확보해주기 위하여 본 알고리듬은 Flexi-Sum기반의 점수를 부여 하는 것으로 하였으나 점수의 범위를 미리 설정하고 적절한 교육과 훈련을 일관성은 어느정도 유지할 수 있으며, 제시한 알고리듬 또한 보정을 해주는 역할을 하고 있다. 두 번째 공정성을 확보하기 위해서는 자신이 매긴 점수와 다른 사람이 매긴 점수가 같을수록 공정하다는 것을 기본 가설하에 평가 방법이 설계하였다. 이 때 평가자가 얼만큼 공정하게 다른 사람을 평가하였는지를 알아보기 위하여 카이제곱 검정이라는 통계적 방법을 사용하였고, 카이제곱 검정 통계량을 기준으로 각 평가자의 공정성에 대한 가중치를 계산하여 그 값을 최종기여도에 반영해 공정성 여부가 반영되도록 동료평가 방법을 설계하였다. 다음은 제시한 방법에 대한 상세 단계를 설명하고 <Table 3>을 예로 설명하고자 한다. 

<Table 3> Running Example.

Stage 1 : 동료 평가

본 알고리듬에서는 Flexi-Sum 방법을 적용하기로 고하고 <Table 3>과 같이 기본점수 10으로 하여 평가한 결과를 실행 예제로 하여 알고리듬에 대한 상세 설명을 하고자 한다. 

Stage 2 : 자신의 평가 점수를 제외한 점수의 평균값 계산

공정성 검사를 위하여 자기 자신이 평가한 것을 제외한 점수의 평균값 표와 기존 Flexi-Sum 방법의 표와의 비교가 필요하다. 여기서 X(a,b)를 b가 평가한 a의 점수라 정의하자. 즉 <Table 3>에서 X(a,b)는 B가 평가한 A의 점수로 8점을 나타낸다. 

그리고 는 b가 평가한 점수를 제외한 a의 평균 점수를 의미하며, <Table 4>는 이러한 값들로 이루어져있다. 예로 는 A자신이 평가한 점수를 제외한 다른 동료에 평가된 점수의 평균을 의미하며, <Table 3>으로부터 (8+11+8)/3 = 9임을 알 수 있으며, 이는 <Table 4>의 셀 (A, A)에 나와 있다. 이와 같은 방법으로 <Table4>의 모든 값을 구할 수 있다. 

<Table 4> Mean of Other’s Evaluation Score.

Stage 3 : 공정성 평가

한 평가자가 매긴 점수와 그 평가자를 제외한 나머지 평가자들이 매긴 점수의 평균과를 비교하여 평가자의 공정성을 평가해 보는 과정으로, 각각의 평가자에 대해서 귀무가설을 자신의 평가와 다른 사람들의 평가의 표준과 일치한다고 세울 수 있다. 평가자 j를 위한 통계량을 라 하면, 

이라 정의할 수 있으며, 이를 <Table 5>에 두 번째 행에 계산하여 나타냈다. 그리고 이 예제에서는 총 피평가자가 4명이 이므로, 자유도는 3임을 알 수 있다.

<Table 5> Result Table.

그리고 평가자 j의 공정성에 척도 Fj를 다음과 같이 정의할 수 있다. 

여기서 Fj ∈[0,1]이며, 다른 평가자의 평균과 일치할수록 1에 가깝고, 전혀 다른 평가를 할수록 0에 가까운 값이된다. 그러므로 <Table 5>의 결과값을 보면, 가장 다른 사람의 평가의 평균과 일치한 사람은 평가자 D이며, C는 다른 사람들과의 의견이 많이 다른 것을 볼 수 있다. 

Stage 4 : 가중치 계산

카이제곱 검정을 기반으로 하여 각 평가자의 공정성에 관한 가중치 W는
 
로 정의하며, 여기서 n은 총 평가자의 수를 나타내다. 그리고 그 결과는 <Table 5>과 네 번째 행에 계산되어 있다.

Stage 5 : 최종 기여도 산정

마지막으로 구한 가중치를 반영한 최종 기여도는
 
를 이용하여 구할 수 있으며, 최종 기여도를 구하면<Table 5>의 마지막 행에 나와 있다.

<Table 6>을 보면, 기존의 Flexi-Sum 방법으로 단순히 평균으로만 기여도를 평가했을 때와 카이제곱 검정을 이용했을 때, 총 기여도 점수에 차이가 있었다. 특히, C의경우는 카이제곱 검정 결과 유의 수준 0.05보다 작았기 때문에 C는 평가를 할 때 공정성을 가지지 않았음을 확인할 수 있고 그 결과 기여도 평가에 반영되는 C의 가중치가 매우 낮아져 자신의 평가 점수가 최종 기여도 점수에 많이 반영되지 않았다. C는 자신에게 매우 많은 점수를 부여했었기 때문에 Flexi-Sum을 이용했을 때보다 13.11% 점수가 낮아진 결과를 확인할 수 있었다. 

<Table 6> Change of Contribution.

4.2 Feasibility study

우리가 제시한 카이제곱 검정을 이용한 동료 평가 방법이 효용성이 있는 것인지 알아보기 위하여 제3장의 <Table1>과 <Table 2>, 즉 공정하지 않게 동료 평가가 이루어진 경우와 공정하게 동료 평가가 이루어진 경우 두 가지를 예로 들어 설명하고자 한다. 각 경우를 기존의 단순 평균 방법으로 산출된 기여도 점수와 카이제곱 검정을 이용하여 산정한 기여도 점수를 비교해서 우리가 제시한 방법이 가치가 있는지 분석해 보았다. 

동료 평가가 공정하게 평가되었는지 아닌지를 확인하는 여부는 각 행과 열의 표준편차를 산출하여 알아볼 수있다. 행의 표준편차들의 값은 각 학생이 받은 점수의 표준편차 값이므로, 좋은 동료 평가가 이루어졌다면 평가자들이 거의 비슷한 점수를 주게 되기 때문에, 이때에는 0에 가까운 값을 가진다. 열의 표준편차 값은, 각 평가자가 매긴 점수들의값의 표준편차이다. 이 값들이 비슷할수록 평가자들이 매긴 점수의 분산이 같기 때문에 각 값들이 비슷해야 좋은 동료 평가가 이루어졌다고 할 수 있다. 먼저, 공정한 평가의 예는 앞서 본 <Table 4>를 들었다. 이것을 보면, 앞서 이야기한 대로 행의 표준편차는 [0.83, 0.43, 0.43, 0.83]으로 0에 가깝고, 열의 표준편차는[5.83, 4.47, 4.47, 5]으로 표준편차가 0.642로 매우 적은 값을 가지고 어 공정한 평가가 이루어졌다고 할 수 있다.

이 동료 평가를 카이제곱 검정을 통한 동료 평가 산출방식으로 기여도를 평가하기 위하여 가중치를 계산해보면, <Table 7>과 같은 결과를 얻을 수 있다.  

<Table 7> New Results with Data of <Table 1>.

<Table 7>을 보면, 공정하게 평가되었기 때문에 각 가중치가 서로 비슷해, 총 기여도에 같은 비율로 영향을 미친다는 것을 알 수 있다. 즉, 이것은 카이제곱 검정을 이용한 동료 평가 방식이 공정하게 매겨진 평가를 인식할수 있고 원래 매겨진 점수가 공정하기 때문에 카이제곱검정을 통한 교정된 값과 비교했을 때 큰 차이가 없다는것을 확인할 수 있다. 

공정하지 않은 동료 평가의 예로 <Table 2>를 사용하였다. <Table 2>를 보면, 행의 표준편차는 [3, 0.87, 0.87, 3]으로 많은 편차를 가지고 있으며, 열의 표준편차는 [5.87, 4.47, 4.47, 0]으로 표준편차가 2.555로 서로 비슷한 값을 가지고 있지 않아 일관성이 없는 공정하지 않은 평가가 이루어졌다고 할 수 있다. 

이러한 결과를 우리가 제시한 카이제곱 검정을 이용한 동료 평가 방법으로서 각 평가자의 공정성에 따라 가중치를 두어 새로운 기여도를 산출하기 위하여 가중치를 계산해보면, <Table 8>을 얻을 수 있다. 결과를 보면, 일괄적인 점수를 주었던 D는 공정하지 못한 평가를 했으므로 가중치가 0.02로 D의 평가는 전체 기여도 산출에 거의 영향을 주지 않는다는 것을 확인할 수 있다. 

<Table 8> New results with data of <Table 2>.

가중치를 바탕으로 최종 기여도를 산출해보면, 공정하지 못한 평가를 했던 D는 최종 기여도가 12.9% 낮아졌고 C의 경우 D를 제외한 사람들은 13점을, D는 15점을 주었었는데 D의 가중치가 작아지면서 최종 기여도에 영향을 미쳐 기여도가 3.33% 낮아졌다. 이에 비해 A와 B는 기여도가 높아졌다. 이것으로부터 카이제곱 검정을 통한 기여도 산출이 공정하지 못한 평가를 판별할 수 있고 또 이것을 판별할 뿐만 아니라 공정한 최종 기여도로 교정할 수 있다는 것을 알았다. 

앞서 공정한 경우와 공정하지 못한 경우의 두 가지 예로부터, 카이제곱 검정을 이용한 기여도 산정은 공정성을 판별할수 있고 공정하지 않은 경우에는 이를 교정하여 공정한 기여도 점수를 매길 수 있다는 점을 알았다. 기존의 Parsons가 이야기 했던 표준편차를 이용해 공정성을 검토하는 방법도 공정성의 여부는 확인할 수 있지만 공정하지 않은 동료 평가를 교정할 수 있는 기능은 없었다. 그러나 카이제곱 검정을 통한 방법은 공정하지 못한 평가의 경우에도 이를 교정할 수 있었다. 또한 점수를 매기는 과정에 새로운 방법이 도입되는 것이 아니기 때문에 동료 평가의 장점인 간편하고 쉽게 평가를 할 수있다는 점은 그대로 살리고, 기여도 산출 과정에서 카이제곱 검정을 이용함으로써 공정한 기여도 산출을 할 수 있어 더욱 의미가 있다. 

5. 사례 분석

카이제곱 검정을 이용한 동료 평가 방법이 실제로 참여자들을 평가하는 데에 사용되었을 때 어떤 결과를 갖는지를 확인하기 위하여 Case Study를 진행 하였다. 즉 실제로 어떤 동료 평가 결과를 갖는지를 확인하고 이것이 또 학생들이 이 동료 평가 방법론에 대한 반응을 분석하였다. 

5.1 Design

2010년 1학기 건국대학교 산업공학과의 PM과목에서 카이제곱 검정을 이용한 동료 평가 방법의 Case Study를 진행하였다. 먼저 강의 초 학생들에게 이번 강의의 평가 방법에 대하여 설명하면서 조별 프로젝트의 평가를 동료 평가 방법으로 카이제곱 검정을 이용한 방법을 쓴다는 것을 설명해 주었고, 또 이 평가방법의 원리와 과정에 대하여 설명을 해 주었다. 조별 프로젝트는 30명의 학생을 5명씩 6개의 조로 나누어 진행하였고 한 학기 동안 총 5번의 프로젝트를 내 주었다. 그리고 그 프로젝트의 각 조의 점수를 평가할 때 동료 평가 방법을 이용하였다. 하나의 프로젝트가 끝날 때마다 모든 조가 그 결과를 발표하는데, 그것을 보고 모든 조에서 각 조에 대한 평가를 하는 것이다. 모든 동료 평가 결과는 카이제곱 검정을 이용한 동료 평가 방법으로 점수가 결정되고 5번의 점수를 합한 값이 프로젝트 점수가 되며 이 점수가 각학생의 최종 점수 중 프로젝트 점수에 반영된다. 

5번의 프로젝트가 끝나고 산출된 최종 프로젝트 점수를 학생들에게 알려주고 나서 이에 대하여 어떻게 반응하는지 알아보기 위하여 설문조사를 진행하였다. 프로젝트에 참여하였던 30명의 학생들 모두에게 설문을 하였고, 이 설문은 익명으로 진행하였다. 설문은 평가 방법 이해도와 공정성 여부, 마지막으로 기존의 방법보다 공정성면에서 비교우위가 있는지 이 세 가지를 물었다. 설문에 대한 답은 5점 리커트 척도에 따라 객관식으로 주어졌다. 

5.2 Analysis

사례 연구를 통하여 얻은 결과로부터 카이제곱 검정을 이용한 동료 평가 방법에 대하여 공정성 평가 메커니즘이 실제로 그 효력을 가지고 있어, 공정한 평가 결과로 이끄는지, 또 학생들이 이 방법을 접했을 때, 어떻게 느끼는 지를 알아낼 수 있었다. 

Issue 1 : 공정성 평가 메커니즘이 효과가 있는가?

기존의 동료 평가는 대부분 학생들이 그 동료 평가 방법에 대한 훈련과 경험이 많아질수록 공정성 있는 결과를 가졌다. 이번 카이제곱 검정을 이용한 동료 평가 역시 프로젝트를 총 5번 시행함으로써 학생들의 경험 횟수에 따른 공정성을 측정할 수 있었다. 공정성은 두 가지 방법으로 측정이 가능하다. 

첫 번째 방법은 공정성 평가 과정으로부터 나오는 각팀의 F값의 합을 이용한다. F는 공정성의 척도이므로 이값의 합이 클수록 공정한 동료 평가가 이루어졌다고 볼 수 있기 때문이다. 한 팀의 F값은 [0, 1]이고 이 값은 공정할수록 1, 공정하지 않을수록 0에 가까운 값을 갖기 때문에 총 6개의 팀이 참여하였기 때문에 Sum of F값의 최대값은 6, 최소값은 0이 된다. 

<Figure 1> Sum of F.

<Figure 1>를 보면, 학생들이 카이제곱 검정을 이용한 동료 평가 방법의 경험이 많아질수록 점차적으로 F값의 합이 대체적으로 증가하고 있다는 것을 확인할 수 있다. 특히 마지막 다섯 번째 동료 평가에서의 F값의 값은 5.91로서 최대값인 6에 거의 가까운 값을 가진다. 이로서 학생들이 이 동료 평가 방법에 대한 훈련을 거치면서 더욱 공정한 평가를 한다는 것을 확인할 수 있었다. 

두 번째로 각 동료 평가의 공정성을 판별할 수 있는 기준은 각 팀의 가중치의 표준편차값이다. 평가자들의 가중치가 일정하다는 것은 모든 평가자의 평가가 최종 기여도에 비슷하게 반영된다는 것을 의미하기 때문에 평가자들이 공정성 평가에 대하여 인식해 최대한 공정한 평가를 하였다고 볼 수 있다. 그러므로 각 동료 평가에서의 평가자들의 가중치의 표준편차를 계산하여 이 표준편차 값이 0에 가까울수록 모든 평가자들이 공정한 평가를 했다고 볼 수 있다. <Figure 2>는 동료 평가의 회차가 많아질수록 가중치의 표준편차 값이 0에 가까워지고 있음을 보여주고 있다. 이로써 가중치의 표준편차값으로도 학생들의 공정성이 커지고 있음을 확인할 수 있었다. 

<Figure 2> Sum of S.D. of Weight

즉, 동료 평가의 각 프로젝트별 F값의 합과 가중치의 표준편차값 모두 학생들이 카이제곱 검정을 이용한 동료평가 방법에 대한 경험이 많아질수록 그 공정성이 커지고 있다는 것을 의미한다. 이것은 카이제곱 검정을 이용한 동료 평가 방법에서의 공정성 평가 메커니즘을 의식한 결과라고 해석할 수 있다. 공정성 평가를 통하여 공정하게 매겨진 점수는 최종 기여도에 잘 반영되고, 공정하지 못한 평가를 했을 경우에는 가중치가 작아져 최종 기여도에 거의 반영되지 못한다는 사실을 여러 번의 동료평가를 통하여 학생들이 인지한 결과라 할 수 있다. 그러므로 카이제곱 검정을 이용한 동료 평가 방법은 실제 강의에서의 평가 방법에 적용되었을 때 그 공정성의 효과가 발휘된다는 것을 알 수 있다. 

Issue 2 : 공정성이 있고, 다른 방법보다 공정성에 도움을 준다고 느끼는가?

학생들이 공정하다고 느끼는지, 그리고 기존의 다른 동료 평가 방법에 비하여 카이제곱을 이용한 동료 평가 방법이 평가를 공정하게 하는데에 있어서 도움이 된다고 느끼는지를 알아보기 위하여 설문조사 결과를 분석하였다. 사용된 동료 평가 방법이 공정하다고 느끼는지를 물어보는 질문에서, <Figure 3>과 같이 학생 30명 중 14명(47%)이 공정하다고 하였고, 16명(53%)이 보통이라고 응답하였고, 5점 리커트 척도로 이를 분석했을 땐, 평균적으로 3.46점을 받아, 학생들이 카이제곱 검정을 이용한 동료 평가 방법에 대하여 공정하다고 느낀다는 것을 확인할 수 있었다. 

<Figure 3> Survey Result of Equtablity.

평균법과 같은 기존의 동료 평가 방법과 비교해 보았을 때(<Figure 4>), 카이제곱 검정을 이용한 동료 평가 방법이 공정한 평가에 도움을 주는지를 묻는 질문에서는, 별로 도움이 되지 않는다고 응답한 사람이 1명(3%), 보통이라고 응답한 사람이 14명(47%), 조금 도움이 된다고 응답한 사람이 13명(43%), 매우 도움이 된다고 응답한 사람이 2명(7%)였다. 5점 리커트 척도로 보았을 때 평균점수는 3.53으로서 학생들은 카이제곱 검정을 이용한 동료 평가 방법이 기존의 동료 평가 방법에 비하여 공정성을 확보하는데에 도움을 준다고 생각한다는 것을 알 수 있었다. 

<Figure 4> Survey Result of Efficiency.

결과적으로 학생들은 카이제곱 검정을 이용한 동료평가 방법에 대하여 공정하다고 느끼며 다른 동료 평가방법에 비하여 공정성을 확보하는데에 도움을 준다고 생각한다는 것을 확인할 수 있었다. 

5. Conclusion

이 논문은 동료 평가를 이용한 참여자들의 기여도 평가 방법을 연구하였다. 기존의 평균만을 사용했던 것과는 달리, 카이제곱 검정을 이용한 새로운 기여도 산정 방법을 제시하였고 이를 바탕으로 사례 연구를 진행하였다. 그 결과 우리가 제시한 방법이 공정성과 타당성이 있음을 확인할 수 있었고, 기존 방법의 단점을 보완했음을알 수 있었다. 그리고 실제 강의에서 수집된 자료를 바탕으로 검토해 볼 결과 학생들이 공정하게 평가를 해야 최종 기여도에 점수가 반영된다는 것을 경험이 쌓임에 따라 의식하게 됨에 따라 되도록 공정하게 평가하려는 경향이 보이고 있다. 이것은 카이제곱 검정을 통한 동료 평가 방법의 공정성 평가 메커니즘이 효력을 발휘한다는 것이라고 볼 수 있다. 또한 설문을 통하여 학생들이 새로운 방법에 대하여 공정하다고 느끼고 또 기존 방법보다 공정성을 확보하는 데에 도움을 준다고 생각하여, 이 방법이 실제 동료 평가 결과와 학생들의 응답을 보았을 때, 공정한 방법이라는 것을 확인할 수 있었다. 

카이제곱을 이용한 동료 평가 방법의 점수 부여 방식은 기존과 같이 간단히 점수를 매기고, 산정 방법에서 카이제곱 검정을 이용하기 때문에, 실제 평가에서 적용하기도 용이하다. 그러나 이 방법 역시 동료 평가의 고질적인 한계점인 서로 동료를 평가하기 기피한다는 점, 각 평가의 척도가 다르다는 점 등에 대한 부분까지 해결 해줄 수는 없기 때문에 향후에는 이러한 한계점까지 보완할 수 있는 방법이 연구되어야 할 것이다. 

Acknowledgements

This paper was written as part of Konkuk University’s research support program for its faculty on sabbatical leave in 2012. 

36-1-06 조미연 고성석44-52.pdf496.8KB

Reference

1.Freeman, M., Peer assessment by groups of group work. Assessment and Evaluation in Higher Education, 1995, Vol. 20, p. 289-299.
2.Gehringer, E.F., Assessing Studentsʼ Wiki Contributions, 2008 American Society for Engineering Education Annual Conference and Exposition, 2008.
3.Herbet, N., Peer assessment : Is it fair?, In Uniserve science assessment symposium proceeding. Sydney, 2006.
4.Kennedy, J.G., Peer-assessment in Group Projects : Is It Worth It?, Australian Computer Society, Inc, 2005, Vol. 42.
5.Ko, S.S. and Cho, M.Y., The Quality Control System on Online Collaboration System. Journal of the Society of Korea Industrial and Systems Engineering, 2010, Vol. 33, p 127-132.
6.Marjo van Zundert, Effective peer assessment processes : Research findings and future directions. Learning and Instruction, 2009, Vol. 20, p 270-279.
7.Michaelsen, L.K., Team learning : a comprehensive approach for harnessing the power of small groups in higher education. To Improve the Academy, 1994, Vol. 11, p 107-122.
8.Panchal, J. and Fathianathan, M., Product Realization in The Age of Mass Collaboration, Proc. ASME 2008 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference, 2008, p 3-6.
9.Parsons, D., Justice in the Classroom : Peer Assessment of Contributions in Group Projects, Proc. 17th NACCQ, 2004, p 145-151.
10.Raban, R. and Litchfield, A., Supporting peer assessment of individual contributions in groupwork, Proc. 23rd Annual Ascilite Conference, 2007, p 685-694.
11.Topping, K.J., Peer Assessment, Theory Into Practice, 2009, p 20-27.