2017年5月31日 星期三

MOOC 中的同儕互評機制(四):如何改善MOOCs中的互評機制--下一代的互評機制

前情提要:如何改善 MOOCs 中的互評機制--評分標準 Rubrics



在上一段文章中,我們看到了rubrics在同儕互評當中的應用。回到「改善互評成效」的初衷,我們還有另外一個努力的方向,就是「改進機制本身」。談到改進機制之前,則不得不先提到「機制設計」這門新興的經濟學分支。

機制設計(mechanism design)可說是跨越經濟學、賽局理論和工程科學的領域。以一個自由交易的市場來比喻,傳統的經濟學觀察並闡釋市場中買家和賣家的行為;賽局理論則進一步透過界定理性和均衡的概念,試圖預測市場未來合理的發展;然而,如果主導市場運作的管理者希望透過制定或修改市場運作的規則,促進某些特定事件的發生、或想將市場誘導往特定的方向前進,機制設計就是告訴管理者如何制定規則的學問,舉凡市場、拍賣、選舉、資源分配都是這門學問的應用範圍。

若以機制設計的角度來看現行的同儕互評,最顯而易見的問題即是:學習者沒有動機將自己的心力投注在同儕互評上。絕大多數的情況中,同儕互評只是一件必須完成的任務,這項任務無論是嘔心瀝血或草率執行,並不影響學習者自身的利益。在傳統的課堂當中,學習者和教學者或同儕都會面對面並長期互動;然而在MOOCs的世界裡,學習者甚至不知道互評中遇到的同儕身分,也不需要對自己做出的同儕互評結果負任何責任。不意外地,正如同賽局理論中單一賽局的均衡總是比重複性賽局來得差一般,MOOCs學習者對同儕互評結果的不滿從未止息(註1)、Coursera的幾位大老更是在探究同儕互評的文章中(註2)公開指出學習者的動機是一個必須解決的問題。直覺上,若能透過機制的改進、讓學習者有動機投注更多的心力進行同儕互評,每個單獨的評分結果都有機會更為準確,而整體的評分亦然。以此為目標,近年來學者們也提出了幾個不同的想法。

首先,加州大學聖塔克魯茲分校的de Alfaro(註34)團隊設計了一套名為「Crowdgrader」的線上評分系統。結合了近年興起的群眾外包(Crowdsourcing)和評分者(grader),這套系統從名稱便不難看出與同儕互評的緊密關係。的確,這個系統最主要的用途就是在各式各樣的課堂當中實現「具動機的同儕互評」。除了將所有人對同一份作業的評分結果進行運算、得到該份作業最終的分數之外,系統還會依據單獨評分和最終分數的差異,對每個人的評分「準確度」進行衡量;而教學方可以選擇讓這個分數成為學習者最終成績的一部分。換句話說,認真地批改別人的作業將可以為自己贏得更多的分數;透過這個簡單易懂的機制,同儕互評就有了動機。

不只如此,Crowdgrader也提供了同儕互評之後的互動平台。學習者在互評的過程中除了打下冰冷的分數之外,也能透過系統傳遞文字意見給原作者;而原作者將有機會做出回應,甚至也有權評估這些意見是否對自己的學習產生幫助。而你猜得沒錯--意見對原作者的幫助程度,也能計入評分者的成績之中。透過這樣的方式,在使用Crowdgrader的班級當中,學習者們對自身成績以及制度的滿意程度幾乎和教學方人工批改相當。

有別於將評分表現計入成績,萊斯大學(註5)的另一個團隊則採取不同的方式創造動機。在他們的實驗中,學習者會針對評分者的表現給予回饋;雖然評分者的表現不影響自身的成績,然而經過收到回饋、同時為別的評分者的表現打分數的「二次評分」的過程,他們在往後的作業中互評的能力也有所提升。無論是成就感、名譽或比較心理,在學習的過程中確實存在著成績以外的重要元素,而他們的研究也說明了分數不僅是動機的唯一來源。

相較於創造動機,Coursera發源地、史丹福大學的團隊(註6)則探討如何在慣用的平均、中位數等計算方法之外,創造更精準的分數計算原則。由於MOOCs平台上的資料都會被詳實紀錄,藉由觀察學習者在不同課程、或同課程不同作業中的評分表現,我們也許能夠得知學習者的評分傾向:是否傾向打高分、低分;評分結果是否總是和最後結果相去不遠;甚至是否有國籍、族群上的偏好,都有可能從這些資料中被分析得知。如果能利用這些對學習者的「深入了解」,對將來他們的評分進行必要的調整,抽離個人的評分傾向,整體的評分是否能夠更為客觀準確呢?如果能事先得知哪些評分者的表現較為優良(也就是結果較為「準確」),是否能夠在計算平均的時候,給予這些優良評分者更多的權重?透過統計模型的分析,作者們認為這些都是極有可能的。

上述的方法雖然美好,但也可能引發爭議。過去的傾向是否真的能反映未來傾向、不同評分者獲得不同權重是否具正當性,都是值得釐清的問題;而抽取傾向的過程中涉及的種族、國家、性別等概念,更是容易觸碰禁忌。此外,這樣的機制也有過於複雜、不透明之虞,難以使學習者信任。也許是因為這些待克服的難題,Coursera現今的同儕互評還是以簡單的平均作為計算方式。但無論如何,這些研究都展示了下一代的同儕互評機制的可能性--我們可以期待更能準確並客觀的評量方式出現。

文/柯劭珩 


註1.Cho, K., Schunn, C. D., & Wilson, R. W. (2006). Validity and reliability of scaffolded peer assessment of writing from instructor and student perspectives. Journal of Educational Psychology, 98(4), 891.
註2.Piech, C., Huang, J., Chen, Z., Do, C., Ng, A., & Koller, D. (2013). Tuned models of peer assessment in MOOCs. arXiv preprint arXiv:1307.2579.
註3. de Alfaro, L., & Shavlovsky, M. (2014, March). CrowdGrader: A tool for crowdsourcing the evaluation of homework assignments. In Proceedings of the 45th ACM technical symposium on Computer science education (pp. 415-420). ACM
註4. de Alfaro, L., & Shavlovsky, M. Dynamics of Peer Grading: An Empirical Study.
註5. Lu, Y., Warren, J., Jermaine, C., Chaudhuri, S., & Rixner, S. (2015, May). Grading the graders: Motivating peer graders in a MOOC. In Proceedings of the 24th International Conference on World Wide Web (pp. 680-690). ACM.
註6.Piech, C., Huang, J., Chen, Z., Do, C., Ng, A., & Koller, D. (2013). Tuned models of peer assessment in MOOCs. arXiv preprint arXiv:1307.2579.





沒有留言:

張貼留言