首頁

資訊中心

企業(yè)動態(tài)

行業(yè)動態(tài)

安全動態(tài)

行業(yè)資訊

設備資訊

工具資訊

材料資訊

招商代理

您當前位置:首頁 > 新聞頻道 > 技術(shù)動態(tài) > 正文

探析網(wǎng)上在線考試自動評分技術(shù)

2016-04-14 18:38:34 安裝信息網(wǎng)

摘要：本文研究了在線考試主觀題的評分思路，利用模糊數(shù)學中貼近度概念設計了主觀題的評分公式，并測試了應用效果。
論文關(guān)鍵詞：網(wǎng)上考試,自動評分,健壯性,單向貼近度
　　選擇題、判斷題、填空題的評分方法較為容易實現(xiàn)，采用的辦法就是用學生的答案與標準答案進行比較，比較結(jié)果一致，則答案正確，否則答案錯誤。在實現(xiàn)選擇題、判斷題、填空題的評分時，是這樣設計的，那就是：當考生點擊“交卷”或者當考試時間計滿系統(tǒng)自動強制交卷時，則進行客觀題的自動評判，并將這一部分的成績立即顯示給用戶。
　　主觀題包括：問答、證明、計算、設計題等多種題型。但是對于主觀題，如論述題、簡答題等沒有統(tǒng)一答案的試題，由于涉及到人工智能、模式識別和自然語言理解等技術(shù)，實現(xiàn)起來相當復雜，目前還沒有一種考試系統(tǒng)能很好地完成其自動閱卷，因而成為在線考試系統(tǒng)中的一個技術(shù)難點。本文的網(wǎng)上在線考試系統(tǒng)中，由于各項條件尚不成熟，因而沒有全面地實現(xiàn)網(wǎng)上考試主觀題自動評分的設計，但本人探索性地提出了一套算法，以期能拋磚引玉。
　　主觀題評分：由于主觀題在答題時一般采用自然語言敘述的方式，由于考生的個性不同，理解程度和表述方式不同，同一個問題，不同的考生有不同的回答：即使對某些知識掌握程度差不多的學生，由于語言表達能力的不同，對主觀題的回答也會不一樣。即使學生的答案準確，也很難與標準答案完全一致。因此若要象對客觀題評分那樣客觀、準確地對主觀題進行評分在目前的技術(shù)水平下是難以做到的。本文想通過分析人工評閱主觀題時的常規(guī)思維，引入模糊理論中單向貼近度的概念，設計一套算法，模擬閱卷教師的這種思維活動，對學生答案和標準答案進行分析從而較準確地給出學生的實際得分。雖然該算法可能還不夠完善，但為了開拓一條現(xiàn)實可行的途徑，作為一種輔助手段，該算法還是很有意義的。
　　（1）評分思路
　　教師在評閱主觀題時一般是預先制定好一套評分標準，然后將每道試題的總分劃分成若干部分，將分數(shù)分配到試題的求解過程中的一些關(guān)鍵的步驟或關(guān)鍵的詞語上，通常稱之為得分點，評閱時首先檢查學生答案中有幾個得分點，得分點多則分數(shù)高，然后再看學生的答案和標準答案的貼近度，貼近度高則分數(shù)高，最后再考慮學生的答案語言是否通順，條理性是否強等因素，適當對分數(shù)進行調(diào)整。
　　根據(jù)上述分析，可以發(fā)現(xiàn)，影響評分的因素主要有兩個：一個是標準答案及評分標準的組織，即得分點；另一個是學生答案和標準答案的貼近度。因此，在基于內(nèi)容的主觀題自動評閱系統(tǒng)中，可以先將標準答案分成若干個要素（即關(guān)鍵字），每個關(guān)鍵字與不同的分值相對應，閱卷系統(tǒng)的主要任務就是在學生答案中進行關(guān)鍵字的提取，分析其關(guān)鍵字與各標準答案關(guān)鍵字的貼近度，按照各標準答案關(guān)鍵字在整個試題得分中所占的比例，評定其小分，最后累加答案中各關(guān)鍵字的得分即可。學生答案和標準答案的貼近度可以采用模糊數(shù)學中的貼近度來描述，而對于語法結(jié)構(gòu)則不做過多考慮，這樣，一方面可以避免對句子進行復雜的句法分析，另一方面也可增加系統(tǒng)的健壯性，如學生答案中出現(xiàn)無關(guān)大局的語法錯誤時，只要其概念表述正確，系統(tǒng)仍然可以給出相應的貼近度評價，這與教師的閱卷過程是相符合的。
　�。�2）相關(guān)定義
　　為解決學生答案和標準答案的貼近度表示問題，可以把學生答案和標準答案均看成字符串，下面對單向貼近度的概念進行定義。
　　把一個字符串分解為單個字符并把它們構(gòu)成的有序集合稱為一個模糊集，U=｛ul , u2,……，un｝稱為論域，論域U上的全體模糊子集所組成的集合記作F(U)（也叫模糊冪集）。
　　為度量兩模糊集的接近程度，引入單向貼近度的概念。
　　定義1：設U={ul , u2, ……，un}，A,BF(U)。若映射ξ：F(U)×F(U)→[0,1]，滿足條件：
　�、� ξ(A，A)=1；
　�、� ξ(B，B)=1；
　�、� 若ABC或ABC，則ξ(A，B)≥ξ(A，C)。
　　稱ξ(A，B)為A貼近于B的單向貼近度。
　　定義2：設A，B是字符串，A中包含n個字符，ξ(A，B)表示A貼近于B的單向貼近度，按照從左到右的順序，集合A中的每個元素在集合B中出現(xiàn)的有效次數(shù)和記為m，則ξ(A，B)=m／n。容易驗證，它滿足單向貼近度的定義。
　　（3）算法說明
　　為說明方便，以字符串S1和S2為例介紹計算字符串SI貼近于字符串S2的單向貼近度ξ(S1，S2)，步驟如下：
　�、侔巡檎易址甋1分解為單個有效字符。在分解前，首先判斷左邊第一個字符是雙字節(jié)字符還是單字節(jié)字符，如果是雙字節(jié)字符就按2個字節(jié)截取，如果是單字節(jié)字符則按1個字節(jié)截取。把字符串SI分解為若干個有效字符u1，u2，……，un
　�、谂袛郤1分解后的單字符是否包含在被查詢的字符串中。這里假定所要查找的字符串分解前和分解后是有順序的，所以不能簡單地使用是否包含來判斷。
　　本文的做法是：判斷第一個字符u1是否包含在字符串S2中，如果不包含則標記為0,否則標記為1，并從S2中去掉包含u1的字符，對S2進行第二個字符u2的相同處理，一直把u1， u2，……，un判斷完畢。
　　③計算單向貼近度ξ(S1，S2)。計算SI分解后的單字符u1，u2，……，un在S2中出現(xiàn)的次數(shù)之和m占S1總有效字符數(shù)n的比值，并記為ξ(S1，S2)。
　�。�4）評分公式
　　根據(jù)上述分析，可以得出與主觀題的評分公式。
　　客觀題的評分公式：
　　S0 (A=A0)
　　S=
　　0(A≠A0) (1-1)
　　主觀題的評分公式：
　　S=(P 自動評分 +(1-P)×ξ(A0，A))×S0 (1-2)
　　其中各符號的含義如下：
　　S——學生的實際得分。計算后得出，保存到學生答卷庫中；
　　Ao——學生的實際答案。學生交卷后保存在學生答卷庫中；
　　Bo——試題的標準答案。出題時生成，從題庫中讀��；
　　P——關(guān)鍵詞在該題目中所占分值的比例，自動評分。組卷時生成，也可在評分時修改，從試卷庫中讀�。�
　　1-P——關(guān)鍵詞以外的因素在該題目中所占分值的比例，網(wǎng)上在線考試自動評分技術(shù)研究；
　　n——關(guān)鍵詞的個數(shù)。根據(jù)題庫中的關(guān)鍵詞信息由程序計算得到；
　　Ki——第i個關(guān)鍵詞，，根據(jù)題庫中的關(guān)鍵詞信息由程序計算得到；
　　ξki(Ki，A)——第i個關(guān)鍵詞與學生答案的單向貼近度，，由程序計算得到；
　　ξk0(K，A)——關(guān)鍵詞與學生答案的單向貼近度閥值。組卷時生成，也可評分時修改，從試卷庫中取得。其含義是：
　　當ξki(Ki，A)＜ξk0(K，A)時，ξki(Ki，A)=0，
　　當ξki(Ki，A)≥ξk0(K，A)時，ξki(Ki，A)=ξk0(K，A)；
　　ξ(A0，A) ——標準答案與學生答案的單向貼近度。由程序計算得到；
　　ξ(A0，A) ——標準答案與學生答案的單向貼近度閥值。組卷時生成，也可評分時修改，從試卷庫中取得。其含義是：
　　當ξ(A0，A)＜ξ(A0，A)時，ξ(A0，A)=0
　　當ξ(A0，A)≥ξ(A0，A)時，ξ(A0，A)=ξ(A0，A)。
　　So——試題的分值。組卷時生成，從試卷庫中讀��；
　�。�5）評分流程
　　自動評分流程如圖1-1。
　　
　　圖1-1 自動評分流程
　　從圖中可以看出，客觀題的評分不受任何參數(shù)的影響，主觀題的評分受P、ξk0(K，A)，ξ(A0，A)三個參數(shù)的影響，P增大，關(guān)鍵詞在評分中占的比重就增大，反之則減��；一般來說，ξk0(K，A)、ξ(A0，A)增大，則表示評分標準提高，反之，評分標準降低。因此，通過調(diào)整這二個參數(shù)，即可實現(xiàn)對評分標準的調(diào)整。這三個參數(shù)可在組卷時設定，保存在試卷信息中，也可在評分時進行調(diào)整。
　�。�6）實例分析
　　為了清楚地說明上述算法，本文設計了一個算例。
　　設：問題Q=“什么是算法”；（10分）
　　標準答案Ao=“算法是問題求解規(guī)則的一種過程描述（即計算機解題的過程）。它具有5個基本性質(zhì)：確定性、有窮性、可行性、輸入和輸出。”（44個字符）
　　得分點的關(guān)鍵詞： K1=問題求解 K2=過程 K3=確定性
　　K4=有窮性 K5=可行性 K6=輸入 K7=輸出
　　關(guān)鍵詞的個數(shù)n=7；
　　試題的分值So=10；
　　關(guān)鍵詞在該題目中所占分值的比例P=0.8；
　　關(guān)鍵詞與學生答案的單向貼近度閥值ξk0(K，A)=0.4；
　　標準答案與學生答案的單向貼近度閥值ξ(Ao，A)=0；
　　學生答案A=“算法是一種解題的過程，它具有邏輯性、可計算性和窮盡性。”（27個字符）
　　計算得：
　　ξk1(K1，A)=2/4=0.5
　　ξk2(K2，A)=2/2=1
　　ξk3(K3，A)=0/3=0 因ξk3(K3，A)＜ξk0(K，A)，故ξk3(K3，A)=0
　　ξk4(K4，A)=3/3=1
　　ξk5(K5，A)=2/3=0.67
　　ξk6(K6，A) =0/2=0
　　ξk7(K7，A)=0/2=0
　　ξ(A0，A)=27/44=0.614
　　由評分公式（1-2）計算可得：
　　S=(0.8*(0.5+1+0+1+0.67+0+0)/7+(1-0.8)*0.614)*10=4.85（分）
　　由此可得出，通過自動評分程序計算出的該題的實際得分為4.85分，若閱卷老師認為該分數(shù)偏低或偏高，可通過調(diào)整P、ξk0(K，A)、ξ(A0，A)再重新進行評分。
　　而人工閱卷，不同的閱卷人評分有差異。最高為6分，最低為4分，平均分是5.3分。與系統(tǒng)自動評分相差0.5分左右。這說明自動評分是可靠的。
　　對于本文的在線測試系統(tǒng)中，系統(tǒng)自動評分子模塊中的主觀題評分子模塊，通過一段時間、人工閱卷和系統(tǒng)評分同時并用，發(fā)現(xiàn)多數(shù)情況下，比較一致，分數(shù)相差在0～2分之間。但有時會有很大出入。
　　測試用例：
　　問題Q=“什么是算法”；（10分）
　　標準答案Ao=“算法是問題求解規(guī)則的一種過程描述（即計算機解題的過程）。它具有5個基本性質(zhì)：確定性、有窮性、可行性、輸入和輸出。”（44個字符）
　　學生答案A=“算法是一種解題的過程，它具有邏輯性、可計算性和窮盡性。”（27個字符）
　　求得第i個關(guān)鍵詞與學生答案的單向貼近度ξki(Ki，A)，用系統(tǒng)自動評分公式計算可得學生得分為4.85分。（見公式1-2）
　　而人工閱卷，不同的閱卷人評分有差異。最高為6分，最低為4分，平均分是5.3分。與系統(tǒng)自動評分相差0.5分左右。這說明自動評分是可靠的。
　　學生答案B=“算法是一種算題順序的描述，它具有邏輯性、能計算性和有限性。”（28個字符）
　　由自動評分公式得：0.18分。
　　人工閱卷，平均分為4分。相差2.2分。分析原因發(fā)現(xiàn)：評分公式的中的模糊貼近度函數(shù)是按關(guān)鍵詞匹配為基礎的，這雖然與教師閱卷思路是一致的，而且在多數(shù)情況下是比較可信而且客觀的，但是若出現(xiàn)同義詞，如學生答案B中，有限性與標準答案Ao中窮盡性是同義詞，若是人工閱卷，會給一定的分數(shù)，而自動評分算法給分很低或者為０。（若是沒有相同的關(guān)鍵字，自動評分為０）
　　結(jié)論：本算法還不夠完善，雖然多數(shù)情況下是可靠的，但有時會有很大出入。為了增加可靠性，對于主觀題閱卷，本系統(tǒng)采用人工閱卷和系統(tǒng)評分同時并用的方法。期望本算法能提供給同行一點有益的啟發(fā)，來解決這個技術(shù)上的難關(guān)。

參考文獻
[1] 劉潔．多媒體遠程教育技術(shù)的發(fā)展現(xiàn)狀及問題初探[J]．中國遠程教育，2003，(10)：34．
[2] 王春東，王定基，王勁松．現(xiàn)代遠程教育實現(xiàn)中的主要技術(shù)的研究[J]．天津理工學院學報，2003，16(2)：107-111．
[3] 祝智庭．網(wǎng)絡教育應用教程[M]．北京：北京師范大學出版社，2001：130．
[4] 許駿，柳泉波．IT技能測評自動化－理論技術(shù)應用[M]．北京：科學出版社，2003，19-21．