作者:馮翔 邱龍輝 郭曉然 分析學(xué)生學(xué)習(xí)過(guò)程產(chǎn)生的反饋文本,是發(fā)現(xiàn)其學(xué)業(yè)情緒的重要方式。傳統(tǒng)的學(xué)業(yè)情緒測(cè)量方法主要包括使用學(xué)業(yè)情緒測(cè)量問(wèn)卷和訪談分析,但這兩種方法難以大規(guī)模地應(yīng)用于在線教育環(huán)境。本研究旨在通過(guò)構(gòu)建學(xué)業(yè)情緒自動(dòng)預(yù)測(cè)模型,對(duì)大量學(xué)生反饋文本進(jìn)行快速有效的學(xué)業(yè)情緒分類。研究首先利用詞向量訓(xùn)練工具,將文本轉(zhuǎn)化為多維向量;然后基于深度學(xué)習(xí)網(wǎng)絡(luò)LSTM構(gòu)建學(xué)業(yè)情緒預(yù)測(cè)模型,以文本的多維向量作為模型輸入;最后經(jīng)過(guò)多輪訓(xùn)練,優(yōu)化模型參數(shù)。實(shí)驗(yàn)顯示,上述模型可快速有效識(shí)別學(xué)生反饋文本中所包含的學(xué)業(yè)情緒,該模型在測(cè)試數(shù)據(jù)集上的學(xué)業(yè)情緒識(shí)別準(zhǔn)確率可達(dá)89%。
關(guān)鍵詞:人工智能教育應(yīng)用;學(xué)業(yè)情緒;LSTM;自然語(yǔ)言處理 在線學(xué)習(xí)平臺(tái)上記錄了大量基于文本的學(xué)生評(píng)論反饋,如何挖掘這些評(píng)論文本中隱含的有效信息,受到眾多研究者的關(guān)注。情緒分析是文本挖掘的重要研究方向,近年來(lái)已應(yīng)用于眾多領(lǐng)域。與網(wǎng)絡(luò)輿論、商品評(píng)論等領(lǐng)域不同,學(xué)生評(píng)論中還隱藏了學(xué)業(yè)情緒,包含積極高喚醒、消極高喚醒、積極低喚醒、消極低喚醒四類學(xué)業(yè)情緒(Pekrun et al.,2011)。這些學(xué)業(yè)情緒影響著學(xué)生的身心健康、認(rèn)知過(guò)程等(Ainley et al.,2005;Pekrun et al.,2002)。關(guān)注學(xué)生的學(xué)業(yè)情緒對(duì)學(xué)生的認(rèn)知提升、身心健康的發(fā)展都有重要意義。傳統(tǒng)的學(xué)業(yè)情緒測(cè)量方法主要基于訪談和測(cè)量問(wèn)卷,但由于規(guī)模限制,這種測(cè)量方法難以廣泛應(yīng)用于實(shí)際教學(xué)。隨著人工智能技術(shù)的快速發(fā)展,采用機(jī)器學(xué)習(xí)的方法自動(dòng)化、智能化地識(shí)別學(xué)業(yè)情緒是一種新的發(fā)展趨勢(shì)。本研究基于深度學(xué)習(xí)中的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short- Term Memory,簡(jiǎn)稱LSTM)構(gòu)建教育領(lǐng)域?qū)W業(yè)情緒識(shí)別模型,通過(guò)將LSTM模型與教育領(lǐng)域深度融合,快速發(fā)現(xiàn)學(xué)生反饋文本中的學(xué)業(yè)情緒類型,為自動(dòng)化識(shí)別學(xué)業(yè)情緒提供一種新的手段和方法。 一、研究綜述 (一)學(xué)業(yè)情緒 學(xué)生在學(xué)習(xí)過(guò)程中能夠體會(huì)到不同的情緒,例如對(duì)一門(mén)課程或知識(shí)點(diǎn)掌握后的愉快感、考試過(guò)程中的焦慮感等。這些學(xué)習(xí)體驗(yàn)與課堂教學(xué)、課外學(xué)習(xí)和學(xué)業(yè)成就有直接關(guān)系。2002年,德國(guó)心理學(xué)家佩克倫等(Pekrun et al.,2002)將學(xué)習(xí)過(guò)程所有環(huán)節(jié)中與學(xué)生學(xué)業(yè)學(xué)習(xí)活動(dòng)體驗(yàn)相關(guān)的各種情緒統(tǒng)稱為學(xué)業(yè)情緒。俞國(guó)良等人(2005)將學(xué)業(yè)情緒的范圍進(jìn)一步擴(kuò)大,認(rèn)為它不僅包括學(xué)生在獲悉學(xué)業(yè)成功或失敗后所體驗(yàn)到的各種情緒,還包括在課堂學(xué)習(xí)、日常完成作業(yè)過(guò)程中以及在考試期間的情緒體驗(yàn)等。 學(xué)業(yè)情緒對(duì)學(xué)生成長(zhǎng)的重要性不容忽視。美國(guó)教育研究聯(lián)合會(huì)在1998年召開(kāi)了主題為“情緒在學(xué)生與學(xué)業(yè)成就中的關(guān)系”的年度學(xué)術(shù)會(huì)議,突出了情緒研究對(duì)學(xué)生與學(xué)業(yè)的重要性。佩克倫等(Pekrun et al.,2002)指出學(xué)業(yè)情緒與學(xué)業(yè)動(dòng)機(jī)、興趣、意愿和努力等聯(lián)系密切。情感、情緒、態(tài)度等因素對(duì)問(wèn)題解決能力也有重要影響(魏雪峰,2017)。諸多實(shí)證研究(王瑞紅,2009;俞國(guó)良,董妍,2005)表明,學(xué)業(yè)情緒在很大程度上能夠預(yù)測(cè)學(xué)生的學(xué)業(yè)成就。海亞特等人(Hayat et al.,2018)通過(guò)收集800名醫(yī)學(xué)院學(xué)生的學(xué)業(yè)情緒相關(guān)數(shù)據(jù),發(fā)現(xiàn)積極的學(xué)業(yè)情緒(如希望、自豪等)與學(xué)業(yè)成績(jī)有顯著的正相關(guān)關(guān)系,享受、希望、驕傲和羞愧的學(xué)業(yè)情緒可以預(yù)測(cè)學(xué)生學(xué)業(yè)成績(jī)的差異。王瑞紅(2010)通過(guò)對(duì)398名高職院校的學(xué)生進(jìn)行問(wèn)卷調(diào)查和學(xué)業(yè)成績(jī)測(cè)量,發(fā)現(xiàn)學(xué)生學(xué)業(yè)情緒各量表分?jǐn)?shù)與學(xué)業(yè)成績(jī)之間存在相關(guān)關(guān)系。 目前的研究大多關(guān)注學(xué)生面部表情所體現(xiàn)的學(xué)業(yè)情緒,如江波等(2018)基于在線教輔系統(tǒng),提出種針對(duì)面部表情的困惑類學(xué)業(yè)情緒檢測(cè)方法,為智能教學(xué)系統(tǒng)中教學(xué)干預(yù)提供參考價(jià)值。然而,學(xué)業(yè)情緒不僅體現(xiàn)在面部表情,也體現(xiàn)在課程評(píng)論、交流討論文本等學(xué)習(xí)反饋文本中。對(duì)文本中學(xué)業(yè)情緒的挖掘,能夠?yàn)榻處焹?yōu)化教學(xué)內(nèi)容與課程設(shè)計(jì)提供指導(dǎo)方向,從而提高學(xué)生在線學(xué)習(xí)體驗(yàn),降低網(wǎng)絡(luò)學(xué)習(xí)的輟學(xué)率。 (二)學(xué)業(yè)情緒的分類 早期對(duì)學(xué)業(yè)情緒的研究主要集中在負(fù)面情緒,教師希望掌握學(xué)生在考試過(guò)程中所經(jīng)歷的焦慮、學(xué)習(xí)過(guò)程中的學(xué)業(yè)倦怠。在學(xué)業(yè)情緒的分類上多數(shù)學(xué)者將其分為積極和消極兩個(gè)維度,如正性負(fù)性情緒自評(píng)量表(The Positive and Negative Affect Scale),但這種分類方法難以包含學(xué)生學(xué)習(xí)過(guò)程中經(jīng)歷的所有情緒體驗(yàn)。 佩克倫等(Pekrun et al.,2011)在學(xué)業(yè)情緒理論的基礎(chǔ)上,以愉悅度和喚醒水平為分類標(biāo)準(zhǔn)進(jìn)行研究后發(fā)現(xiàn),不同年齡段學(xué)生所經(jīng)歷的學(xué)業(yè)情緒也會(huì)有細(xì)微差別。1993年,布萊恩·派崔克(Bian Patrick)及其研究團(tuán)隊(duì)研究了兒童在學(xué)習(xí)活動(dòng)中所經(jīng)歷的學(xué)業(yè)情緒,發(fā)現(xiàn)積極情緒(興趣、高興、放松)、厭倦、痛苦和生氣四類情緒是學(xué)習(xí)活動(dòng)中主要的情緒體驗(yàn)(Patrick et al.,1993)。董妍等(2007)基于萊因哈德等人的研究,以青少年為研究對(duì)象,將學(xué)業(yè)情緒劃分為四個(gè)維度:積極高喚醒、積極低喚醒、消極高喚醒、消極低喚醒。其中,積極高喚醒包括自豪、高興、希望等情緒,積極低喚醒包括滿足、平靜、放松等情緒,消極高喚醒包括焦慮、羞愧、生氣等情緒,消極低喚醒包括厭倦、無(wú)助、沮喪、疲乏心煩等情緒。馬惠霞等(2010)也遵循佩克倫等人的學(xué)業(yè)情緒理論,將大學(xué)生學(xué)業(yè)情緒分為四個(gè)維度:積極高喚醒(興趣、愉快、希望)、積極低喚醒(自豪和放松)、消極高喚醒(羞愧、焦慮、氣憤)、消極低喚醒(失望和厭煩)。 筆者在構(gòu)建學(xué)業(yè)情緒標(biāo)注語(yǔ)料庫(kù)過(guò)程中,綜合青少年和大學(xué)生學(xué)業(yè)情緒的表現(xiàn)特點(diǎn),將其分為四個(gè)維度,共15種學(xué)業(yè)情緒。其中,積極高喚醒學(xué)業(yè)情緒包含四種:高興、希望、興趣、自豪;積極低喚醒學(xué)業(yè)情緒包含三種:滿足、平靜、放松;消極高喚醒學(xué)業(yè)情緒包含三種:焦慮、羞愧、氣憤;消極低喚醒學(xué)業(yè)情緒包含五種:厭倦、無(wú)助、沮喪、疲乏、失望。后文構(gòu)建學(xué)業(yè)情緒自動(dòng)化分類的模型,也主要將學(xué)業(yè)情緒分為四個(gè)類別,即積極高喚醒、積極低喚醒、消極高喚醒、消極低喚醒。 (三)學(xué)業(yè)情緒的測(cè)量方法 早在2002年,佩克倫等編制了較完善的測(cè)量學(xué)業(yè)情緒的量表,該量表以九種基本學(xué)業(yè)情緒為測(cè)量目標(biāo)。國(guó)內(nèi)許多學(xué)者基于佩克倫等人的研究,針對(duì)不同學(xué)齡段,編制了不同的測(cè)量問(wèn)卷。例如董妍等(2007)以中學(xué)生為主要群體編制了《青少年學(xué)業(yè)情緒問(wèn)卷》,馬惠霞(2008)以大學(xué)生為主要對(duì)象編制了《大學(xué)生一般學(xué)業(yè)情緒量表》。戈瓦特和格雷戈?duì)枺℅ovaerts & Gregoire,2008)在學(xué)生情緒問(wèn)卷的基礎(chǔ)上編制了學(xué)業(yè)情緒量表。該量表包括26個(gè)條目,主要測(cè)量六種情緒:高興、希望、自豪、焦慮、羞愧和挫折。國(guó)內(nèi)也有學(xué)者在英文版的學(xué)業(yè)情緒量表基礎(chǔ)上發(fā)布了大學(xué)生學(xué)業(yè)情緒量表的中文版(趙淑媛等,2012)?;跍y(cè)量問(wèn)卷和量表的學(xué)業(yè)情緒判斷方法需要耗費(fèi)大量人力物力,難以大規(guī)模實(shí)施。隨著自然語(yǔ)言處理等技術(shù)的發(fā)展,自動(dòng)化測(cè)量文本中的學(xué)業(yè)情緒成為可能。朱祖林等(2011)使用文本挖掘的方法,判斷文本中所包含的學(xué)業(yè)情緒。自動(dòng)化識(shí)別方法能夠節(jié)省大量時(shí)間,為教師發(fā)現(xiàn)學(xué)生學(xué)業(yè)情緒并進(jìn)行干預(yù)提供支持。 (四)情緒分析方法 情緒分析屬于情感分析的范疇,是對(duì)文本進(jìn)行更細(xì)致的情緒分類,而不僅限于文本的情感傾向,如積極、消極或中性的情感。情緒自動(dòng)化分類方法常用于Twitter微博、電影評(píng)論的分析(鄭嘯等,2018 Rajan,et al.,2014;Singh,et al.,2013)。情緒的自動(dòng)化分析方法主要有基于情緒詞典資源和規(guī)則的分析方法及基于機(jī)器學(xué)習(xí)的方法。 1.基于情緒詞典的分析方法 情緒分析的無(wú)監(jiān)督學(xué)習(xí)方法,主要包含基于詞典和基于規(guī)則的方法。這兩種方法基于語(yǔ)言學(xué)的思想,只需給定數(shù)據(jù)資源和設(shè)置語(yǔ)句的分析規(guī)則就能識(shí)別出句子的情緒。文本情緒集中體現(xiàn)于某些情緒詞中,如“這節(jié)課的知識(shí)點(diǎn)我已經(jīng)掌握了,很開(kāi)心”這句文本中,情緒主要體現(xiàn)在“開(kāi)心”一詞中,使用基于詞典的方法能夠快速識(shí)別文本句子中所體現(xiàn)的情緒類別,且準(zhǔn)確率非常高。有研究(Quan & Ren,2009)基于大量博客文本構(gòu)建了情緒語(yǔ)料庫(kù),語(yǔ)料庫(kù)中的詞匯包含八種情感類別:期望、喜悅、愛(ài)、驚喜、焦慮、悲傷、憤怒和憎恨。也有研究(Taboada et al.,2011)提出了一套更全面的算法和規(guī)則,將情感判斷對(duì)象從形容詞、副詞擴(kuò)展到名詞、動(dòng)詞等詞性,同時(shí)引入否定詞和強(qiáng)調(diào)詞等特征輔助判別文本的情感傾向,在眾多領(lǐng)域的情感分類語(yǔ)料上都取得較好的效果。 2.基于機(jī)器學(xué)習(xí)的分析方法 基于機(jī)器學(xué)習(xí)的方法,不依賴于情緒詞典的容量和質(zhì)量,通過(guò)訓(xùn)練情緒分類模型預(yù)測(cè)文本的情緒類別。支持向量機(jī)、貝葉斯網(wǎng)絡(luò)、K-最近鄰等機(jī)器學(xué)習(xí)算法常被用于自動(dòng)檢測(cè)文本中的情緒。如李等人(Li,etal.,2014)使用支持向量機(jī),識(shí)別出微博中的憤怒、厭惡、恐懼、快樂(lè)、悲傷和驚奇等情緒。 隨著深度學(xué)習(xí)的快速發(fā)展,越來(lái)越多的研究者基于多層感知機(jī)(Multiple Layer Perceptron)構(gòu)造深度學(xué)習(xí)網(wǎng)絡(luò),實(shí)現(xiàn)文本情緒分類任務(wù)。索赫等(Socher et al.,2013)使用遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neutral Network,簡(jiǎn)稱RNN)對(duì)文本中的情感信息進(jìn)行建模,并取得了很好的分類效果。在以往的研究中(於雯,周武能,2018;鄭嘯等,2018),基于長(zhǎng)短期記憶網(wǎng)絡(luò)的預(yù)測(cè)模型在其他領(lǐng)域取得了很好的效果,如微博短文本情感分析、電影評(píng)論分析、商品評(píng)論分析等。此外,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱CNN)近年來(lái)也應(yīng)用于情感分析領(lǐng)域,有研究者(Santos & Gattit,2014)使用這一技術(shù)進(jìn)行短文本情感分類,并取得顯著效果。 自動(dòng)化識(shí)別文本中的學(xué)業(yè)情緒是未來(lái)發(fā)展趨勢(shì),將情緒自動(dòng)化識(shí)別方法應(yīng)用于教育領(lǐng)域,能夠改善教育領(lǐng)域情緒識(shí)別方法的不足。 二、學(xué)業(yè)情緒自動(dòng)化識(shí)別方法 (一)學(xué)業(yè)情緒自動(dòng)識(shí)別框架 本文基于LSTM模型設(shè)計(jì)學(xué)業(yè)情緒自動(dòng)化識(shí)別框架(見(jiàn)圖1)。這一框架包含數(shù)據(jù)的收集與處理、文本詞向量的訓(xùn)練、LSTM模型的訓(xùn)練、待判別的學(xué)生反饋文本的數(shù)據(jù)預(yù)處理、學(xué)業(yè)情緒判斷五個(gè)過(guò)程。 
(二)數(shù)據(jù)的收集與處理 數(shù)據(jù)的收集與處理是后續(xù)過(guò)程的基礎(chǔ)。本文通過(guò)設(shè)計(jì)爬蟲(chóng)程序獲取在線學(xué)習(xí)平臺(tái)中的學(xué)生反饋文本。數(shù)據(jù)的預(yù)處理階段主要有兩個(gè)步驟:第一,去除特殊字符與停用詞,減少實(shí)驗(yàn)結(jié)果的影響;第二,構(gòu)建標(biāo)注語(yǔ)料庫(kù)。筆者通過(guò)設(shè)計(jì)語(yǔ)料標(biāo)注系統(tǒng)對(duì)學(xué)生反饋文本所表達(dá)的學(xué)業(yè)情緒進(jìn)行人工標(biāo)注,每條已標(biāo)注的學(xué)生反饋文本都以二元組的形式保存:<文本內(nèi)容,學(xué)業(yè)情緒類別>。如標(biāo)注文本‘今天聽(tīng)了老師的課,有一種醍醐灌頂?shù)母杏X(jué)。把思路打開(kāi)了,繼續(xù)好好練習(xí),希望這次雅思考試能取得好成績(jī)。’的學(xué)業(yè)情緒為‘希望’,其保存形式為<‘今天聽(tīng)了老師的課,有一種醍醐灌頂?shù)母杏X(jué)。把思路打開(kāi)了,繼續(xù)好好練習(xí),希望這次雅思考試能取得好成績(jī)’,希望>。 (三)訓(xùn)練文本詞向量 神經(jīng)網(wǎng)絡(luò)模型的輸入是一連串的多維特征。文本特征的表示方法有多種,其中比較著名的有獨(dú)熱碼(one-hot)表示方法,即將所有文本中的文字以一個(gè)高維度向量表示,向量的維度是文本詞表的大小,向量的絕大多數(shù)維度都是0,只有一個(gè)維度用1表示,這個(gè)用1表示的維度代表了當(dāng)前詞。例如: “教育”用獨(dú)熱碼(one-hot)方法表示為: [000100···000] 但是使用獨(dú)熱碼(one-hot)的表示方法中,詞與詞之間是相互獨(dú)立的,難以判讀兩個(gè)詞匯之間是否具有上下文關(guān)系。 為了更好地利用詞向量表示上下文之間的關(guān)系,托馬斯·米科洛夫等(Mikoloy et al.,2013)提:出兩種詞向量訓(xùn)練模型,連結(jié)詞袋模型(Continue Bag-of-worf,簡(jiǎn)稱CBOW)和跳躍元語(yǔ)法模型(Skipg-ram)模型。 
如圖2所示,兩種詞向量的訓(xùn)練模型都包括三層:輸入層、隱藏層和輸出層。CBOW模型的主要工作是通過(guò)上下文預(yù)測(cè)當(dāng)前詞出現(xiàn)的概率。Skipg-ram模型則相反,是利用當(dāng)前詞預(yù)測(cè)上下文。熊富林等(2015)將Word2vec應(yīng)用于中文處理,發(fā)現(xiàn)Skip-gram模型訓(xùn)練的準(zhǔn)確率明顯比CBOW模型高,且詞向量的維度在250維左右為佳。因此,本研究采用skip-gram模型對(duì)學(xué)生反饋文本進(jìn)行詞向量訓(xùn)練,維度設(shè)置為250維。 (四)LSTM模型 長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short- Term Memory,簡(jiǎn)稱LSTM)是一種基于序列的鏈?zhǔn)骄W(wǎng)絡(luò)結(jié)構(gòu),LSTM模型解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中梯度爆炸和梯度消失問(wèn)題(Kolen & Kremer,2001)。經(jīng)過(guò)眾多研究者的優(yōu)化(Graves,2012),LSTM模型在自然語(yǔ)言處理中取得了很好的效果,并得到了廣泛應(yīng)用。LSTM模型將循環(huán)神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元替換為擁有記憶能力的LSTM單元,根據(jù)輸入序列,所有的記憶單元被連接在一起。在本文中,每個(gè)記憶單元的輸入為學(xué)生反饋文本詞向量X,(見(jiàn)圖3)。記憶單元包含記憶細(xì)胞(Ct)、遺忘門(mén)(ft)、輸入門(mén)(it)、輸出門(mén)(ot),負(fù)責(zé)存儲(chǔ)歷史信息,通過(guò)一個(gè)狀態(tài)參數(shù)記錄和更新歷史信息;三個(gè)門(mén)結(jié)構(gòu)則通過(guò) Sigmoid函數(shù)[σ(*)決定信息的取舍,從而作用于記憶細(xì)胞。最后通過(guò)tanh函數(shù)[tanh(*)]對(duì)當(dāng)前時(shí)刻的記憶細(xì)胞狀態(tài)進(jìn)行計(jì)算,計(jì)算過(guò)程為公式(1)-公式(5)。 
在時(shí)刻t,ht是隱藏狀態(tài)時(shí),每個(gè)門(mén)結(jié)構(gòu)會(huì)接收當(dāng)前的輸入Xt,以及上一個(gè)記憶單元輸出的隱藏狀態(tài)h(t-1),并與其權(quán)重矩陣相乘,然后加上LSTM記憶單元中各自的偏置量。ωf、ωi、ωo、ωc分別為遺忘門(mén)、輸入門(mén)、輸出門(mén)、記憶單元的權(quán)重矩陣,bf、bi、bo、bc分別為遺忘門(mén)、輸入門(mén)、輸出門(mén)、記憶單元的偏置量。 
(五)學(xué)業(yè)情緒的分類 為了得到文本的學(xué)業(yè)情緒分類結(jié)果,本研究將LSTM模型的輸出作為 softmax層(Softmax回歸模型)的輸入,通過(guò) softmax函數(shù),將輸入映射到(0,1)區(qū)間內(nèi),得到待分類數(shù)據(jù)歸屬各類別的概率,最后根據(jù)概率確定待分類文本的情緒預(yù)測(cè)類別。筆者將文本的4個(gè)學(xué)業(yè)情緒類別以形狀為1*4的矩陣表示,經(jīng)過(guò) softmax層之后,輸出結(jié)果矩陣得出每個(gè)類別的預(yù)測(cè)概率。預(yù)測(cè)結(jié)果的計(jì)算公式: 
三、實(shí)驗(yàn) (一)數(shù)據(jù)集 騰訊課堂(https://ke.qq.com/)、網(wǎng)易云課堂(http://study.163.com/)等在線學(xué)習(xí)平臺(tái)吸引了眾多學(xué)習(xí)者。本文通過(guò)設(shè)計(jì)爬蟲(chóng)程序,獲取了在線平臺(tái)中學(xué)生反饋文本10萬(wàn)余條,總計(jì)超過(guò)1千萬(wàn)中文字符。 實(shí)驗(yàn)過(guò)程使用人工標(biāo)注的方法,共隨機(jī)標(biāo)注了8408條學(xué)生反饋文本,其中訓(xùn)練文本為6658條,測(cè)試文本為1750條。訓(xùn)練文本中各情感分布如圖4所示。 
如圖4顯示,在學(xué)業(yè)情緒的訓(xùn)練文本中,積極高喚醒和消極低喚醒的文本學(xué)業(yè)情緒占比97%。從學(xué)業(yè)情緒類別分布來(lái)看,大部分在線課程反饋文本中,學(xué)業(yè)情緒集中在積極高喚醒和消極低喚醒類別。 (二)詞向量訓(xùn)練參數(shù)和LSTM實(shí)驗(yàn)參數(shù) 教育領(lǐng)域詞向量的訓(xùn)練過(guò)程經(jīng)過(guò)多次參數(shù)的優(yōu)化,通過(guò)迭代輸出訓(xùn)練結(jié)果的方法,筆者選中了其中較優(yōu)的參數(shù)結(jié)果。詞向量訓(xùn)練過(guò)程中的具體參數(shù)設(shè)置為:向量長(zhǎng)度 vector_size=250,窗口大小 window=7,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率 alpha=0.025,模型為Negative Sampling的Skip-gram模型,訓(xùn)練的迭代次數(shù)為15。 本實(shí)驗(yàn)使用雙層LSTM模型訓(xùn)練學(xué)生評(píng)論文本,其模型參數(shù)的設(shè)置對(duì)實(shí)驗(yàn)結(jié)果至關(guān)重要,經(jīng)過(guò)多次實(shí)驗(yàn)效果的對(duì)比,本實(shí)驗(yàn)采用的參數(shù)設(shè)置為:學(xué)習(xí)率為learning_rate=0.005,LSTM的層數(shù)為2層,批處理?xiàng)l數(shù)batch_size=16,節(jié)點(diǎn)數(shù)num_nodes=128,訓(xùn)練:的迭代次數(shù) num_steps=5000輪。 (三)實(shí)驗(yàn)結(jié)果與分析 本研究使用1750條人工標(biāo)記的學(xué)業(yè)情緒文本對(duì)上述訓(xùn)練模型進(jìn)行測(cè)試。經(jīng)過(guò)實(shí)驗(yàn),模型預(yù)測(cè)的準(zhǔn)確率達(dá)到89%(見(jiàn)圖5)。 
學(xué)業(yè)情緒預(yù)測(cè)結(jié)果歸一化后的混淆矩陣如圖6所示。在模型預(yù)測(cè)混淆矩陣中,積極高喚醒和消極低喚醒的預(yù)測(cè)準(zhǔn)確度較高。這是由于該模型在訓(xùn)練過(guò)程中,數(shù)據(jù)集中在積極高喚醒和消極低喚醒文本中,能夠較好識(shí)別此類文本所包含的學(xué)業(yè)情緒特征。經(jīng)過(guò)人工標(biāo)注數(shù)據(jù)顯示,文本集中在積極高喚醒情緒[‘興趣’,‘高興’]和消極低喚醒學(xué)業(yè)情緒[‘失望’]中,這兩類學(xué)業(yè)情緒文本數(shù)量在總標(biāo)記數(shù)據(jù)中占97%,因此本實(shí)驗(yàn)對(duì)積極和消極喚醒度的學(xué)業(yè)情緒識(shí)別準(zhǔn)確率可達(dá)92.2%。 
四、結(jié)論和未來(lái)工作 學(xué)業(yè)情緒檢測(cè)是分析學(xué)生學(xué)習(xí)狀況的重要方法。和人類的基本情緒一樣,學(xué)業(yè)情緒有多樣性和多維度性的特點(diǎn),傳統(tǒng)方法難以很好地在文本中發(fā)現(xiàn)所隱含的學(xué)業(yè)情緒。本文基于深度學(xué)習(xí)的方法,使用LSTM網(wǎng)絡(luò)訓(xùn)練模型對(duì)學(xué)業(yè)情緒進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)表明,該模型識(shí)別文本中學(xué)業(yè)情緒的準(zhǔn)確率達(dá)到89%。這種自動(dòng)化的分類方法可以降低分析人員的工作強(qiáng)度,同時(shí)為優(yōu)化課程教學(xué)設(shè)計(jì)、教學(xué)內(nèi)容等提供重要參考維度。 本研究初步驗(yàn)證了基于LSTM模型構(gòu)建的學(xué)業(yè)情緒預(yù)測(cè)模型的效果,但本文所使用的數(shù)據(jù)集相對(duì)較小,且在實(shí)際學(xué)習(xí)環(huán)境中,在線學(xué)習(xí)平臺(tái)上的學(xué)業(yè)情緒分布差異較大,即使獲取數(shù)十萬(wàn)條學(xué)生反饋文本,積極低喚醒和消極高喚醒兩類文本的占比仍然較低。后續(xù)研究首先需要擴(kuò)大訓(xùn)練的數(shù)據(jù)集,增加積極低喚醒和消極高喚醒兩類文本的數(shù)量,使用機(jī)器和人工相結(jié)合的在線學(xué)習(xí)方法快速收集和標(biāo)注數(shù)據(jù),以彌補(bǔ)教育訓(xùn)練文本數(shù)據(jù)集的匱乏。其次,優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)可使學(xué)業(yè)情緒識(shí)別模型的準(zhǔn)確率更高。不同領(lǐng)域的文本有著不同特點(diǎn),在教育領(lǐng)域,訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)也會(huì)和其他領(lǐng)域(如商品評(píng)論等)有所不同。同時(shí),神經(jīng)網(wǎng)絡(luò)中有大量參數(shù),如何優(yōu)化這些參數(shù)得到更好的訓(xùn)練模型是下步研究重點(diǎn)。再次,本研究只是對(duì)文本中的學(xué)業(yè)情緒做了總體的分類,并沒(méi)有對(duì)句子中的情緒實(shí)現(xiàn)更細(xì)粒度的文本分類,如自豪、滿足、焦慮、無(wú)助等。本研究后續(xù)將對(duì)學(xué)生反饋文本進(jìn)行更細(xì)致的分類識(shí)別,更直觀地了解學(xué)生在學(xué)習(xí)過(guò)程中的學(xué)習(xí)情緒體驗(yàn)。 




基金項(xiàng)目:教育部在線教育研究中心2017年度在線教育研究基金(全通教育)課題“在線教育系統(tǒng)中學(xué)生反饋文本的情感分析技術(shù)與應(yīng)用究”(2017YB126);中央高?;究蒲袠I(yè)務(wù)費(fèi)華東師范大學(xué)青年預(yù)研究項(xiàng)目“課堂環(huán)境中基于面部表情識(shí)別的師生情感模式及應(yīng)用研究”(20l7ECNU-YYJ039)上海市科委科技攻關(guān)重大項(xiàng)目“上海教字化教育裝備工程技術(shù)研究中能力提升目”(17DZ2281800)。 作者簡(jiǎn)介:馮翔(通訊作者),博士,副研究員,上海數(shù)字化教育裝備工程技術(shù)研究中心;邱龍輝,華東師范大學(xué)教育信息技術(shù)學(xué)系碩士研究生;郭曉然,華東師范大學(xué)教育信息技術(shù)學(xué)系碩士研究生。
|