技術(shù)應(yīng)用 | 當(dāng)前流行教育數(shù)據(jù)挖掘與學(xué)習(xí)分析工具概覽

雨陽(yáng)2019 2019-07-18

展開(kāi)全文

近年來(lái)，為進(jìn)行教育數(shù)據(jù)挖掘(EDM)、學(xué)習(xí)分析(LA)研究，國(guó)內(nèi)外的研究者研發(fā)了大量的工具。本文將重點(diǎn)介紹一些對(duì)教育數(shù)據(jù)挖掘和學(xué)習(xí)分析感興趣的研究人員使用的最廣泛、最容易訪問(wèn)和最強(qiáng)大的工具。

首先是三種非常適合數(shù)據(jù)的操作、清理及創(chuàng)建的工具：Microsoft Excel、Google Sheets和EDM工作臺(tái)。接下來(lái)討論P(yáng)ython和SQL在編程中所扮演的角色。在數(shù)據(jù)清理、轉(zhuǎn)換之后，EDM或LA研究人員面臨的問(wèn)題是數(shù)據(jù)分析。我們將介紹一組適合于此任務(wù)的工具：Waikato Environment for Knowledge Analysis(WEKA)、KNIME、Orange和SPSS。我們還將重點(diǎn)介紹知識(shí)可視化工具，這些工具使數(shù)據(jù)科學(xué)家能夠創(chuàng)建經(jīng)過(guò)修飾的信息豐富的圖形、圖表、模型等可視化信息。最后，我們將討論匹茲堡科學(xué)學(xué)習(xí)中心(PSLC)的DataShop，這是一個(gè)集成了數(shù)據(jù)收集、構(gòu)造、分析和可視化的獨(dú)特工具。

●入門(mén)級(jí)數(shù)據(jù)處理和可視化工具

我們提供以下可用于清理、組織和創(chuàng)建數(shù)據(jù)集的工具，討論每種工具的優(yōu)點(diǎn)和它們?cè)诓僮髦亟M大型數(shù)據(jù)集方面的效用。

1.Microsoft Excel和Google Sheets

對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō)，Microsoft Excel是最容易訪問(wèn)的工具，它在數(shù)據(jù)可視化方面做得很好。近來(lái)基于網(wǎng)絡(luò)的數(shù)據(jù)處理工具Google Sheets也加入了易用工具的群體。這些工具并不適合非常大的數(shù)據(jù)集。Excel和Google Sheets擅長(zhǎng)在可視化的界面中清晰地顯示數(shù)據(jù)，這使得識(shí)別數(shù)據(jù)中的結(jié)構(gòu)或語(yǔ)義問(wèn)題變得很容易。這些工具還可以非常直接地設(shè)計(jì)新變量，快速地將這些變量應(yīng)用到整個(gè)工作表中，并通過(guò)一系列數(shù)據(jù)直觀地檢查這些變量以獲得適當(dāng)?shù)墓δ?。但是Excel和Google Sheets并不適合所有類(lèi)型的變量，創(chuàng)建不同變量可能需要對(duì)數(shù)據(jù)進(jìn)行重新排序，這使得記錄工作具有挑戰(zhàn)性，并且很容易更改語(yǔ)義。除此之外，Excel和Google Sheets對(duì)可加載和操作的數(shù)據(jù)量有限制。

2.EDM Workbench

EDM Workbench是一個(gè)用于自動(dòng)提取和數(shù)據(jù)標(biāo)記的工具，它的許多自動(dòng)化功能可以解決Excel和GoogleSheets的多方面不足，如生成復(fù)雜的序列變量、數(shù)據(jù)采樣以及標(biāo)記。EDM使研究人員能夠基于xml.創(chuàng)建變量，提取現(xiàn)有文獻(xiàn)和智能輔導(dǎo)系統(tǒng)。在數(shù)據(jù)標(biāo)記方面，EDM具有創(chuàng)建文本回放的功能，這是由研究人員或其他領(lǐng)域?qū)＜腋鶕?jù)行為類(lèi)別標(biāo)記編寫(xiě)的人類(lèi)行為的片段。EDM支持采樣、評(píng)估器之間的可靠性檢查，以及標(biāo)簽和變量之間的同步。

3.Python和Jupyter notebook

對(duì)于具有編程知識(shí)的數(shù)據(jù)科學(xué)家來(lái)說(shuō)，有幾種語(yǔ)言特別適合于數(shù)據(jù)操作。許多人認(rèn)為Python是實(shí)現(xiàn)這些目的的一種特別有用的語(yǔ)言。工程文件在Python中比在Excel或Google Sheets中更容易實(shí)現(xiàn)。另一個(gè)是Jupyter notebook，它記錄所有的分析和中間結(jié)果，按順序顯示每個(gè)用戶(hù)操作。盡管有這樣的優(yōu)勢(shì)，Excel或Google Sheets的可視化地檢查創(chuàng)建的數(shù)據(jù)和變量仍然更容易。丟失的數(shù)據(jù)、重復(fù)的案例或不尋常的值在數(shù)據(jù)集中尤其難以識(shí)別，而且對(duì)于新手程序員，Python和Jupyter notebook的驗(yàn)證可能更耗時(shí)。此外Python能夠處理許多不同類(lèi)型的數(shù)據(jù)格式，如MOOC和其他在線(xiàn)學(xué)習(xí)平臺(tái)。雖然Python在計(jì)算上比前面介紹的電子表格工具更強(qiáng)大，但它在這些領(lǐng)域的能力并不是無(wú)限的。Python能夠容納比以前的工具更大的數(shù)據(jù)集，但它仍然受到大小限制，在研究人員的計(jì)算機(jī)的1000萬(wàn)行數(shù)據(jù)范圍內(nèi)，速度會(huì)變慢。

4.Structured Query Language (SQL)

SQL用于組織一些(但不是全部)數(shù)據(jù)庫(kù)。SQL查詢(xún)是一種提取所需數(shù)據(jù)的強(qiáng)大方法，有時(shí)跨多個(gè)數(shù)據(jù)庫(kù)表進(jìn)行集成連接。在SQL(或其他數(shù)據(jù)庫(kù)語(yǔ)言，如Hadoop或Spark)中，許多基本的過(guò)濾任務(wù)(如選擇特定的學(xué)生子集或從特定的日期范圍獲取數(shù)據(jù))比上述任何工具都要快得多。然而，對(duì)于在工程文件過(guò)程中創(chuàng)建復(fù)雜的變量，SQL可能是一種笨拙的語(yǔ)言。SQL可以與前面提到的其他工具有效地結(jié)合使用:SQL擅長(zhǎng)于批量排序和篩選任務(wù)，這些任務(wù)在Excel或Python中非常緩慢。

●進(jìn)階級(jí)數(shù)據(jù)挖掘和分析工具

本節(jié)列出的工具提供了廣泛的算法和建?？蚣?，可用于對(duì)教育數(shù)據(jù)中的流程和關(guān)系進(jìn)行建模和預(yù)測(cè)。

1.WEKA

WEKA是一個(gè)免費(fèi)開(kāi)源軟件包，集合了廣泛的數(shù)據(jù)挖掘和模型構(gòu)建算法。它不支持創(chuàng)建新變量，但支持自動(dòng)選擇。WEKA有一組廣泛的分類(lèi)、集群和關(guān)聯(lián)挖掘算法，可以單獨(dú)使用，也可以結(jié)合使用。用戶(hù)可以從命令行、圖形用戶(hù)界面(GUI)或Java API調(diào)用算法。

2.SPSS

SPSS主要是一個(gè)統(tǒng)計(jì)軟件包，提供一系列統(tǒng)計(jì)測(cè)試、回歸框架、相關(guān)性和因子分析。SPSS是由IBMSPSS Modeler Premium提供的補(bǔ)充，這是一個(gè)相對(duì)較新的分析和數(shù)據(jù)挖掘包，集成了以前的分析和文本挖掘包。SPSS Modeler尤其能夠從現(xiàn)有功能部件中創(chuàng)建新功能部件、數(shù)據(jù)篩選功能部件以及功能部件選擇和功能部件空間縮減功能部件。用于數(shù)據(jù)轉(zhuǎn)換、變量選擇的工具與數(shù)據(jù)挖掘包中的工具類(lèi)似，但選擇方法的種類(lèi)較少。它還有在變量選擇中使用目標(biāo)類(lèi)的功能，這在許多其他包中是不可用的。雖然SPSS代表一個(gè)全面的統(tǒng)計(jì)分析工具，但是對(duì)建模的支持比本節(jié)中的其他工具稍差。SPSS不如其他工具靈活，更難于定制，也沒(méi)有文檔化。

3.KNIME

KNIME是一個(gè)數(shù)據(jù)清理和分析包，通常類(lèi)似于RapidMiner和WEKA。它提供了許多與這些工具相同的功能，并且像RapidMiner一樣，集成了所有WEKA的算法。此外，它還在情緒分析和SNA等領(lǐng)域提供了大量專(zhuān)門(mén)的算法。KNIME有一個(gè)特別強(qiáng)大的功能，它能夠在同一分析中集成來(lái)自多個(gè)源的數(shù)據(jù)。KNIME還提供擴(kuò)展，允許它與R、Python、Java和SQL進(jìn)行接口。

4.Orange

Orange是一個(gè)數(shù)據(jù)可視化和分析包。雖然它的算法和工具比WEKA或KNIME少得多，但它的界面更干凈，更容易理解，帶有顏色編碼的小部件，可以區(qū)分?jǐn)?shù)據(jù)輸入和清理、可視化、回歸和集群。它不僅提供許多常用的算法，還具有可定制的可視化模塊，用于使用合理的文檔表示模型結(jié)果。然而與Excel相比，Orange可以處理的數(shù)據(jù)規(guī)模有限?；谄湟子诶斫獾腉UI和菜單布局，Orange可能更適合小型項(xiàng)目或新手研究人員。

5.Spark MLLib

Spark是以分布式方式跨多個(gè)計(jì)算機(jī)處理器，可以大規(guī)模處理數(shù)據(jù)的框架。Spark可以通過(guò)API連接幾種編程語(yǔ)言，包括Java、Python和SQL，允許使用這些語(yǔ)言進(jìn)行分布式處理。Spark的MLLib機(jī)器學(xué)習(xí)框架提供了幾種機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法。盡管MLLib的功能仍然有限，而且它是一個(gè)純粹的編程工具(減少了對(duì)非程序員的可用性)，但是它的分布式特性使其成為一個(gè)高效和快速的選擇。

●高手級(jí)數(shù)據(jù)可視化工具

本節(jié)介紹一些用于視覺(jué)分析的通用工具和方法，這些工具和方法支持構(gòu)建交互式的視覺(jué)界面，以便從數(shù)據(jù)中獲取知識(shí)，以及教師向?qū)W生傳達(dá)學(xué)習(xí)的重要含義。

1.Tableau

Tableau提供了一系列用于交互數(shù)據(jù)分析和可視化的產(chǎn)品。雖然Tableau工具集的主要關(guān)注點(diǎn)是支持商業(yè)智能，但它已廣泛應(yīng)用于教育環(huán)境中，用于分析學(xué)生數(shù)據(jù)、提供可操作的見(jiàn)解、增強(qiáng)教學(xué)實(shí)踐和簡(jiǎn)化教育報(bào)告。Tableau的主要優(yōu)點(diǎn)是不需要編程知識(shí)來(lái)分析大量數(shù)據(jù)，并提供了連接或?qū)霐?shù)據(jù)的功能。Tableau還具有構(gòu)建豐富的交互式功能，能夠向最終用戶(hù)顯示實(shí)時(shí)可視化。然而Tableau的功能僅限于此，它不支持預(yù)測(cè)分析或關(guān)系數(shù)據(jù)挖掘。此外，Tableau作為一種商業(yè)工具，是不可擴(kuò)展的，也不支持與其他軟件平臺(tái)的集成。

2.D3.js

D3.js(數(shù)據(jù)驅(qū)動(dòng)文件)是一個(gè)JavaScript庫(kù)，它允許操作數(shù)據(jù)驅(qū)動(dòng)，使研究人員和實(shí)踐者能夠構(gòu)建復(fù)雜的交互式數(shù)據(jù)可視化，這些可視化需要數(shù)據(jù)處理，并且是針對(duì)現(xiàn)代Web瀏覽器的。它有幾個(gè)優(yōu)點(diǎn)：在構(gòu)建各種數(shù)據(jù)可視化方面具有相當(dāng)大的靈活性，不需要安裝，支持代碼重用，并且是免費(fèi)開(kāi)源的。然而在教育研究目的采用方面存在著挑戰(zhàn)。作為一種技術(shù)，D3.js需要廣泛的編程知識(shí)，并且存在兼容性問(wèn)題，以及對(duì)較大數(shù)據(jù)集的一些性能限制。最后，它不提供對(duì)可視化用戶(hù)隱藏?cái)?shù)據(jù)的任何方法，需要數(shù)據(jù)預(yù)處理來(lái)確保隱私和數(shù)據(jù)安全。

●專(zhuān)家級(jí)教育數(shù)據(jù)挖掘和學(xué)習(xí)分析工具

上面我們討論了用于教育數(shù)據(jù)挖掘建模和分析的通用工具。然而，特定類(lèi)型的數(shù)據(jù)和特定的分析目標(biāo)通常需要更專(zhuān)門(mén)化的算法，而這些算法在這些通用工具中是不可用的。對(duì)于這些情況，研究人員和實(shí)踐者通常使用針對(duì)這些情況設(shè)計(jì)的更專(zhuān)業(yè)的工具。

1.貝葉斯知識(shí)追蹤工具（BKT：Tools for Bayesian knowledge tracing)

貝葉斯知識(shí)追蹤是一種流行的潛在知識(shí)估計(jì)方法，學(xué)生的知識(shí)是通過(guò)在線(xiàn)學(xué)習(xí)來(lái)測(cè)量的。這與測(cè)試中常見(jiàn)的教育測(cè)量類(lèi)型不同，因?yàn)樵谠诰€(xiàn)學(xué)習(xí)過(guò)程中，知識(shí)在被測(cè)量時(shí)發(fā)生了變化。貝葉斯知識(shí)追蹤是一個(gè)隱馬爾可夫模型(同時(shí)也是一個(gè)簡(jiǎn)單的貝葉斯網(wǎng)絡(luò))，它可以預(yù)測(cè)一個(gè)學(xué)生是否掌握了智能輔導(dǎo)系統(tǒng)或類(lèi)似程序中的特定技能。貝葉斯知識(shí)追蹤模型通常使用以下兩種算法之一進(jìn)行匹配——網(wǎng)格搜索或期望最大化，兩種算法在預(yù)測(cè)性能上具有可比性。

2.文本挖掘工具

文本挖掘是一個(gè)快速發(fā)展的數(shù)據(jù)挖掘領(lǐng)域，有大量應(yīng)用程序和API可用來(lái)標(biāo)記、處理和標(biāo)識(shí)文本數(shù)據(jù)。文本分析工具可以處理語(yǔ)音的文本部分、句子結(jié)構(gòu)和語(yǔ)義詞的意義。此外，一些工具能夠識(shí)別不同單詞和句子之間的表示關(guān)系。下面介紹的工具并不是所有可用程序的詳盡列表，而是一些工具的選擇，它們跨越了文本處理和分析的許多方面。

①語(yǔ)言查詢(xún)與字?jǐn)?shù)統(tǒng)計(jì)(LIWC)。LIWC工具是一種圖形化、易于使用的計(jì)算機(jī)文本分析工具，它通過(guò)分析使用的詞匯量來(lái)測(cè)量文本的潛在特征。LIWC針對(duì)不同的心理詞匯類(lèi)別(如認(rèn)知詞匯、情感詞匯、功能詞匯和分析詞匯)提供了80多個(gè)指標(biāo)，并在大量研究中得到了廣泛的應(yīng)用和驗(yàn)證。

②WMatrix是一個(gè)在線(xiàn)圖形化工具。該工具可用于文本語(yǔ)庫(kù)的詞頻分析和可視化。雖然它可以用來(lái)進(jìn)行完整的分析過(guò)程，但它主要用于提取語(yǔ)言特征，包括單詞、重要的多單詞短語(yǔ)標(biāo)記，特別是單詞語(yǔ)義類(lèi)別。它還以詞云的形式提供了文本語(yǔ)料庫(kù)的可視化，同時(shí)為多個(gè)文本語(yǔ)料庫(kù)提供了接口。

③Coh-Metrix是另一個(gè)流行的文本分析工具。它提供了100多個(gè)衡量文本分為11個(gè)類(lèi)別。與WMatrix相比，CohMetrix提供了對(duì)文本特性和數(shù)據(jù)關(guān)系的上下文的理解和分析。WMatrix從語(yǔ)義上標(biāo)記單詞，而CohMetrix標(biāo)記多個(gè)用于評(píng)估深層文本內(nèi)聚。隨著分析深層含義的增加，就需要更大的數(shù)據(jù)集，使用CohMetrix有效地傾向于需要更大的文本語(yǔ)料庫(kù)。

3.過(guò)程和序列挖掘工具

除了更多的教育數(shù)據(jù)分析的傳統(tǒng)方法，研究人員還瞄準(zhǔn)跟蹤學(xué)習(xí)者學(xué)習(xí)策略和流程序列。針對(duì)這類(lèi)應(yīng)用程序，出現(xiàn)了一組獨(dú)特的工具。在本節(jié)中，我們將介紹用于支持教育數(shù)據(jù)挖掘和學(xué)習(xí)分析研究的過(guò)程和序列挖掘的ProM和tramler-tools。

①ProM是一個(gè)基于Java的、獨(dú)立于平臺(tái)的、模塊化的、開(kāi)源的平臺(tái)，支持多種流程挖掘技術(shù)。最近的實(shí)現(xiàn)(ProM 6)支持在分布式設(shè)置中或通過(guò)批處理運(yùn)行進(jìn)程挖掘。ProM還支持多個(gè)進(jìn)程挖掘算法的鏈接，提供預(yù)期輸入和輸出的清晰規(guī)范。此外，可以在運(yùn)行時(shí)添加新的插件，從而直接集成到分析過(guò)程中。ProM允許與現(xiàn)有信息系統(tǒng)輕松集成，而不需要編程。

②TraMineR是一個(gè)免費(fèi)開(kāi)源工具，支持挖掘和可視化狀態(tài)或事件序列。TraMineR的一些主要特性：用于狀態(tài)分析和可視化，序列數(shù)據(jù)包括處理不同格式的序列和改造各種表示；描述縱向(如長(zhǎng)度、復(fù)雜性和時(shí)間)和其他聚合(如過(guò)渡率、平均持續(xù)時(shí)間)的特征序列；訪問(wèn)各種各樣的繪圖功能(如頻率或情節(jié)、密度指數(shù)情節(jié))；用廣泛的指標(biāo)來(lái)評(píng)估序列之間的距離。

4.匹茲堡科學(xué)學(xué)習(xí)中心(PSLC)開(kāi)發(fā)的DataShop

PSLC的數(shù)據(jù)庫(kù)包含一個(gè)存儲(chǔ)庫(kù)，其中包含許多可下載和分析的數(shù)據(jù)集，以及一組支持探索性分析和模型的工具。DataShop在數(shù)據(jù)集上具有知識(shí)組件模型的功能。它還能夠在正確性、提示使用、潛在知識(shí)、響應(yīng)時(shí)間和其他感興趣的變量方面將學(xué)生的表現(xiàn)可視化。PSLC數(shù)據(jù)是一個(gè)Web應(yīng)用程序，可以免費(fèi)使用，但不是開(kāi)源的。

●教育數(shù)據(jù)挖掘和學(xué)習(xí)分析工具的終極原則：混合應(yīng)用

研究人員和實(shí)踐者在開(kāi)始使用教育數(shù)據(jù)挖掘和學(xué)習(xí)分析時(shí)需要考慮的一個(gè)關(guān)鍵問(wèn)題是，沒(méi)有一種工具能夠完美地從開(kāi)始到結(jié)束分析大多數(shù)數(shù)據(jù)集的整個(gè)過(guò)程。不同的工具適合于不同的任務(wù)。例如，一個(gè)研究人員可能在一個(gè)流行的MOOC中擁有6000萬(wàn)次系統(tǒng)交易的數(shù)據(jù)。從這個(gè)數(shù)據(jù)集中,他只選擇一個(gè)特定的數(shù)據(jù)(SQL)，然后細(xì)化數(shù)據(jù)集計(jì)算系統(tǒng)中總學(xué)生時(shí)間(Excel)，在擬合預(yù)測(cè)模型中(RapidMiner)分析論壇的帖子，回復(fù)(NodeXL)之間的關(guān)系和整體文本質(zhì)量的帖子，回復(fù)學(xué)生(CohMetrix)。最后，研究人員可能會(huì)找出可視化社交網(wǎng)絡(luò)數(shù)據(jù)(Gephi)中最有趣的學(xué)生集群。

所有的工具，它們都代表了在這個(gè)領(lǐng)域工作的不同科學(xué)家群體的總和。它們代表了解決不同問(wèn)題的不同方法，每一種方法都有其獨(dú)特的優(yōu)缺點(diǎn)。通過(guò)工具的組合，可以實(shí)現(xiàn)復(fù)雜的分析，并可以做出有用的發(fā)現(xiàn)。這是一個(gè)快速變化的領(lǐng)域，新的工具不斷出現(xiàn)。盡管如此，我們希望這篇綜述能夠?qū)δ切┰诶碚搶用嬉约霸趯?shí)際應(yīng)用中對(duì)這些工具感興趣的研究人員有所幫助。

參考整理自：曲智麗,張海,楊絮.當(dāng)前流行教育數(shù)據(jù)挖掘與學(xué)習(xí)分析工具概覽[J].中國(guó)信息技術(shù)教育,2019(06):77-80.

小編：雪糕

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：雨陽(yáng)2019 > 《教育信息化》

舉報(bào)/認(rèn)領(lǐng)