乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      技術(shù)應(yīng)用 | 當(dāng)前流行教育數(shù)據(jù)挖掘與學(xué)習(xí)分析工具概覽

       雨陽(yáng)2019 2019-07-18

      近年來(lái),為進(jìn)行教育數(shù)據(jù)挖掘(EDM)、學(xué)習(xí)分析(LA)研究,國(guó)內(nèi)外的研究者研發(fā)了大量的工具。本文將重點(diǎn)介紹一些對(duì)教育數(shù)據(jù)挖掘和學(xué)習(xí)分析感興趣的研究人員使用的最廣泛、最容易訪問(wèn)和最強(qiáng)大的工具。

      首先是三種非常適合數(shù)據(jù)的操作、清理及創(chuàng)建的工具:Microsoft Excel、Google Sheets和EDM工作臺(tái)。接下來(lái)討論P(yáng)ython和SQL在編程中所扮演的角色。在數(shù)據(jù)清理、轉(zhuǎn)換之后,EDM或LA研究人員面臨的問(wèn)題是數(shù)據(jù)分析。我們將介紹一組適合于此任務(wù)的工具:Waikato Environment for Knowledge Analysis(WEKA)、KNIME、Orange和SPSS。我們還將重點(diǎn)介紹知識(shí)可視化工具,這些工具使數(shù)據(jù)科學(xué)家能夠創(chuàng)建經(jīng)過(guò)修飾的信息豐富的圖形、圖表、模型等可視化信息。最后,我們將討論匹茲堡科學(xué)學(xué)習(xí)中心(PSLC)的DataShop,這是一個(gè)集成了數(shù)據(jù)收集、構(gòu)造、分析和可視化的獨(dú)特工具。

      ●入門(mén)級(jí)數(shù)據(jù)處理和可視化工具

      我們提供以下可用于清理、組織和創(chuàng)建數(shù)據(jù)集的工具,討論每種工具的優(yōu)點(diǎn)和它們?cè)诓僮髦亟M大型數(shù)據(jù)集方面的效用。

      1.Microsoft Excel和Google Sheets

      對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō),Microsoft Excel是最容易訪問(wèn)的工具,它在數(shù)據(jù)可視化方面做得很好。近來(lái)基于網(wǎng)絡(luò)的數(shù)據(jù)處理工具Google Sheets也加入了易用工具的群體。這些工具并不適合非常大的數(shù)據(jù)集。Excel和Google Sheets擅長(zhǎng)在可視化的界面中清晰地顯示數(shù)據(jù),這使得識(shí)別數(shù)據(jù)中的結(jié)構(gòu)或語(yǔ)義問(wèn)題變得很容易。這些工具還可以非常直接地設(shè)計(jì)新變量,快速地將這些變量應(yīng)用到整個(gè)工作表中,并通過(guò)一系列數(shù)據(jù)直觀地檢查這些變量以獲得適當(dāng)?shù)墓δ?。但是Excel和Google Sheets并不適合所有類(lèi)型的變量,創(chuàng)建不同變量可能需要對(duì)數(shù)據(jù)進(jìn)行重新排序,這使得記錄工作具有挑戰(zhàn)性,并且很容易更改語(yǔ)義。除此之外,Excel和Google Sheets對(duì)可加載和操作的數(shù)據(jù)量有限制。

      2.EDM Workbench

      EDM Workbench是一個(gè)用于自動(dòng)提取和數(shù)據(jù)標(biāo)記的工具,它的許多自動(dòng)化功能可以解決Excel和GoogleSheets的多方面不足,如生成復(fù)雜的序列變量、數(shù)據(jù)采樣以及標(biāo)記。EDM使研究人員能夠基于xml.創(chuàng)建變量,提取現(xiàn)有文獻(xiàn)和智能輔導(dǎo)系統(tǒng)。在數(shù)據(jù)標(biāo)記方面,EDM具有創(chuàng)建文本回放的功能,這是由研究人員或其他領(lǐng)域?qū)<腋鶕?jù)行為類(lèi)別標(biāo)記編寫(xiě)的人類(lèi)行為的片段。EDM支持采樣、評(píng)估器之間的可靠性檢查,以及標(biāo)簽和變量之間的同步。

      3.Python和Jupyter notebook

      對(duì)于具有編程知識(shí)的數(shù)據(jù)科學(xué)家來(lái)說(shuō),有幾種語(yǔ)言特別適合于數(shù)據(jù)操作。許多人認(rèn)為Python是實(shí)現(xiàn)這些目的的一種特別有用的語(yǔ)言。工程文件在Python中比在Excel或Google Sheets中更容易實(shí)現(xiàn)。另一個(gè)是Jupyter notebook,它記錄所有的分析和中間結(jié)果,按順序顯示每個(gè)用戶(hù)操作。盡管有這樣的優(yōu)勢(shì),Excel或Google Sheets的可視化地檢查創(chuàng)建的數(shù)據(jù)和變量仍然更容易。丟失的數(shù)據(jù)、重復(fù)的案例或不尋常的值在數(shù)據(jù)集中尤其難以識(shí)別,而且對(duì)于新手程序員,Python和Jupyter notebook的驗(yàn)證可能更耗時(shí)。此外Python能夠處理許多不同類(lèi)型的數(shù)據(jù)格式,如MOOC和其他在線(xiàn)學(xué)習(xí)平臺(tái)。雖然Python在計(jì)算上比前面介紹的電子表格工具更強(qiáng)大,但它在這些領(lǐng)域的能力并不是無(wú)限的。Python能夠容納比以前的工具更大的數(shù)據(jù)集,但它仍然受到大小限制,在研究人員的計(jì)算機(jī)的1000萬(wàn)行數(shù)據(jù)范圍內(nèi),速度會(huì)變慢。

      4.Structured Query Language (SQL)

      SQL用于組織一些(但不是全部)數(shù)據(jù)庫(kù)。SQL查詢(xún)是一種提取所需數(shù)據(jù)的強(qiáng)大方法,有時(shí)跨多個(gè)數(shù)據(jù)庫(kù)表進(jìn)行集成連接。在SQL(或其他數(shù)據(jù)庫(kù)語(yǔ)言,如Hadoop或Spark)中,許多基本的過(guò)濾任務(wù)(如選擇特定的學(xué)生子集或從特定的日期范圍獲取數(shù)據(jù))比上述任何工具都要快得多。然而,對(duì)于在工程文件過(guò)程中創(chuàng)建復(fù)雜的變量,SQL可能是一種笨拙的語(yǔ)言。SQL可以與前面提到的其他工具有效地結(jié)合使用:SQL擅長(zhǎng)于批量排序和篩選任務(wù),這些任務(wù)在Excel或Python中非常緩慢。

      ●進(jìn)階級(jí)數(shù)據(jù)挖掘和分析工具

      本節(jié)列出的工具提供了廣泛的算法和建??蚣?,可用于對(duì)教育數(shù)據(jù)中的流程和關(guān)系進(jìn)行建模和預(yù)測(cè)。

      1.WEKA

      WEKA是一個(gè)免費(fèi)開(kāi)源軟件包,集合了廣泛的數(shù)據(jù)挖掘和模型構(gòu)建算法。它不支持創(chuàng)建新變量,但支持自動(dòng)選擇。WEKA有一組廣泛的分類(lèi)、集群和關(guān)聯(lián)挖掘算法,可以單獨(dú)使用,也可以結(jié)合使用。用戶(hù)可以從命令行、圖形用戶(hù)界面(GUI)或Java API調(diào)用算法。

      2.SPSS

      SPSS主要是一個(gè)統(tǒng)計(jì)軟件包,提供一系列統(tǒng)計(jì)測(cè)試、回歸框架、相關(guān)性和因子分析。SPSS是由IBMSPSS Modeler Premium提供的補(bǔ)充,這是一個(gè)相對(duì)較新的分析和數(shù)據(jù)挖掘包,集成了以前的分析和文本挖掘包。SPSS Modeler尤其能夠從現(xiàn)有功能部件中創(chuàng)建新功能部件、數(shù)據(jù)篩選功能部件以及功能部件選擇和功能部件空間縮減功能部件。用于數(shù)據(jù)轉(zhuǎn)換、變量選擇的工具與數(shù)據(jù)挖掘包中的工具類(lèi)似,但選擇方法的種類(lèi)較少。它還有在變量選擇中使用目標(biāo)類(lèi)的功能,這在許多其他包中是不可用的。雖然SPSS代表一個(gè)全面的統(tǒng)計(jì)分析工具,但是對(duì)建模的支持比本節(jié)中的其他工具稍差。SPSS不如其他工具靈活,更難于定制,也沒(méi)有文檔化。

      3.KNIME

      KNIME是一個(gè)數(shù)據(jù)清理和分析包,通常類(lèi)似于RapidMiner和WEKA。它提供了許多與這些工具相同的功能,并且像RapidMiner一樣,集成了所有WEKA的算法。此外,它還在情緒分析和SNA等領(lǐng)域提供了大量專(zhuān)門(mén)的算法。KNIME有一個(gè)特別強(qiáng)大的功能,它能夠在同一分析中集成來(lái)自多個(gè)源的數(shù)據(jù)。KNIME還提供擴(kuò)展,允許它與R、Python、Java和SQL進(jìn)行接口。

      4.Orange

      Orange是一個(gè)數(shù)據(jù)可視化和分析包。雖然它的算法和工具比WEKA或KNIME少得多,但它的界面更干凈,更容易理解,帶有顏色編碼的小部件,可以區(qū)分?jǐn)?shù)據(jù)輸入和清理、可視化、回歸和集群。它不僅提供許多常用的算法,還具有可定制的可視化模塊,用于使用合理的文檔表示模型結(jié)果。然而與Excel相比,Orange可以處理的數(shù)據(jù)規(guī)模有限?;谄湟子诶斫獾腉UI和菜單布局,Orange可能更適合小型項(xiàng)目或新手研究人員。

      5.Spark MLLib

      Spark是以分布式方式跨多個(gè)計(jì)算機(jī)處理器,可以大規(guī)模處理數(shù)據(jù)的框架。Spark可以通過(guò)API連接幾種編程語(yǔ)言,包括Java、Python和SQL,允許使用這些語(yǔ)言進(jìn)行分布式處理。Spark的MLLib機(jī)器學(xué)習(xí)框架提供了幾種機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法。盡管MLLib的功能仍然有限,而且它是一個(gè)純粹的編程工具(減少了對(duì)非程序員的可用性),但是它的分布式特性使其成為一個(gè)高效和快速的選擇。

      ●高手級(jí)數(shù)據(jù)可視化工具

      本節(jié)介紹一些用于視覺(jué)分析的通用工具和方法,這些工具和方法支持構(gòu)建交互式的視覺(jué)界面,以便從數(shù)據(jù)中獲取知識(shí),以及教師向?qū)W生傳達(dá)學(xué)習(xí)的重要含義。

      1.Tableau

      Tableau提供了一系列用于交互數(shù)據(jù)分析和可視化的產(chǎn)品。雖然Tableau工具集的主要關(guān)注點(diǎn)是支持商業(yè)智能,但它已廣泛應(yīng)用于教育環(huán)境中,用于分析學(xué)生數(shù)據(jù)、提供可操作的見(jiàn)解、增強(qiáng)教學(xué)實(shí)踐和簡(jiǎn)化教育報(bào)告。Tableau的主要優(yōu)點(diǎn)是不需要編程知識(shí)來(lái)分析大量數(shù)據(jù),并提供了連接或?qū)霐?shù)據(jù)的功能。Tableau還具有構(gòu)建豐富的交互式功能,能夠向最終用戶(hù)顯示實(shí)時(shí)可視化。然而Tableau的功能僅限于此,它不支持預(yù)測(cè)分析或關(guān)系數(shù)據(jù)挖掘。此外,Tableau作為一種商業(yè)工具,是不可擴(kuò)展的,也不支持與其他軟件平臺(tái)的集成。

      2.D3.js

      D3.js(數(shù)據(jù)驅(qū)動(dòng)文件)是一個(gè)JavaScript庫(kù),它允許操作數(shù)據(jù)驅(qū)動(dòng),使研究人員和實(shí)踐者能夠構(gòu)建復(fù)雜的交互式數(shù)據(jù)可視化,這些可視化需要數(shù)據(jù)處理,并且是針對(duì)現(xiàn)代Web瀏覽器的。它有幾個(gè)優(yōu)點(diǎn):在構(gòu)建各種數(shù)據(jù)可視化方面具有相當(dāng)大的靈活性,不需要安裝,支持代碼重用,并且是免費(fèi)開(kāi)源的。然而在教育研究目的采用方面存在著挑戰(zhàn)。作為一種技術(shù),D3.js需要廣泛的編程知識(shí),并且存在兼容性問(wèn)題,以及對(duì)較大數(shù)據(jù)集的一些性能限制。最后,它不提供對(duì)可視化用戶(hù)隱藏?cái)?shù)據(jù)的任何方法,需要數(shù)據(jù)預(yù)處理來(lái)確保隱私和數(shù)據(jù)安全。

      ●專(zhuān)家級(jí)教育數(shù)據(jù)挖掘和學(xué)習(xí)分析工具

      上面我們討論了用于教育數(shù)據(jù)挖掘建模和分析的通用工具。然而,特定類(lèi)型的數(shù)據(jù)和特定的分析目標(biāo)通常需要更專(zhuān)門(mén)化的算法,而這些算法在這些通用工具中是不可用的。對(duì)于這些情況,研究人員和實(shí)踐者通常使用針對(duì)這些情況設(shè)計(jì)的更專(zhuān)業(yè)的工具。

      1.貝葉斯知識(shí)追蹤工具(BKT:Tools for Bayesian knowledge tracing)

      貝葉斯知識(shí)追蹤是一種流行的潛在知識(shí)估計(jì)方法,學(xué)生的知識(shí)是通過(guò)在線(xiàn)學(xué)習(xí)來(lái)測(cè)量的。這與測(cè)試中常見(jiàn)的教育測(cè)量類(lèi)型不同,因?yàn)樵谠诰€(xiàn)學(xué)習(xí)過(guò)程中,知識(shí)在被測(cè)量時(shí)發(fā)生了變化。貝葉斯知識(shí)追蹤是一個(gè)隱馬爾可夫模型(同時(shí)也是一個(gè)簡(jiǎn)單的貝葉斯網(wǎng)絡(luò)),它可以預(yù)測(cè)一個(gè)學(xué)生是否掌握了智能輔導(dǎo)系統(tǒng)或類(lèi)似程序中的特定技能。貝葉斯知識(shí)追蹤模型通常使用以下兩種算法之一進(jìn)行匹配——網(wǎng)格搜索或期望最大化,兩種算法在預(yù)測(cè)性能上具有可比性。

      2.文本挖掘工具

      文本挖掘是一個(gè)快速發(fā)展的數(shù)據(jù)挖掘領(lǐng)域,有大量應(yīng)用程序和API可用來(lái)標(biāo)記、處理和標(biāo)識(shí)文本數(shù)據(jù)。文本分析工具可以處理語(yǔ)音的文本部分、句子結(jié)構(gòu)和語(yǔ)義詞的意義。此外,一些工具能夠識(shí)別不同單詞和句子之間的表示關(guān)系。下面介紹的工具并不是所有可用程序的詳盡列表,而是一些工具的選擇,它們跨越了文本處理和分析的許多方面。

      ①語(yǔ)言查詢(xún)與字?jǐn)?shù)統(tǒng)計(jì)(LIWC)。LIWC工具是一種圖形化、易于使用的計(jì)算機(jī)文本分析工具,它通過(guò)分析使用的詞匯量來(lái)測(cè)量文本的潛在特征。LIWC針對(duì)不同的心理詞匯類(lèi)別(如認(rèn)知詞匯、情感詞匯、功能詞匯和分析詞匯)提供了80多個(gè)指標(biāo),并在大量研究中得到了廣泛的應(yīng)用和驗(yàn)證。

      ②WMatrix是一個(gè)在線(xiàn)圖形化工具。該工具可用于文本語(yǔ)庫(kù)的詞頻分析和可視化。雖然它可以用來(lái)進(jìn)行完整的分析過(guò)程,但它主要用于提取語(yǔ)言特征,包括單詞、重要的多單詞短語(yǔ)標(biāo)記,特別是單詞語(yǔ)義類(lèi)別。它還以詞云的形式提供了文本語(yǔ)料庫(kù)的可視化,同時(shí)為多個(gè)文本語(yǔ)料庫(kù)提供了接口。

      ③Coh-Metrix是另一個(gè)流行的文本分析工具。它提供了100多個(gè)衡量文本分為11個(gè)類(lèi)別。與WMatrix相比,CohMetrix提供了對(duì)文本特性和數(shù)據(jù)關(guān)系的上下文的理解和分析。WMatrix從語(yǔ)義上標(biāo)記單詞,而CohMetrix標(biāo)記多個(gè)用于評(píng)估深層文本內(nèi)聚。隨著分析深層含義的增加,就需要更大的數(shù)據(jù)集,使用CohMetrix有效地傾向于需要更大的文本語(yǔ)料庫(kù)。

      3.過(guò)程和序列挖掘工具

      除了更多的教育數(shù)據(jù)分析的傳統(tǒng)方法,研究人員還瞄準(zhǔn)跟蹤學(xué)習(xí)者學(xué)習(xí)策略和流程序列。針對(duì)這類(lèi)應(yīng)用程序,出現(xiàn)了一組獨(dú)特的工具。在本節(jié)中,我們將介紹用于支持教育數(shù)據(jù)挖掘和學(xué)習(xí)分析研究的過(guò)程和序列挖掘的ProM和tramler-tools。

      ①ProM是一個(gè)基于Java的、獨(dú)立于平臺(tái)的、模塊化的、開(kāi)源的平臺(tái),支持多種流程挖掘技術(shù)。最近的實(shí)現(xiàn)(ProM 6)支持在分布式設(shè)置中或通過(guò)批處理運(yùn)行進(jìn)程挖掘。ProM還支持多個(gè)進(jìn)程挖掘算法的鏈接,提供預(yù)期輸入和輸出的清晰規(guī)范。此外,可以在運(yùn)行時(shí)添加新的插件,從而直接集成到分析過(guò)程中。ProM允許與現(xiàn)有信息系統(tǒng)輕松集成,而不需要編程。

      ②TraMineR是一個(gè)免費(fèi)開(kāi)源工具,支持挖掘和可視化狀態(tài)或事件序列。TraMineR的一些主要特性:用于狀態(tài)分析和可視化,序列數(shù)據(jù)包括處理不同格式的序列和改造各種表示;描述縱向(如長(zhǎng)度、復(fù)雜性和時(shí)間)和其他聚合(如過(guò)渡率、平均持續(xù)時(shí)間)的特征序列;訪問(wèn)各種各樣的繪圖功能(如頻率或情節(jié)、密度指數(shù)情節(jié));用廣泛的指標(biāo)來(lái)評(píng)估序列之間的距離。

      4.匹茲堡科學(xué)學(xué)習(xí)中心(PSLC)開(kāi)發(fā)的DataShop

      PSLC的數(shù)據(jù)庫(kù)包含一個(gè)存儲(chǔ)庫(kù),其中包含許多可下載和分析的數(shù)據(jù)集,以及一組支持探索性分析和模型的工具。DataShop在數(shù)據(jù)集上具有知識(shí)組件模型的功能。它還能夠在正確性、提示使用、潛在知識(shí)、響應(yīng)時(shí)間和其他感興趣的變量方面將學(xué)生的表現(xiàn)可視化。PSLC數(shù)據(jù)是一個(gè)Web應(yīng)用程序,可以免費(fèi)使用,但不是開(kāi)源的。

      ●教育數(shù)據(jù)挖掘和學(xué)習(xí)分析工具的終極原則:混合應(yīng)用

      研究人員和實(shí)踐者在開(kāi)始使用教育數(shù)據(jù)挖掘和學(xué)習(xí)分析時(shí)需要考慮的一個(gè)關(guān)鍵問(wèn)題是,沒(méi)有一種工具能夠完美地從開(kāi)始到結(jié)束分析大多數(shù)數(shù)據(jù)集的整個(gè)過(guò)程。不同的工具適合于不同的任務(wù)。例如,一個(gè)研究人員可能在一個(gè)流行的MOOC中擁有6000萬(wàn)次系統(tǒng)交易的數(shù)據(jù)。從這個(gè)數(shù)據(jù)集中,他只選擇一個(gè)特定的數(shù)據(jù)(SQL),然后細(xì)化數(shù)據(jù)集計(jì)算系統(tǒng)中總學(xué)生時(shí)間(Excel),在擬合預(yù)測(cè)模型中(RapidMiner)分析論壇的帖子,回復(fù)(NodeXL)之間的關(guān)系和整體文本質(zhì)量的帖子,回復(fù)學(xué)生(CohMetrix)。最后,研究人員可能會(huì)找出可視化社交網(wǎng)絡(luò)數(shù)據(jù)(Gephi)中最有趣的學(xué)生集群。

      所有的工具,它們都代表了在這個(gè)領(lǐng)域工作的不同科學(xué)家群體的總和。它們代表了解決不同問(wèn)題的不同方法,每一種方法都有其獨(dú)特的優(yōu)缺點(diǎn)。通過(guò)工具的組合,可以實(shí)現(xiàn)復(fù)雜的分析,并可以做出有用的發(fā)現(xiàn)。這是一個(gè)快速變化的領(lǐng)域,新的工具不斷出現(xiàn)。盡管如此,我們希望這篇綜述能夠?qū)δ切┰诶碚搶用嬉约霸趯?shí)際應(yīng)用中對(duì)這些工具感興趣的研究人員有所幫助。


      參考整理自:曲智麗,張海,楊絮.當(dāng)前流行教育數(shù)據(jù)挖掘與學(xué)習(xí)分析工具概覽[J].中國(guó)信息技術(shù)教育,2019(06):77-80.

      小編:雪糕

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶(hù) 評(píng)論公約

        類(lèi)似文章 更多