關(guān)于轉(zhuǎn)載授權(quán) 大數(shù)據(jù)文摘作品,歡迎個(gè)人轉(zhuǎn)發(fā)朋友圈,自媒體、媒體、機(jī)構(gòu)轉(zhuǎn)載務(wù)必申請(qǐng)授權(quán),后臺(tái)留言“機(jī)構(gòu)名稱+文章標(biāo)題+轉(zhuǎn)載”,申請(qǐng)過(guò)授權(quán)的不必再次申請(qǐng),只要按約定轉(zhuǎn)載即可,但文末需放置大數(shù)據(jù)文摘二維碼。
摘要:GitHub上排名前10的機(jī)器學(xué)習(xí)項(xiàng)目,包括一些庫(kù)、框架和教育資源。讓我們一起學(xué)習(xí)一下這些工具和資源。
開(kāi)源軟件是數(shù)據(jù)科學(xué)拼圖中重要的一塊。根據(jù)最近KDnuggets對(duì)數(shù)據(jù)科學(xué)軟件所做的調(diào)查結(jié)果,過(guò)去的12個(gè)月內(nèi),有73%的數(shù)據(jù)科學(xué)家使用的是免費(fèi)軟件。雖然互聯(lián)網(wǎng)有很多免費(fèi)軟件來(lái)源,Github已然成為所有開(kāi)源軟件的信息交流中心,包括那些用于在數(shù)據(jù)科學(xué)界的工具。機(jī)器學(xué)習(xí)對(duì)于數(shù)據(jù)科學(xué)而言,其重要性和中心地位,不言而喻。以下所列,是Github上排名前10位的機(jī)器學(xué)習(xí)項(xiàng)目的概況。
基于Python的機(jī)器學(xué)習(xí) 毫無(wú)懸念地,列為十大項(xiàng)目之首的,是服務(wù)于遍布全世界從工業(yè)到學(xué)術(shù)界的Python使用者們的機(jī)器學(xué)習(xí)庫(kù)?;贜umPy, SciPy和matplotlib,ScikitLearn最大化了Python的科學(xué)計(jì)算能力。作為通用的工具包,ScikitLearn包含了分類、回歸和聚類算法,以及數(shù)據(jù)準(zhǔn)備和模型評(píng)估等輔助工具。 鏈接:https://github.com/scikit-learn/scikit-learn
一系列Awsome機(jī)器學(xué)習(xí)的框架、庫(kù)和軟件的整合列表。 該列表首先根據(jù)語(yǔ)言進(jìn)行分類,然后由機(jī)器學(xué)習(xí)類別(如通用,計(jì)算機(jī)視覺(jué),自然語(yǔ)言處理等等)進(jìn)一步細(xì)分。它還包括了數(shù)據(jù)可視化工具,從某種意義上說(shuō),這使得它更多被視為一個(gè)通用的機(jī)器學(xué)習(xí)方法。這不失為一件好事。 鏈接:https://github.com/josephmisiti/awesome-machine-learning
PredictionIO 是開(kāi)發(fā)人員和ML工程師的機(jī)器學(xué)習(xí)服務(wù)器, 構(gòu)建于Apache Spark, HBase 和 Spray之上。 PredictionIO是一個(gè)通用的框架。它包括多個(gè)服務(wù)于幾個(gè)常見(jiàn)任務(wù)的模塊,如可定制的分類和建議,并通過(guò)REST API或SDK與現(xiàn)有應(yīng)用程序相連接,還包括對(duì)Spark MLib的支持。因?yàn)樗墙⒃赟park之上,并利用Spark的生態(tài)系統(tǒng),毫無(wú)懸念地,PredictionIO主要是由Scala開(kāi)發(fā)而來(lái)。
基于Jupyter notebook和ScikitLearn的交互式機(jī)器學(xué)習(xí)資源
鏈接:https://github.com/hangtwenty/dive-into-machine-learning
Python網(wǎng)絡(luò)挖掘模塊,包括抓取工具、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)分析及可視化。 Pattern是一個(gè)基于Python的網(wǎng)絡(luò)挖掘工具包,來(lái)自于安特衛(wèi)普大學(xué)的計(jì)算語(yǔ)言學(xué)和心理語(yǔ)言學(xué)研究中心。它的主要作用是數(shù)據(jù)抓取、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、網(wǎng)絡(luò)分析和可視化。Pattern能從幾個(gè)知名的網(wǎng)絡(luò)服務(wù)器中較易地挖掘數(shù)據(jù)。該項(xiàng)目有很成熟的開(kāi)發(fā)記錄,還包括了大量的例子和單元測(cè)試。 鏈接:https://github.com/clips/pattern
是一種腦力激發(fā)機(jī)器智能平臺(tái),具有基于腦皮質(zhì)性學(xué)習(xí)算法的生物學(xué)準(zhǔn)確性神經(jīng)網(wǎng)絡(luò)。 NuPIC實(shí)現(xiàn)了分層時(shí)間內(nèi)存( Hierarchical Temporal Memory, 簡(jiǎn)稱HTM)機(jī)器學(xué)習(xí)算法。HTM嘗試模擬大腦皮層算法,旨在專注于存儲(chǔ)和記憶時(shí)空模式。NuPIC適合于模式相關(guān)的異常檢測(cè)。 鏈接:https://github.com/numenta/nupic
Vowpal Wabbit是一個(gè)機(jī)器學(xué)習(xí)系統(tǒng),旨在推動(dòng)機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,如聯(lián)網(wǎng)、散列法、歸約、搜索學(xué)習(xí)2、主動(dòng)以及相互學(xué)習(xí)。 Vowpal Wabbit的用途是迅速處理大規(guī)模數(shù)據(jù)庫(kù)集并支持并行學(xué)習(xí)。該項(xiàng)目開(kāi)始于雅虎,目前在微軟研發(fā)。Vowpal Wabbit利用核外 (out-of-core) 分布式學(xué)習(xí),曾經(jīng)在一個(gè)小時(shí)內(nèi)用1000個(gè)計(jì)算節(jié)點(diǎn)處理terabyte級(jí)別的 特征的數(shù)據(jù)集。 鏈接:https://github.com/JohnLangford/vowpal_wabbit
專為人類設(shè)計(jì)的機(jī)器學(xué)習(xí)軟件包。 aerosolve評(píng)論 試圖與其他庫(kù)管理程序不同,Aerosolve注重人性化的調(diào)試工具,運(yùn)用Scala代碼進(jìn)行訓(xùn)練,利用圖像內(nèi)容分析引擎,達(dá)到便于圖像排名的目的,并通過(guò)功能轉(zhuǎn)換語(yǔ)言為用戶提供靈活性和控制功能。 Aerosolve實(shí)現(xiàn)了基于Thrift(譯者注:Thrift 是Apache開(kāi)發(fā)的多語(yǔ)言協(xié)作平臺(tái))特征呈現(xiàn),在Aerosolve中,特征會(huì)按照邏輯分組,可以一次性地對(duì)整個(gè)特征組進(jìn)行轉(zhuǎn)換,或者將兩個(gè)不同的特征簇組合到一起創(chuàng)建新的特征簇。 鏈接:http://airbnb./aerosolve/
其目標(biāo)是為開(kāi)發(fā)者提供一個(gè)功能全面、簡(jiǎn)單易用、可定制的軟件包。 GoLearn實(shí)現(xiàn)了ScikitLearn的許多熟悉的擬合/預(yù)測(cè)算法,可以很容易調(diào)換機(jī)器學(xué)習(xí)算法,并實(shí)現(xiàn)了交叉驗(yàn)證和訓(xùn)練/測(cè)試分組之類的“輔助功能”。 鏈接:https://github.com/sjwhitworth/golearn
“黑客的機(jī)器學(xué)習(xí)(Machine Learning for Hackers)“一書(shū)的伴隨代碼。
|
|