乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      史上最全實戰(zhàn)資源,機器學(xué)習(xí)框架、高分練手項目及數(shù)據(jù)集匯總

       heii2 2019-05-16

      機器學(xué)習(xí)領(lǐng)域,最常討論到的一個話題就是機器學(xué)習(xí)項目。

      學(xué)習(xí)或從事這個領(lǐng)域的小伙伴都會想要找一些機器學(xué)習(xí)的項目來進行練手,做項目好比練題,孰能生巧,能夠在機器學(xué)習(xí)這個領(lǐng)域獲取更多的知識和技能。

      本篇目錄:

      1、20個機器學(xué)習(xí)庫和框架

      2、機器學(xué)習(xí)項目:

      • 語言相關(guān)

      • 計算機視覺

      • 圖像處理

      • 自然語言處理

      • 預(yù)測

      • 圖像處理

      • 風(fēng)格轉(zhuǎn)移

      • 圖像分類

      • 人臉識別

      • 物體檢測

      • 自動駕駛

      • 游戲AI

      • 國際象棋AI

      • 醫(yī)療AI

      •  演講AI

      3、數(shù)據(jù)集

      • 經(jīng)典數(shù)據(jù)集

      • 圖像處理

      • 情感分析

      • 自然語言處理

      • 音頻數(shù)據(jù)集

      • 自動駕駛

      機器學(xué)習(xí)庫和框架

      01 TensorFlow    

      TensorFlow是一個采用數(shù)據(jù)流圖(data flow graphs),用于數(shù)值計算的開源軟件庫。

      最初是由研究人員和工程師在Google機器智能研究組織的Google Brain團隊中開發(fā)的。

      用于機器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)方面的研究,但這個系統(tǒng)的通用性使其也可廣泛用于其他計算領(lǐng)域。

      貢獻者:1978,提交:55315,星級:127129。

      Github網(wǎng)址: Tensorflow

      https://www./

      02 Scikit-learn  

      scikit-learn 是基于 Python 語言的機器學(xué)習(xí)工具。

      它是一個簡單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,可供大家在各種環(huán)境中重復(fù)使用,建立在 NumPy ,SciPy 和 matplotlib 上,開源,可商業(yè)使用 - BSD許可證。

      貢獻者:1303,提交:23978,星星:34958

      Github URL:  Scikit-learn

      http:///

      03 Keras

      Keras是一個高層神經(jīng)網(wǎng)絡(luò)API,由python編寫,能夠在TensorFlow,CNTK或Theano之上運行。

      keras具有高度模塊化,極簡,和可擴充特性,支持CNN和RNN,或二者的結(jié)合,無縫CPU和GPU切換。

      貢獻者:795,提交:5110,星星:40986

      Github網(wǎng)址: Keras

      https:///

      04 PyTorch

      Pytorch是Facebook的AI研究團隊發(fā)布了一個Python工具包,是Python優(yōu)先的深度學(xué)習(xí)框架。

      作為numpy的替代品;使用強大的GPU能力,提供最大的靈活性和速度,實現(xiàn)了機器學(xué)習(xí)。

      貢獻者:1034,提交:17856,星星:27849

      Github URL: pytorch

      http://pytorch.org/

      05 Theano

      Theano是一個Python庫,允許您定義,優(yōu)化和有效地評估涉及多維數(shù)組的數(shù)學(xué)表達式。

      建立在NumPy之上,與Numpy緊密集成,具有透明使用GPU,有效符號區(qū)分,動態(tài)C代碼生成等優(yōu)點。

      貢獻者:333,提交:28080,星星:8782

      Github網(wǎng)址: Theano

      http:///software/theano/

      06 Gensim  

      是一個免費的Python庫,具有可擴展的統(tǒng)計語義,分析語義結(jié)構(gòu)的純文本文檔,檢索語義相似的文檔等功能。


      貢獻者:313,提交:3810,星星:9153

      Github網(wǎng)址: Gensim

      https:///gensim/

      07 NuPIC 

      Taylor 說,許多機器學(xué)習(xí)算法無法適應(yīng)新模式,而 NuPIC 的運作接近于人腦。

      nupic是一個在github上開源了的AI算法平臺,相比于深度學(xué)習(xí),其更為接近人類大腦的運行結(jié)構(gòu)。

      其算法的理論依據(jù),就是純粹的生物神經(jīng)學(xué)知識,類似突觸連接與分解,神經(jīng)元,多個腦皮層的交互,動作電位等等。工程實現(xiàn)也基于此。

      貢獻者:87,提交:6623,星星:5902

      Github URL: NuPIC

      http:///

      08 Neon  

      Neon是Nervana開發(fā)的基于Python的深度學(xué)習(xí)庫。它易于使用,同時性能也處于最高水準(zhǔn)。

      貢獻者:77,提交:1117,星星:3763

      Github URL: Neon

      http://neon./

      09 Nilearn  

      Nilearn是一個Python模塊,用于快速簡便地統(tǒng)計NeuroImaging數(shù)據(jù)。

      它利用scikit-learn Python工具箱進行多變量統(tǒng)計,并使用預(yù)測建模,分類,解碼或連接分析等應(yīng)用程序。


      貢獻者:88,提交:7610,星星:520

      Github網(wǎng)址: Nilearn

      https://nilearn./

      10 Caffe  

      Caffe是一個深刻的學(xué)習(xí)框架,以表達,速度和模塊化為基礎(chǔ)。它由伯克利視覺和學(xué)習(xí)中心( BVLC)和社區(qū)貢獻者開發(fā)。

      貢獻者:266,提交:4154,星星:28032

      Github網(wǎng)址: Caffe

      http://caffe./

      11 Chainer  

      chainer是一種基于python的靈活框架,用于輕松直觀地編寫復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),適用于深度學(xué)習(xí)模型。

      利用chainer可以輕松使用多GPU實例進行訓(xùn)練,還會自動記錄結(jié)果、圖表損失和精度并生成用于使用計算圖來可視化神經(jīng)網(wǎng)絡(luò)的輸出。

      貢獻者:227,提交:26266,星星:4772

      Github URL: Chainer

      http:///

      12 Statsmodels  

      Statsmodels 是個Python模塊,允許用戶瀏覽數(shù)據(jù),估計統(tǒng)計模型和執(zhí)行統(tǒng)計測試。

      描述性統(tǒng)計,統(tǒng)計測試,繪圖函數(shù)和結(jié)果統(tǒng)計的廣泛列表可用于不同類型的數(shù)據(jù)和每個估算器。


      貢獻者:182,提交:11544,星星:3882

      Github URL: Statsmodels

      http://statsmodels./

      13 Shogun  

      是機器學(xué)習(xí)工具箱,提供各種統(tǒng)一和高效的機器學(xué)習(xí)(ML)方法.工具箱無縫地允許輕松組合多個數(shù)據(jù)表示,算法類和通用工具。 


      貢獻者:158,提交:16977,星星:2444

      Github URL: Shogun

      http:///

      14 Pylearn2

      Pylearn2是一個機器學(xué)習(xí)庫,它的大部分功能都建立在 Theano之上 。

      這意味著你可以使用數(shù)學(xué)表達式編寫Pylearn2插件(新模型,算法等),Theano會優(yōu)化和穩(wěn)定這些表達式,并將它們編譯為你選擇的后端(CPU或GPU)。 


      貢獻者:113,提交:7119,星星:2666

      Github URL: Pylearn2

      http:///software/pylearn2/

      15 Annoy 

      Annoy是一個帶有Python綁定的C ++庫,用于搜索空間中接近給定查詢點的點。

      它還創(chuàng)建了大型只讀基于文件的數(shù)據(jù)結(jié)構(gòu),這些數(shù)據(jù)結(jié)構(gòu)映射到內(nèi)存中,以便許多進程可以共享相同的數(shù)據(jù)。 

      貢獻者:43,提交:645,星星:5346

      Github URL: Annoy

      https://pypi./pypi/annoy

      16 PyBrain  

      PyBrain是一個用于Python的模塊化機器學(xué)習(xí)庫,其目標(biāo)是為機器學(xué)習(xí)任務(wù)和各種預(yù)定義環(huán)境提供靈活,易用且功能強大的算法。


      貢獻者:31,提交:1124,星星:804

      Github URL: PyBrain

      http:///

      17 Fuel  

      是一個數(shù)據(jù)管道框架,可為機器學(xué)習(xí)模型提供所需的數(shù)據(jù)。


      貢獻者:32(10%以上),提交:1116,

      Github URL: Fuel

      https://fuel./

      18 Orange3  

      Orange3是新手和專家的開源機器學(xué)習(xí)和數(shù)據(jù)可視化工具,具有大型工具箱的交互式數(shù)據(jù)分析工作流程。 

      貢獻者:71,提交:10651,星星:1780

      Github網(wǎng)址: Orange3

      https://pymc-devs./pymc/README.html

      19 Pymc  

      Pymc是一個python模塊,它實現(xiàn)貝葉斯統(tǒng)計模型和擬合算法,包括馬爾可夫鏈蒙特卡羅。其靈活性和可擴展性使其適用于大量問題。 

      貢獻者:40,提交:2726,星星:818

      Github URL: Pymc

      https://pymc-devs./

      20 Deap

      Deap是一種新穎的進化計算框架,用于快速原型設(shè)計和思想測試。

      它旨在使算法明確,數(shù)據(jù)結(jié)構(gòu)透明,與多處理和 SCOOP等并行機制完美協(xié)調(diào) 。 

      貢獻者:44,提交:1982,星星:2845

      Github網(wǎng)址: Deap

      https://pypi./pypi/deap

      各類機器學(xué)習(xí)項目

      01 語言相關(guān)

      1.python語言相關(guān)

      網(wǎng)址https://github.com/vinta/awesome-python

      2.hph語言相關(guān)

      網(wǎng)址:https://github.com/ziadoz/awesome-php

      3.java語言相關(guān)

      網(wǎng)址:https://github.com/akullpp/awesome-java

      4.nodejs相關(guān)

      網(wǎng)址https://github.com/sindresorhus/awesome-nodejs

      5.ios相關(guān)

      網(wǎng)址https://github.com/vsouza/awesome-ios

      6.android相關(guān)

      網(wǎng)址:https://github.com/snowdream/awesome-android

      7.shell相關(guān)

      網(wǎng)址https://github.com/alebcay/awesome-shell

      8.spider相關(guān)

      網(wǎng)址:https://github.com/facert/awesome-spider

      9.go相關(guān)

      網(wǎng)址:https://github.com/avelino/awesome-go

      02 計算機視覺

      1.計算機視覺的資源列表

      網(wǎng)址:http:///RwjDvTD

      2.計算機視覺的深度學(xué)習(xí)資源的精選列表

      網(wǎng)址:http:///RLvTzjn


      03 自然語言處理

      1.學(xué)習(xí)溝通

      概述新的OpenAI研究,開發(fā)自己的語言。

      網(wǎng)址:http:///EKba21p

      2.自然語言處理

      專門針對自然語言處理(NLP)的精選資源列表。

      網(wǎng)址:https://github.com/keon/awesome-nlp

      3.一種新穎的神經(jīng)機器翻譯方法

      使用一種新穎的卷積神經(jīng)網(wǎng)絡(luò)(CNN)語言翻譯方法發(fā)表了研究成果,該方法以復(fù)現(xiàn)神經(jīng)系統(tǒng)速度的九倍達到了最先進的精度。

      網(wǎng)址:http:///EKbKKaa

      4.如何在沒有真正嘗試的情況下制造種族主義者的AI

      制作一個情緒分類器。

      網(wǎng)址:http:///RKN4XpX

      04 預(yù)測

      1.uber時間序列預(yù)測的神經(jīng)網(wǎng)絡(luò)工程不確定性估計

      介紹一種新的端到端貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)架構(gòu),可以更準(zhǔn)確地預(yù)測時間序列預(yù)測和大規(guī)模的不確定性估計。

      網(wǎng)址:http:///RpqIwnF

      2.如何輕松預(yù)測股票價格 

      網(wǎng)址:http:///RiLyUGN

      05 圖像處理

      1.高分辨率圖像合成與條件GAN的語義處理 

      提出了一種使用條件生成對抗網(wǎng)絡(luò)(條件GAN)從語義標(biāo)簽圖合成高分辨率照片真實圖像的新方法。

      網(wǎng)址:http:///EK4NHTw

      2.使用OpenCV(Python)進行高動態(tài)范圍(HDR)成像

      學(xué)習(xí)如何使用不同曝光設(shè)置拍攝的多張圖像創(chuàng)建高動態(tài)范圍(HDR)圖像。

      網(wǎng)址:http:///EK4pgjj

      06 風(fēng)格轉(zhuǎn)移

      1.通過深度圖像類比轉(zhuǎn)換視覺屬性

      用于跨圖像的視覺屬性傳遞的新技術(shù),通過視覺屬性轉(zhuǎn)移,將視覺信息(例如顏色,色調(diào),紋理和樣式)從一個圖像轉(zhuǎn)移到另一個圖像。

      網(wǎng)址:http:///EK48MYY

      2.深度照片風(fēng)格轉(zhuǎn)換

      本文介紹了一種深度學(xué)習(xí)的攝影風(fēng)格轉(zhuǎn)換方法,可以處理各種圖像內(nèi)容,同時忠實地傳遞參考風(fēng)格。

      網(wǎng)址:http:///EK4uR8l

      3.深度圖像優(yōu)先

      本文表明, 深度網(wǎng)絡(luò)的結(jié)構(gòu)足以在任何學(xué)習(xí)之前捕捉大量的低級圖像統(tǒng)計數(shù)據(jù)。 隨機初始化的神經(jīng)網(wǎng)絡(luò)可以作為手工制作的優(yōu)先在標(biāo)準(zhǔn)的逆問題, 如去噪, 超分辨率。

      網(wǎng)址:http:///EK43mZA


      07 圖像分類

      1.特征可視化:神經(jīng)網(wǎng)絡(luò)如何建立對圖像的理解

      非常簡單的方法可以產(chǎn)生高質(zhì)量的可視化。本文介紹了一些技巧,用于探索神經(jīng)元反應(yīng)的變化,它們?nèi)绾蜗嗷プ饔靡约叭绾胃倪M優(yōu)化過程。

      網(wǎng)址:http:///EKbvwWM

      2.絕對新手的神經(jīng)網(wǎng)絡(luò)圖像分類指南

      使用機器學(xué)習(xí)來高度確定地預(yù)測數(shù)據(jù)/未經(jīng)訓(xùn)練的樣本中的圖像。

      網(wǎng)址:http:///EKbPjVM

      08 人臉識別

      1.通過直接體積CNN回歸從單個圖像重建大姿態(tài)三維人臉

      3D人臉重建是一個非常困難的計算機視覺基礎(chǔ)問題。本文建議通過在由2D圖像和3D面部模型或掃描組成的適當(dāng)數(shù)據(jù)集上訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)來解決許多這些限制。

      網(wǎng)址:http:///EKbAgH1

      2.使用OpenCV,Python和dlib進行眨眼檢測

      網(wǎng)址:http:///EKbLPUb

      3.使用面部檢測在Python中處理它

      程序?qū)⒉捎妹钚袇?shù),即輸入圖像。然后,它將使用Dlib中的面部檢測算法來查看是否有任何面部。如果有,它將為每個面部創(chuàng)建一個結(jié)束位置。

      網(wǎng)址:http:///EKb4jEx

      09 物體檢測

      1.對象檢測:深度學(xué)習(xí)時代的概述

      快速了解對象檢測中最常見的問題,深入了解實際應(yīng)用的細節(jié),并了解如何解決它的方法。

      網(wǎng)址:http:///RNf1Ap9

      2.使用深度學(xué)習(xí)和OpenCV進行實時對象檢測


      使用深度學(xué)習(xí)和OpenCV應(yīng)用實時對象檢測來處理視頻流和視頻文件。

      網(wǎng)址:http:///EKbc32W

      10 自動駕駛

      1.使用Python自動駕駛俠盜獵車手

      探索使用Python玩Grand Theft Auto 5,主要用于創(chuàng)建自動駕駛汽車和其他車輛。

      網(wǎng)址:https://github.com/sentdex/pygta5

      2.AirSim

      是微軟的開源自動駕駛仿真平臺這里主要用于自動駕駛仿真研究。

      網(wǎng)址:https://github.com/Microsoft/AirSim

      11 游戲AI

      1.OpenAI Baselines:DQN

      重現(xiàn)強化學(xué)習(xí)算法,RL算法實現(xiàn)的一些最佳實踐。

      網(wǎng)址:http:///EKGo4YB

      2.Dota 2強化學(xué)習(xí)

      創(chuàng)造一個機器人,在標(biāo)準(zhǔn)比賽規(guī)則下,在Dota 2的 1v1比賽中擊敗世界頂級專業(yè)人士。機器人通過自我游戲從頭開始學(xué)習(xí)游戲,并且不使用模仿學(xué)習(xí)或樹搜索。

      網(wǎng)址:http:///EKG9cTE

      3.創(chuàng)建AI DOOM bot

      利用VizDoom平臺進行基于強化的深度學(xué)習(xí)的探索之旅。目標(biāo)是創(chuàng)建一個能夠在死亡競賽環(huán)境中茁壯成長的Doom AI。

      網(wǎng)址:http:///EKGNxCL

      4.用于字符控制的相功能神經(jīng)網(wǎng)絡(luò)

      使用一種稱為“相位神經(jīng)網(wǎng)絡(luò)”的新型神經(jīng)網(wǎng)絡(luò)來創(chuàng)建適合游戲的角色控制器。

      網(wǎng)址:http:///EKGpsY7

      5.游戲模仿:用于快速視頻游戲AI的深度監(jiān)督卷積網(wǎng)絡(luò) 

      提出了一種僅用于游戲AI的視覺模型,它使用在純粹受監(jiān)督的模仿學(xué)習(xí)環(huán)境中訓(xùn)練的后期集成深度卷積網(wǎng)絡(luò)架構(gòu)。

      網(wǎng)址:http:///EKGWXJd

      12 國際象棋AI

      1.掌握國際象棋和將棋

      利用強化學(xué)習(xí)算法通過自學(xué)習(xí)掌握國際象棋和將棋。

      網(wǎng)址:http:///EKG85YH

      2.AlphaGo Zero:從頭學(xué)習(xí)| DeepMind

      本文介紹了AlphaGo Zero,它是AlphaGo的最新發(fā)展,以前版本的AlphaGo最初訓(xùn)練過成千上萬的人類業(yè)余和專業(yè)游戲,以學(xué)習(xí)如何玩Go。AlphaGo Zero跳過這一步,從完全隨機的游戲開始,只是通過玩游戲來學(xué)習(xí)玩游戲。

      網(wǎng)址:http:///EKGEvDs

             http:///RWY4GZy

      13 醫(yī)療AI

      1.CheXNet:放射學(xué)家檢測胸部X射線與深度學(xué)習(xí)的肺炎

      模型CheXNet是一個121層的卷積神經(jīng)網(wǎng)絡(luò),輸入胸部X射線圖像并輸出肺炎的概率以及定位最能指示肺炎的圖像區(qū)域的熱圖。

      網(wǎng)址:http:///EKGuyqG

      2.你能改善肺癌的檢測嗎?

      Kaggle舉辦的競賽的解決方案的部分內(nèi)容,挑戰(zhàn)的目標(biāo)是在給定一組CT圖像的情況下預(yù)測患者肺癌的發(fā)展。

      網(wǎng)址:http:///EKG3LBJ

      3.通過深度學(xué)習(xí)改善姑息治療 - Andrew Ng

      使用深度學(xué)習(xí)建立一個程序,通過檢查患者的電子健康記錄數(shù)據(jù),在接下來的3-12個月內(nèi)識別出具有高死亡風(fēng)險的住院患者。

      網(wǎng)址:http:///EKG13tt

      14 演講AI

      1.Tacotron

      Tacotron,一種端到端的生成文本到語音模型,它直接從字符合成語音。

      網(wǎng)址:http:///EKGdip1

      2.CTC序列建模

      用CTC進行序列建模,用于在語音識別,手寫識別和其他序列問題中訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的算法。

      鏈接:http:///EKGgtQs

      3.深度語音

      Deep Voice,一種完全由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建實現(xiàn)文本到語音的系統(tǒng)。該系統(tǒng)包括五個主要構(gòu)建塊,通過為每個組件使用神經(jīng)網(wǎng)絡(luò),系統(tǒng)比傳統(tǒng)的文本到語音系統(tǒng)更簡單,更靈活。

      網(wǎng)址:http:///EKGk93S

      4.Siri's Voice的深度學(xué)習(xí)


      Siri語音的深度學(xué)習(xí):用于混合單元選擇綜合的設(shè)備深度混合密度網(wǎng)絡(luò)

      網(wǎng)址:http:///EKGFZB5


      用于機器學(xué)習(xí)的數(shù)據(jù)集

      01 經(jīng)典數(shù)據(jù)集

      1.Iris鳶尾花卉數(shù)據(jù)集150分類和聚類

      接:http:///EKaE0uv

      2.Adult美國人口普查數(shù)據(jù)48842分類和聚類

      鏈接:http:///zlvhR8S

      3.Wine葡萄酒數(shù)據(jù)178分類和聚類

      鏈接:http:///EKan9Az

      4.20 Newsgroups新聞數(shù)據(jù)集19997文本分類和聚類

      鏈接:http://qwone/20Newsgroups/

      5.MovieLens電影評分的數(shù)據(jù)集26000000推薦系統(tǒng)

      接:https://datasets/movielens/

      6.MNIST手寫字識別數(shù)據(jù)集70000手寫字識別

      鏈接http://exdb/mnist/

      02 圖像處理

      1.Labelled Faces in the Wild:13000 張貼有標(biāo)簽的人臉圖像,用于開發(fā)涉及人臉識別的應(yīng)用。

      鏈接:http://vis-www.cs./lfw/

      2.Stanford Dogs Dataset:包含 20580 個圖像和 120 個不同品種的狗類別。

      鏈接:http:///zTNMWy3

      3.Labelme:注釋圖像的大數(shù)據(jù)集。

      鏈接:http:///EKq2lMr

      4.ImageNet:根據(jù) WordNet 層次結(jié)構(gòu)來組織,其中層次結(jié)構(gòu)的每個節(jié)點都由成百上千個圖像來描述。

      鏈接:http:///

      5.LSUN:場景理解和許多輔助任務(wù)(房間布局估計、顯著性預(yù)測等)。

      鏈接:http://lsun.cs./2016/

      6.MS COCO:ImageNet 之外另一個常用的圖像數(shù)據(jù)集,包含通用圖像理解和注釋。

      鏈接:http:///

      7.COIL100:100 個不同的物體在 360°旋轉(zhuǎn)中以每個角度成像。

      鏈接:http:///EKqLjzo

      8.Visual Genome:非常詳細的視覺知識庫,配有約 100K 個圖像的注釋。

      鏈接:http:///

      9.Google's Open Images:Creative Commons 下的 900 萬個圖片的網(wǎng)址集合。

      鏈接:http:///EKqyzQF

      10.Indoor Scene Recognition:包含 67 個室內(nèi)類別,總共 15620 個圖像。

      鏈接:http://web./torralba/www/indoor.html

      03 情感分析

      1.Multidomain Sentiment analysis dataset:有點舊的一個數(shù)據(jù)集,以亞馬遜的產(chǎn)品評論為特色。

      鏈接:http:///R6yTsJV 

      2.IMDB reviews:用于二進制情感分類的較舊的、相對較小的數(shù)據(jù)集,具有 25000 個電影評論。

      鏈接:http:///EKq5nB1 

      3.Stanford Sentiment Treebank:帶有情感注釋的標(biāo)準(zhǔn)情感數(shù)據(jù)集。

      鏈接:http:///EKq5sUY

      4.Sentiment140:一個流行的數(shù)據(jù)集,使用 16 萬條預(yù)先刪除表情符號的推文

      鏈接:http:///EKqtUAC

      5.Twitter US Airline Sentiment:2015 年 2 月以來美國航空公司的推特數(shù)據(jù),分為正面、負(fù)面和中性。

      鏈接:http:///EKqtiAY 

      04 自然語言處理

      1.Jeopardy:機智問答節(jié)目 Jeopardy 中存檔的 20 多萬個問題。

      鏈接:http:///EKqGyIB 

      2.SMS Spam Collection in English:由 5574 條英文短信垃圾郵件組成的數(shù)據(jù)集。鏈接:http:///EKqbg3h 

      3.Yelp Reviews:Yelp 發(fā)布的開放數(shù)據(jù)集包含 500 多萬條評論。

      鏈接:https://www./dataset

      4.UCI's Spambase:大型垃圾郵件數(shù)據(jù)集,可用于垃圾郵件過濾。

      鏈接http:///EKqbT7z

      5.Enron Dataset:Enron 公司高層管理人員的電子郵件數(shù)據(jù),整理成文件夾。

      鏈接:https://www.cs./~./enron/

      6.Amazon Reviews:包含來自亞馬遜長達 18 年的約 3500 萬條評論。數(shù)據(jù)包括產(chǎn)品和用戶信息、評級和明文審查。

      鏈接:http:///RhpYJUu

      7.Google Books Ngrams:Google 書籍中的詞匯集合。

      鏈接:http:///EKqq3Jh

      8.Blogger Corpus:從 blogger . com 收集的 681288 篇博客文章。每個博客至少包含 200 個常用英語單詞。

      鏈接:http:///EKqqAHL

      9.Wikipedia Links data:維基百科全文。數(shù)據(jù)集包含 400 多萬篇文章中的近 19 億字。你可以根據(jù)單詞、短語或段落本身的一部分進行搜索。

      鏈接:http:///EKqGrJr 

      10.Gutenberg eBooks List:古騰堡計劃電子書注釋清單。

      鏈接:http:///EKqGOfk 

      11.Hansards text chunks of Canadian Parliament:加拿大第 36 屆國會記錄 130 萬對文本。

      鏈接:http:///EKqGJai 

      05 音頻數(shù)據(jù)集

      1.TIMIT,英文語音識別數(shù)據(jù)集,包含630個揚聲器的寬帶錄音,八個主要方言的美式英語,每個閱讀十個語音豐富的句子。

      接:https://catalog.ldc.

      2.CHIME,包含環(huán)境噪音的用于語音識別挑戰(zhàn)賽的數(shù)據(jù)集。

      鏈接http://chime_challenge

      3.大型音樂分析數(shù)據(jù)集FMA

      鏈接https://github.com/mdeff/fma

      4.音頻數(shù)據(jù)集AudioSet

      鏈接https://audioset/ontology

      5.2000 HUB5 English Evaluation Transcripts,僅包含英語的語音數(shù)據(jù)集

      接:https://catalog.ldc.upenn

      6.LibriSpeech,包含文本和語音的有聲讀物數(shù)據(jù)集,由Vassil Panayotov編寫的大約1000小時的16kHz讀取英語演講的語料庫。

      接:http://www./12/

      7.VoxForge,帶口音的語音清潔數(shù)據(jù)集

      鏈接http://www./

      06 自動駕駛

      1.Cityscape Dataset:記錄 50 個不同城市街道場景的大型數(shù)據(jù)集。

      鏈接:https://www./

      2.CSSAD Dataset:該數(shù)據(jù)集可用于自主車輛的感知和導(dǎo)航。數(shù)據(jù)集在發(fā)達國家的道路上出現(xiàn)嚴(yán)重偏差。

      鏈接:http:///R97oqgG 

      3.KUL Belgium Traffic Sign Dataset:比利時佛蘭德區(qū)數(shù)以千計截然不同的超過 10000 個的交通標(biāo)志標(biāo)注。

      接:http:///EKq40MF 

      4.Berkeley DeepDrive BDD100k:目前最大的自動駕駛?cè)斯ぶ悄軘?shù)據(jù)集。

      鏈接:http://bdd-data./

      5.Baidu Apolloscapes:百度 Apollo 計劃開放的大規(guī)模自動駕駛數(shù)據(jù)集。它定義了 26 個不同語義項目,如汽車、自行車、行人、建筑物、路燈等。

      鏈接:http://to/

      6.Comma.ai:7 小時以上的公路行駛體驗。詳細信息包括車速、加速度、轉(zhuǎn)向角和 GPS 坐標(biāo)。

      鏈接:https:///details/comma-dataset

      7.Oxford's Robotic Car:一年內(nèi)在英國牛津同一條路線重復(fù) 100 多次的行駛。數(shù)據(jù)集捕捉天氣、交通和行人的不同組合,以及建筑和道路工程等長期變化。

      鏈接http://robotcar-dataset.robots./

      8.MIT AGE Lab:在 AgeLab 收集的 1000 多個小時的多傳感器驅(qū)動數(shù)據(jù)集樣本。

      鏈接:http:///carsync/

      9.LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets:此數(shù)據(jù)集包括交通標(biāo)志、車輛檢測、交通燈和軌跡模式。

      鏈接:http://cvrr./LISA/datasets.html

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多