對象:機(jī)器學(xué)習(xí)硬件發(fā)展 作者:融水公子 rsgz
時間:從1990 年到2010 年 速度:非定制CPU 的速度提高了約5000 倍 優(yōu)勢:因此,現(xiàn)在可以在筆記本電腦上運(yùn)行小型深度學(xué)習(xí)模型 要求:對于計(jì)算機(jī)視覺或語音識別所使用的典型深度學(xué)習(xí)模型,所需要的計(jì)算能力要比筆記本電腦的計(jì)算能力高幾個數(shù)量級 投資:在20 世紀(jì)前十年里,NVIDIA 和AMD 等公司投資數(shù)十億美元來開發(fā)快速的大規(guī)模并行芯片(圖形處理器,GPU),以便為越來越逼真的視頻游戲提供圖形顯示支持。 推動:這些芯片是廉價的、單一用途的超級計(jì)算機(jī),用于在屏幕上實(shí)時渲染復(fù)雜的3D 場景。這些投資為科學(xué)界帶來了好處 歷史: 2007 年,NVIDIA 推出了CUDA,作為其GPU 系列的編程接口。少量GPU 開始在各種高度并行化的應(yīng)用中替代大量CPU 集群,并且最早應(yīng)用于物理建模。深度神經(jīng)網(wǎng)絡(luò)主要由許多小矩陣乘法組成,它也是高度并行化的 2011 年前后,一些研究人員開始編寫神經(jīng)網(wǎng)絡(luò)的CUDA 實(shí)現(xiàn),而Dan Ciresana 和Alex Krizhevskyb 屬于第一批人。這樣,游戲市場資助了用于下一代人工智能應(yīng)用的超級計(jì)算。有時候,大事件都是從游戲開始的。今天,NVIDIA TITAN X(一款游戲GPU,在2015 年底售價1000 美元)可以實(shí)現(xiàn)單精度6.6 TFLOPS 的峰值,即每秒進(jìn)行6.6 萬億次float32 運(yùn)算。這比一臺現(xiàn)代筆記本電腦的速度要快約350 倍。使用一塊TITAN X 顯卡,只需幾天就可以訓(xùn)練出幾年前贏得ILSVRC 競賽的ImageNet 模型。與此同時,大公司還在包含數(shù)百個GPU 的集群上訓(xùn)練深度學(xué)習(xí)模型,這種類型的GPU 是專門針對深度學(xué)習(xí)的需求開發(fā)的,比如NVIDIA Tesla K80。如果沒有現(xiàn)代GPU, 這種集群的超級計(jì)算能力是不可能實(shí)現(xiàn)的 此外,深度學(xué)習(xí)行業(yè)已經(jīng)開始超越GPU,開始投資于日益專業(yè)化的高效芯片來進(jìn)行深度學(xué)習(xí)。 2016 年,Google 在其年度I/O 大會上展示了張量處理器(TPU)項(xiàng)目,它是一種新的芯片設(shè)計(jì),其開發(fā)目的完全是為了運(yùn)行深度神經(jīng)網(wǎng)絡(luò)。據(jù)報(bào)道,它的速度比最好的GPU 還要快10 倍, 而且能效更高
|