使用Anaconda集成IPython、Spark和TensorFlow、Orange,形成統(tǒng)一管理的分布式機(jī)器學(xué)習(xí)研究環(huán)境。可以將流程設(shè)計、算法評估、神經(jīng)網(wǎng)絡(luò)、分布式計算和包管理集成到一起等,以及可以將其與git/jenkins/sonarqube等集成到一起,實(shí)現(xiàn)完整的大規(guī)模數(shù)據(jù)處理與分析的DevOps。不過,目前這些項(xiàng)目還是各自為陣的狀態(tài),集成度和自動化程度都還不高。
為了方便管理,將其安裝在由conda管理的獨(dú)立虛擬環(huán)境中。
1、Anaconda,python集成環(huán)境
由https://www.開發(fā)。集成了很多優(yōu)秀的python項(xiàng)目,包括conda虛擬運(yùn)行環(huán)境管理和軟件包管理軟件,可以部分替代virtualenv和pip的作用。
從 https://www./downloads 下載并且安裝。
1 2 3 | #創(chuàng)建python虛擬環(huán)境。
conda create -n tensor python=3
source activate tensor
|
2、IPython,高級Python運(yùn)行環(huán)境
現(xiàn)已更名為Jupyter(http:///),支持通過notebook進(jìn)行算法模型的共享。
Spark,高性能并行計算環(huán)境
從 https://conda./anaconda-cluster 可以訪問到集成的Spark版本。
安裝:
1 | conda install -n tensor -c https://conda./anaconda-cluster spark
|
3、TensorFlow,機(jī)器學(xué)習(xí)引擎
TensorFlow是由Google開源的基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)引擎,從 https://www./ 訪問詳細(xì)信息。
安裝:
1 | conda install -n tensor -c https://conda./jjhelmus tensorflow
|
4、Orange,可視化機(jī)器學(xué)習(xí)環(huán)境
網(wǎng)站:http://orange./
原始項(xiàng)目為安裝在virtualenv里的指南,這里將安裝在conda環(huán)境下。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 | #安裝基礎(chǔ)支持庫
sudo apt-get update
sudo apt-get -y install git python-pip python-virtualenv
python3-dev python3-numpy python3-scipy python3-pyqt4 python-qt4-dev python3-sip-dev libqt4-dev
#首先安裝Anaconda
./Anaconda3-2.5.0-Linux-x86_64.sh
#退出控制臺窗口,重新進(jìn)入,以讓路徑設(shè)置生效。
#輸入conda list,可以查看anaconda安裝的包,檢查安裝是否成功。
#創(chuàng)建python虛擬環(huán)境。
conda create -n tensor python=3
#激活所創(chuàng)建的python虛擬環(huán)境,后續(xù)的軟件將安裝在該環(huán)境中。
source activte tensor
#復(fù)制orange源代碼。
git clone https://github.com/biolab/orange3
#安裝Orange的依賴庫代碼
cd orange3
pip install -r requirements-core.txt
pip install -r requirements-dev.txt
pip install -r requirements-doc.txt
pip install -r requirements-gui.txt
pip install -r requirements-sql.txt
python setup.py develop
cd ..
#安裝擴(kuò)展庫
git clone https://github.com/biolab/orange-bio
cd orange-bio
python setup.py develop
cd ..
#退出虛擬環(huán)境
source deactivate
|
運(yùn)行,將下面代碼保存到start.sh,然后啟動即可:
1 2 3 | #運(yùn)行
source activate tensor
python -m Orange.canvas
|
Orange安裝完畢,運(yùn)行與官方的安裝結(jié)果完全一樣,只是python擴(kuò)展包現(xiàn)在交由conda而不是virtualenv管理。
下一步就需要考慮如何將TensorFlow和Spark等結(jié)合起來,在分布式環(huán)境下使用。以及將Orange的widget代碼放到Spark環(huán)境下去分布式運(yùn)行。
|