Python,R作為量化領(lǐng)域領(lǐng)域兩門主流的語言,各有千秋,R語法比較“迂回”,加上先開始學習python,當然會成為首選的工具語言,python在數(shù)據(jù)分析方面有很多成熟的庫,所以如果在linux環(huán)境下布置自己的分析環(huán)境一定會有很多便利,很多券商例如華寶證券,萬得,IB都有開放的 python api接口,如果需要開發(fā)自己的交易平臺時這也會帶來很大便利。 前面提到在linux系統(tǒng)下做部署有一些天然優(yōu)勢,但是所依賴的一系列工具都是一樣的,本來一直在使用ubuntu,在部署環(huán)境開始時很順利,但是最后在安裝一個獲取國內(nèi)數(shù)據(jù)的包時受挫,可能一直以來都把Ubuntu做為跟window一樣的平臺去使用,很多在ubuntu環(huán)境下的設(shè)置操作都不太熟練,兩天找不到解決方案,就轉(zhuǎn)戰(zhàn)到windows環(huán)境下,因為之前配置過ipython notebook,所以安裝很順利,下面主要介紹下windows下的設(shè)置步驟。 1當然所有的軟件都依賴最基層的python,pip可以使我們在平臺上安裝一些依賴的包像在Linux系統(tǒng)下一樣方便,pip的安裝可以參考這篇文章http:///1dlBFo。 2接下來需要安裝的軟件:numpy,pandas,tushare,matplotlib,scipy,lxml,xlwt. 其中numpy/scipy可以快速高效的進行數(shù)組和矩陣運算,python本事也自帶有數(shù)組運算的list容器,但是numpy可以省略代碼中很多的循環(huán)語句,這樣大大提高了效率,特別是在處理較大規(guī)模的數(shù)據(jù)時,具體效率高出多少,可以參考numpy指南一書中的例子。 pandas由AQR Capital Management開發(fā),主要用于處理數(shù)據(jù)“沖突”和時間序列分析,Pandas的名稱來自于面板數(shù)據(jù)(panel data)和python數(shù)據(jù)分析(data analysis),同時它也是tushare庫的基礎(chǔ),在使用tushare之前必須先安裝pandas,兩者操作的語法幾乎一樣,tushare一個財經(jīng)數(shù)據(jù)接口包,由國內(nèi)開發(fā)者在Pypi發(fā)布,使用爬蟲系統(tǒng)從新浪財經(jīng),雅虎財經(jīng),以及上交所,深交所提供的數(shù)據(jù),十分強大,誰用誰知道。。官網(wǎng):http://tushare.,作者微博:http://weibo.com/u/1304687120,你可以在官網(wǎng)看到你可以用tushare獲得的數(shù)據(jù)以及步驟。 安裝tushare之前先安裝lxml,不然在讀取安裝地址時會出現(xiàn)錯誤。 matplotlib用以數(shù)據(jù)的可視化,比如繪制圖表等等,xlwt是一個可以把用python抓取的數(shù)據(jù)存入excel的工具,也可以存入csv文件,當然所以來的庫包含在pandas中,所以不用額外安裝,當然如果想從excel中讀取數(shù)據(jù)可以安裝xlrd庫存。截一張安裝命令及成功截圖
介紹完了幾個主要庫的功能,他們的安裝全都依靠一個命令:pip install xx,xx為你要安裝的庫,安裝順序以及必備的庫上面已經(jīng)介紹過,當然這只是對初學者,對于一些數(shù)據(jù)分析高手,比如經(jīng)常參加業(yè)內(nèi)比較出名的比賽kaggle,或者國內(nèi)由阿里巴巴組織的天池大數(shù)據(jù)比賽,你還需要更強大的工具,比如scikit-learn,可以用于機器學習和人工智能算法,pyspark結(jié)合了大數(shù)據(jù)分析領(lǐng)域火熱的spark,在處理海量數(shù)據(jù)時可以使用。好了,這篇文章主要講述分析所以來的軟件和庫,下一篇會講利用這些庫進行一些入門工作。 當前頁面網(wǎng)址http://www./gongju/1734,轉(zhuǎn)載請保留 |
|