Categorized | 生物信息學(xué)
Tags | GenBank, NCBI, 下載序列, 生物信息軟件如何在NCBI批量下載GenBank序列
GenBank的序列很多,有時我們需要批量下載。這里介紹幾種辦法,如何從NCBI批量下載GenBank序列。有不對的地方,歡迎指正。
批量下載前須知
批量下載前,我們必須先清楚,下載大量的數(shù)據(jù),對服務(wù)器是一種非常大的挑戰(zhàn)。對網(wǎng)絡(luò)也是一種大的挑戰(zhàn)。NCBI的數(shù)據(jù)都是免費提供下載的,所以你要清楚,盡量不要使用多線程的工具下載,因為你的IP有可能給封;不要太頻繁的大批量下載,中間要有間隔(即使是幾秒);
1,用NCBI提供的FTP下載
NCBI的FTP地址是:ftp.ncbi.。打開后里面有個genbank的目錄,里面存放的是所有GenBank的序列和Accession的索引。對里面的格式不明白?沒關(guān)系,先看看說明文檔:ftp.ncbi./genbank/README.genbank
如果要下載現(xiàn)在的Blast庫,打開blast目錄。
如果要下載基因組序列,進(jìn)入genomes目錄。
全部的目錄:
ncftp / > ls
1000genomes/
dbgap/
genomes/
pubchem/
repository/
sra0/
asn1-converters@
entrez/
hapmap/
pubmed/
sequin/
sra1/
blast/
fa2htgs/
mmdb/
ramdisk/
sky-cgh/
tech-reports/
cgap/
genbank/
ncbi-asn1/
README.ftp
snp/
toolbox/
cn3d/
gene/ |