乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      BED文件以及如何正確的從UCSC下載BED文件

       健明 2021-07-14

      在畫chip-seq里最基礎(chǔ)的兩張圖的時候,出現(xiàn)了報錯,報錯信息各種看不懂呀,去網(wǎng)上各種搜也沒有解決。后來請教健明老師,困擾我兩天的難題他一眼就看出來是我bed文件出現(xiàn)了問題,就是說我從UCSC下載的bed文件是不對的。我就拿這個我以為的bed文件去查看TSS附近信號強(qiáng)度,最后結(jié)果當(dāng)然是各種報錯。犯這么蠢的錯,歸其原因是我不了解bed文件格式。

      在做chipseq中下面這兩張圖的時候,用到deeptools軟件里的computeMatrix命令,需要給一個參考的注釋文件(就是我們這里介紹的bed文件),從而讓軟件查看樣本在TSS(轉(zhuǎn)錄起始位點(diǎn))附近是否有富集。

      chipseq中最基礎(chǔ)的兩張圖

      看下到底哪一步用到了bed文件

      哪里用到bed文件解釋
      BED文件介紹

      BED (Browser Extensible Data)格式文件就是通過規(guī)定行的內(nèi)容來展示注釋信息。
      注釋文件就是基因組的說明書。告訴我們哪些序列是編碼蛋白的基因,哪些是非編碼基因,外顯子、內(nèi)含子、UTR等的位置等等。注釋文件在以下三個提供參考基因組的網(wǎng)站中都有提供,比如Ensemble、NCBI 、UCSC。之后我們介紹如何從UCSC上下載bed文件。

      先簡單了解下UCSC:
      UCSC是生物領(lǐng)域里常用的數(shù)據(jù)庫之一,由University of California Santa Cruz (UCSC)創(chuàng)立和維護(hù),主要包含了人類、小鼠、果蠅等多種常見動物的基因組信息。UCSC里也包括了一系列的分析工具,幫助用戶瀏覽基因信息、查看已有基因組注釋信息和下載基因序列等。

      基因組注釋(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser進(jìn)行可視化比較。

      Bed文件最基本的信息就是染色體或Contig的ID或編號,然后就是DNA的正負(fù)鏈信息,接著就是在染色體上的起始和終止位置數(shù)值。BED文件中起始坐標(biāo)為0,結(jié)束坐標(biāo)至少是1。

      BED文件每行至少包括chrom,chromStart,chromEnd三列必選;另外還可以添加額外的9列可選,這些列的順序是固定的。

      必選的三列:

      1. chrom - 染色體的名稱(例如chr3,chrY,chr2_random)或支架(例如scaffold10671)。

      2. chromStart- 染色體或支架中特征的起始位置。染色體中的第一個堿基編號為0。

      3. chromEnd- 染色體或支架中特征的結(jié)束位置。所述 chromEnd堿沒有包括在特征的顯示。例如,染色體的前100個堿基定義為chromStart = 0,chromEnd = 100,并跨越編號為0-99的堿基。

      特別注意:bed文件坐標(biāo)為一半開半閉區(qū)間[start, end),所以如果是[10,20),實(shí)際上只提取了10,11,…19 這十個位點(diǎn),對應(yīng)ucsc上的即為染色體坐標(biāo)的10-19位堿基。ucsc上染色體坐標(biāo)也是從0開始。

      例如有一fasta格式的文件
      chr1
      TCGAGA

      對應(yīng)bed文件的坐標(biāo)應(yīng)為
      chrome start end
      chr1            0     5

      用bedtools提取 CGAG 中間四個堿基,所需的bed輸入文件應(yīng)為[1,5)
      chrome start end
      chr1           1      5

      9個可選的BED字段:

      1. name:定義BED行的名稱。當(dāng)軌道打開到完全顯示模式時,此標(biāo)簽顯示在Genome瀏覽器窗口中BED行的左側(cè),或者在打包模式下直接顯示在項目的左側(cè)。

      2. score:得分在0到1000之間。如果此注釋數(shù)據(jù)集的軌跡線useScore屬性設(shè)置為1,則得分值將確定顯示此要素的灰度級別(較高的數(shù)字=較深的灰色)。此表顯示 Genome Browser將BED分?jǐn)?shù)值轉(zhuǎn)換為灰色陰影:

      img

      3. strand:定義strand。只有三種情況 “.” 、“+”或“ - ”。

      4. thickStart:繪制特征的起始位置(例如,基因顯示中的起始密碼子)。當(dāng)沒有厚部分時,thickStart和thickEnd通常設(shè)置為chromStart位置。

      5. thickEnd:繪制特征的結(jié)束位置(例如基因顯示中的終止密碼子)。

      6. itemRgb:R,G,B形式的RGB值(例如255,0,0)。如果軌道行 itemRgb屬性設(shè)置為“On”,則此RBG值將確定此BED行中包含的數(shù)據(jù)的顯示顏色。注意:建議使用此屬性的簡單顏色方案(八種顏色或更少顏色),以避免壓倒Genome瀏覽器和Internet瀏覽器的顏色資源。

      7. blockCount:BED行中的塊(外顯子)數(shù)。

      8. blockSizes:塊大小的逗號分隔列表。此列表中的項目數(shù)應(yīng)與blockCount相對應(yīng)。

      9. blockStarts:以逗號分隔的塊開始列表。應(yīng)該相對于chromStart計算所有 blockStart位置。此列表中的項目數(shù)應(yīng)與blockCount相對應(yīng)。

      官方介紹bed文件地址:http://genome./FAQ/FAQformat.html#format1

      官網(wǎng)介紹
      如何從UCSC正確的下載BED文件

      參考jimmy老師的博客:http://www./2494.html

      1. 首先進(jìn)入UCSC的Table Browser:https://genome./cgi-bin/hgTables

      2. 按照下圖例子進(jìn)行參數(shù)設(shè)置

      在Table Browser里,我們選定人的基因組,采用最新的GRCh38版本,然后再選擇Gene and Gene Predictions里的NCBI RefSeq作為想要導(dǎo)出的本地數(shù)據(jù)庫。

      注意: 將output format改選為“BED-browser extensible data”, output file一定要填寫,如果空著的話即使選擇了output format為BED格式也是輸出網(wǎng)頁形式; file type returned選擇gzip compressed的話,下載會相對快一些。

      UCSC Table Browser提取hg38的BED文件舉例

      hg19的BED文件舉例

      看看我是怎么出錯的

      錯誤實(shí)例

      點(diǎn)擊Get output之后會給我們一個選擇輸出形式的對話框,在Create one BED record per下面有一些選項,比如這里默認(rèn)是Whole Gene,當(dāng)然我們也可以選擇啟動子區(qū)域、外顯子加周邊區(qū)域、5' UTR區(qū)域、3' UTR區(qū)域等生成我們想要的BED文件。

      到這里我們需要的bed文件就下載好了。

      UCSC除了可以提供種類繁多的單一數(shù)據(jù)庫下載外,還可以下載交叉數(shù)據(jù)庫。

      比如我們要在此次人類參考基因組下載的基礎(chǔ)上,下載一個人類參考基因組和lincRNA數(shù)據(jù)庫交叉的數(shù)據(jù)庫,如圖,點(diǎn)擊intersection的create進(jìn)入。

      我們同樣需要在Gene and Gene Predictions里找到lincRNA RNA-Seq數(shù)據(jù)庫,最后點(diǎn)擊submit。

      后續(xù)的事情和下載單一數(shù)據(jù)庫一樣,到這里我們就成功下載兩種數(shù)據(jù)庫的交叉數(shù)據(jù)庫了。

        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多