乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      文獻(xiàn)分享-目前關(guān)于ATAC-seq分析的現(xiàn)狀

       昵稱44608199 2022-05-24 發(fā)布于浙江

      內(nèi)容目錄

      前言背景知識關(guān)于ATAC-seq發(fā)展現(xiàn)狀關(guān)于染色質(zhì)可及性測序的方法小結(jié)MNase-seqDNase-seqFAIRE-seqATAC-seq小結(jié)關(guān)于Tn5轉(zhuǎn)座酶原理ChIP-seq中陰性對照的設(shè)置pioneer factor關(guān)于ATAC-seq數(shù)據(jù)分析shift-extend方法預(yù)測peaks的原理第一部分——pre-analysis比對前質(zhì)控比對比對后質(zhì)控小結(jié)第二部分——peak calling小結(jié)第三部分——高級分析PeaksPeak differential analysisPeak annotationMotifsMotif database and scanMotif enrichment and activity analysisFootprintsDe novo toolsMotif-centric tools對于footprint分析的評價Nucleosome positioning第四部分——多組學(xué)數(shù)據(jù)聯(lián)合分析建立調(diào)控網(wǎng)絡(luò)結(jié)構(gòu)與ChIP-seq聯(lián)合分析與RNA-seq聯(lián)合分析建立調(diào)控網(wǎng)絡(luò)未來展望和總結(jié)生信教程補(bǔ)充后記

      前言

      今天分享一篇文獻(xiàn),主要介紹ATAC-seq中的一些主要問題。

      文獻(xiàn)標(biāo)題:From reads to insight: a hitchhikers guide to atAC-seq data analysis

      文獻(xiàn)地址:https://genomebiology./articles/10.1186/s13059-020-1929-3

      下載地址:https://genomebiology./track/pdf/10.1186/s13059-020-1929-3

      圖片

      在閱讀這篇文章的過程中,前面因為我自己跑過流程,所以看起來還是比較輕松,但是到了后面的高級分析部分,就有些難度了,很多之前模模糊糊的地方都要再去查找文獻(xiàn)去找到答案,這里放一個我覺得收獲許多背景知識的中文博士論文

      ATAC-seq數(shù)據(jù)分析軟件開發(fā)及其在肥胖誘導(dǎo)的慢性炎癥研究中的應(yīng)用,作者:左祖奇

      因為在知網(wǎng)可以下載,但是沒有賬號你們可能還是沒法下載,所以我把它也放到了百度網(wǎng)盤里,有需要的在公眾號回復(fù)ATAC” 拿到我下好的pdf文件吧。

      圖片

      背景知識

      關(guān)于ATAC-seq發(fā)展現(xiàn)狀

      DNA序列包裝成核小體→染色質(zhì)→染色體

      因為人體基因組是高度壓縮狀態(tài),而轉(zhuǎn)錄和翻譯都是需要在松散結(jié)構(gòu)下的染色質(zhì)情況下才可以進(jìn)行,所以認(rèn)為染色質(zhì)的開放程度和基因轉(zhuǎn)錄密切相關(guān)。

      關(guān)于ATAC-seq的原理,我之前寫過推文介紹:

      CHIP-seq 2013年Greenleaf的第一篇文章

      不過又來又學(xué)到了更多知識,只不過一直沒有補(bǔ)充進(jìn)入,今天發(fā)現(xiàn)了一個寫的還不錯的推文,在這里推薦給大家去學(xué)習(xí)相關(guān)的基礎(chǔ)知識:

      ChIP-seq和ATAC-seq基礎(chǔ)知識(視頻)

      近些年來ATAC-seq技術(shù)的發(fā)展非常的迅速,從2013年greenleaf發(fā)表的第一篇關(guān)于ATAC-seq的文章后,這項技術(shù)迅速得到大家的喜愛:

      圖片

      包括在去年,greenleaf與10xGenomics公司和做,開發(fā)了10XscATAC-seq的測序方法,各種新技術(shù)層出不窮。

      但是針對ATAC-seq的數(shù)據(jù)分析工具不多,因為ChIP-seq數(shù)據(jù)和ATAC-seq數(shù)據(jù)的相似性,目前主要使用的都是以前開發(fā)用于ChIP-seq的工具,默認(rèn)為這兩種數(shù)據(jù)分布結(jié)構(gòu)是相似的,但是并沒有人真正系統(tǒng)地去評估這兩種數(shù)據(jù)分布。

      今天分享的這篇綜述主要是介紹在ATAC-seq分析過程中的一些思路和套路流程。主要包括4個方面:

      • pre-analysis:質(zhì)控和比對

      • peak calling

      • 高級分析:例如peak的注釋,找motif,找核小體,找TF的印記(footprints)等方面

      • 多組學(xué)數(shù)據(jù)聯(lián)合分析

      關(guān)于染色質(zhì)可及性測序的方法小結(jié)

      目前用于研究染色質(zhì)可及性的方法主要有以下四種:MNase-seq、DNase-seq、FAIRE-seq和ATAC-seq:MNase-seq是通過對核小體保護(hù)的DNA片段測序,從而間接反映染色質(zhì)可及性的方法,其他三種均為對檢測染色質(zhì)上的開放區(qū)域測序,直接反映染色質(zhì)的可及性。

      圖片

      MNase-seq

      微球菌核酸酶( Micrococcal nuclease, MNase)是來源于金黃色葡萄球菌分泌的一種核酸酶,同時具備核酸內(nèi)切酶外切酶的活性。MNase優(yōu)先對裸露的DNA或核小體之間起連接作用的DNA進(jìn)行切割和消化。所以這種方法一般用于檢測開放區(qū)域。

      標(biāo)準(zhǔn)的 MNase-seq的流程主要用于對核小體片段(~150bp)或更長的片段進(jìn)行測序。

      DNase-seq
      1. 脫氧核糖核酸酶I( DNase I)是由人的基因 DNASEI編碼的核酸內(nèi)切酶,可以非特異性的對雙鏈DNA進(jìn)行切割。但是沒有外切酶活性

      2. 在基因組學(xué)和染色質(zhì)的研究中DNase I敏感的位點被認(rèn)為是開放的,可接近的染色質(zhì)的特征。低濃度的 DNase i對基因組上非核小體占據(jù)的的開放區(qū)域進(jìn)行切割,這些區(qū)域被稱為DNase I敏感位點( DNase I hypersensitive sites,DHSs)。

      3. DNase-seq目前已成為檢測染色質(zhì)可及性的“金標(biāo)準(zhǔn)”

      4. DHSs中序列特異性的轉(zhuǎn)錄因子的結(jié)合也會阻止 DNase I對DNA的切割,從而可以在單個堿基水平觀察到轉(zhuǎn)錄因子的占據(jù)情況,即轉(zhuǎn)錄因子的印跡分析(footprint)。轉(zhuǎn)錄因子的印跡分析已被用于發(fā)掘人類細(xì)胞中細(xì)胞特異性的轉(zhuǎn)錄因子結(jié)合的“基序”(motif),并揭示了轉(zhuǎn)錄因子結(jié)合與染色質(zhì)結(jié)構(gòu)、基因表達(dá)和細(xì)胞分化的相關(guān)性。

      FAIRE-seq
      1. 甲醛輔助的調(diào)控元件的分離( Formaldehyde-Assisted Isolation of Regulatory Elements,F(xiàn)ARE)是一種直接檢測無核小體占據(jù)的DNA序列的方法。其原理是,纏繞有DNA的核小體和無核小體結(jié)合的DNA,在苯酚和氯仿中的溶解度不同,因而在苯酚和氯仿形成的兩相液體中呈現(xiàn)差異分布:纏繞有DNA的核小體分布于兩相界面處,而無核小體結(jié)合的DNA分布于親水相中。

      2. 具體的實驗流程包括:

      • 使用甲醛對染色質(zhì)進(jìn)行交聯(lián)以便鞏固蛋白質(zhì)-DNA的結(jié)合。

      • 通過超聲處理,打斷染色質(zhì),形成DNA片段或者DNA-核小體復(fù)合物。

      • 通過苯酚-氯仿抽提純化無核小體結(jié)合的DNA片段。

      • 建庫測序

      1. FAIRE直接富集了活化染色質(zhì)的區(qū)域,同時無核小體占據(jù)的區(qū)域并沒有被酶解。

      ATAC-seq
      1. 該方法已被用于真核生物細(xì)胞全基因組范圍內(nèi)的:

      • 開放染色體區(qū)域檢測

      • 核小體位置確定

      • 轉(zhuǎn)錄因子的印跡描繪

      1. ATAC-seq建庫過程簡單快捷,只需要兩步操作,同時僅需要較少的細(xì)胞數(shù)目,而且可以在很高的分辨率下揭示染色質(zhì)的結(jié)構(gòu)。

      2. ATAC-seq僅僅使用500到50000個細(xì)胞就可以實現(xiàn)與 DNase-seq使用百萬數(shù)量級的細(xì)胞才能達(dá)到的靈敏度和特異性。

      3. ATAC-seq目前亟待解決的問題是對測序數(shù)據(jù)分析,原有的分析方法不適用于ATAC-seq的數(shù)據(jù)分析或僅可以有限度的使用。

      小結(jié)

      圖片

      圖片

      關(guān)于Tn5轉(zhuǎn)座酶原理

      http://www./sub/showarticle.asp?newsid=72268

      Tn5轉(zhuǎn)座子是一種細(xì)菌轉(zhuǎn)座子,最早由E. coli中發(fā)現(xiàn),是一段含有若干抗性基因和編碼轉(zhuǎn)座酶基因的DNA片段。

      其中IS50R和IS50L的序列高度同源,只是IS50L的一個堿基存在突變。

      IS50具有19bp的倒置末端(外末端outside end,OE和內(nèi)末端inside end,IE),兩末端倒置有7個堿基不同。此倒置末端是轉(zhuǎn)座酶(Tnp)的作用位點。

      IS50L和IS50R均含有編碼轉(zhuǎn)座酶(TnP)以及轉(zhuǎn)座阻遏蛋白(lnh)的基因,但由于IS50L中的堿基突變,造成翻譯提前終止,所以僅有IS50R可以產(chǎn)生正常的有活性的TnP和lnh。

      圖片

      兩個轉(zhuǎn)座酶(Tnp)分子結(jié)合到Tn5轉(zhuǎn)座子的OE末端,形成兩個Tnp-OE復(fù)合體,隨后兩個復(fù)合體通過Tnp的C末端相互作用進(jìn)行聯(lián)會,形成一個Tn5轉(zhuǎn)座復(fù)合體,此時Tnp產(chǎn)生切割DNA的活性。

      隨后Tnp利用切割活性,經(jīng)過一系列化學(xué)反應(yīng)切除供體DNA,離開供體鏈。

      結(jié)合到靶DNA上時,Tn5轉(zhuǎn)座復(fù)合體識別并攻擊靶序列(Target site),將轉(zhuǎn)座子插入到靶序列中,粘性末端通過DNA聚合酶、連接酶作用進(jìn)行填補(bǔ),兩端形成9bp正向重復(fù)序列。整個轉(zhuǎn)座過程完成了基因從原始DNA被剪切之后粘貼在另一受體DNA的過程,實現(xiàn)了基因的“跳躍”。

      (解釋1)

      圖片

      (解釋2)

      圖片

      根據(jù)之前的報道,Tn5轉(zhuǎn)座酶以同源二聚體的形式結(jié)合到DNA上,在兩個Tn5分子間隔著9-bp的DNA序列。根據(jù)這個情況,每個Tn5同源二聚體的結(jié)合事件會產(chǎn)生2個「Insertions」,中間隔著9bp。因此,真實的"開放"位置的中心在Tn5二聚體的正中間,而不是Tn5的插入位置。為了盡可能的還原真實情況,我們對Tn5的「Insertions」進(jìn)行了校正,即正鏈的插入結(jié)果往右移動4bp(+4 bp), 負(fù)鏈的插入結(jié)果往左偏移5bp(-5 bp)。

      ChIP-seq中陰性對照的設(shè)置

      推薦看一篇推文:

      ChIP-seq的實驗對照與偏差來源

      簡單歸納后要點如下:

      1. 為什么需要設(shè)置陰性對照:

      • 因為超聲破碎過程中DNA的斷裂不均一,尤其是一些開放染色質(zhì)區(qū)域在超聲樣本中優(yōu)先累積,未經(jīng)過IP的樣本超聲破碎后會產(chǎn)生數(shù)量不小的peaks。

      • 可以有去除背景噪音的作用(排除因本身表達(dá)水平高或一些非特異性結(jié)合所造成的假陽性peaks)。

      • 還可以根據(jù)Input中的靶序列的含量以及染色質(zhì)沉淀中的靶序列的含量,按照取樣比例換算出ChIP的效率(如果用同一引物進(jìn)行PCR,ChIP組和input組亮度差不多,說明ChIP效率高,樣本中所有的目的基因片段都被ChIP下來了)。

      1. 如何設(shè)置對照:

      • input對照:少了加抗體的步驟,在交聯(lián)和超聲裂解后,并沒有加入抗體,跳過了免疫沉淀過程,直接將這些DNA進(jìn)行測序。

      • Mock-ip對照:使用與目標(biāo)蛋白無關(guān)的非目標(biāo)抗體IgG或者標(biāo)簽)進(jìn)行“模擬”的IP,為了防止抗體的非特異性結(jié)合。

      pioneer factor

      pioneer factor,先驅(qū)轉(zhuǎn)錄因子,是一種特殊的TF,可以結(jié)合在核小體DNA上,直接介導(dǎo)染色質(zhì)可及性的改變。

      關(guān)于ATAC-seq數(shù)據(jù)分析

      有幾點是我之前沒有太注意到的,這里標(biāo)注下。

      1. ATAC-seq數(shù)據(jù)中包括了開放染色體區(qū)域檢測(call peaks),核小體位置的檢測以及轉(zhuǎn)錄因子的印跡(footprints)的分析。

      2. 由于真核細(xì)胞的轉(zhuǎn)錄起始位點被報道處于開放狀態(tài),因而可將TSS信號的強(qiáng)度作為檢測 DNase-seq和ATAC-seq信噪比的標(biāo)準(zhǔn),同時,在全基因組范圍內(nèi),DNase-seq和ATAC-seq的所獲得的片段長度分布,應(yīng)可以見明顯的核小體占據(jù)“峰”。

      3. 由于其建庫過程中,可能引入線粒體DNA,因此需要檢測其中線粒體DNA的比例。

      4. 染色質(zhì)可及性分析的首要目的是尋找到基因組上的開放區(qū)域。所謂信號峰搜尋(call peaks),就是在全基因組范圍內(nèi)找出測序讀長累積形成的脈沖峰的位置及信號強(qiáng)度。這些峰的位置代表了基因組上的開放區(qū)域,峰的髙度或面積代表了該區(qū)域的開放程度。同時,由于這些區(qū)域與基因的表達(dá)調(diào)控密切相關(guān),他們與各自附近的基因在基因組上的位置關(guān)系和功能注釋也值得關(guān)注。

      5. 信號峰的搜尋一般會產(chǎn)生存儲有信號峰位置信息的BED格式的文件。對信峰上信號強(qiáng)度統(tǒng)計,可以獲得每個開放區(qū)域的可及性。在具體的生物學(xué)比較分析中,研究者可通過比較不同組別之間信號峰的強(qiáng)度差異,或?qū)Σ町愋盘栠M(jìn)行聚類分析,篩選出感興趣的開放區(qū)域。

      6. 染色質(zhì)上的開放位點意味著沒有核小體的占據(jù),這些區(qū)域里往往包含大量的轉(zhuǎn)錄因子結(jié)合位點。轉(zhuǎn)錄因子與DNA的結(jié)合,也對結(jié)合區(qū)域提供了保護(hù),避免了被 DNase或Tn5酶的剪切。轉(zhuǎn)錄因子在DNA上的結(jié)合區(qū)域很短,一般為8-30bp長,相比于結(jié)合區(qū)域周圍,轉(zhuǎn)錄因子結(jié)合區(qū)域酶切的信號強(qiáng)度往往更弱,統(tǒng)計結(jié)合區(qū)域及附近區(qū)域遂個堿基上的酶切信號強(qiáng)度可以看到結(jié)合區(qū)域呈現(xiàn)明顯的凹陷,該凹陷指示該轉(zhuǎn)錄因子在該區(qū)域的確發(fā)生了結(jié)合。染色質(zhì)可及性分析的目的之一就是找到在開放區(qū)域上富集有哪些轉(zhuǎn)錄因子的結(jié)合位點,以及描述這些位點上轉(zhuǎn)錄因子的結(jié)合情況。

      7. 根據(jù)算法的不同,轉(zhuǎn)錄因子富集分析的方法主要有兩大類

      • 一類是根據(jù)已知的轉(zhuǎn)錄因子在基因組上結(jié)合位點的偏好位點信息,在提供的DNA序列上進(jìn)行比對,進(jìn)而獲得轉(zhuǎn)錄因子的富集情況,這類分析只能找到已知的轉(zhuǎn)錄因子

      • 一類是對提供的DNA序列進(jìn)行 de novo分析,這類分析有可能發(fā)現(xiàn)新的轉(zhuǎn)錄因子結(jié)合區(qū)域

      1. 已知轉(zhuǎn)錄因子的搜尋,依賴于已知的轉(zhuǎn)錄因子結(jié)合的位點信息,這些住息來源于前人對轉(zhuǎn)錄因子所做的ChP-seq分析,且往往以位置權(quán)重矩陣position weight matrices,pwMs)的形式存儲。專門存儲轉(zhuǎn)錄因子PwMS的數(shù)據(jù)庫主要有 MatBase, JASPAR, TRANSFAC和 UniPROBE。

      shift-extend方法預(yù)測peaks的原理

      文中提到了一個shift-extend方法來預(yù)測peaks,于是我找了很多資料,最后終于找到了一個不錯的解釋:

      ChIP-seq 分析------原理:https://www.jianshu.com/p/dc493cb7b1b3

      對于一個DNA序列來說(有正負(fù)鏈的),它mapping的位置正負(fù)鏈都有的,對這些reads位置進(jìn)行統(tǒng)計畫圖可以看到一個紅色的peak,一個藍(lán)色的peak。這兩個peak說明的是一個事情,就是這個地方有富集。最后對這兩個peak進(jìn)行merge,最后變成了一個富集區(qū)域。灰色的peak!

      圖片

      所謂的shift-extend,就是把PE測序片段進(jìn)行延伸,然后這樣就可以直接得到灰色的覆蓋區(qū)域最多,peaks也就最高了。

      通過看圖示,發(fā)現(xiàn)具體過程如下:

      先將片段向外移動s個單位,然后再向內(nèi)延伸2s個單位。

      第一部分——pre-analysis

      圖片

      比對前質(zhì)控

      這個是所有測序技術(shù)都需要進(jìn)行的QC流程,主要是看看接頭有沒有去除干凈,GC比例是否合格,測序質(zhì)量情況如何等等,可以使用linux平臺的工具如:FastQC

      測序文件在5'開始時和3'端結(jié)束前,測序質(zhì)量可能會有一個大幅降低,這個是可以接受的,原因和測序中酶活性以及機(jī)器設(shè)計原理相關(guān)。

      比對

      一般在我們運行完去除接頭這些比對前質(zhì)控操作后,一般會再運行一次FastQC來查看質(zhì)控效果。

      然后就對通過質(zhì)控fastq文件進(jìn)行mapping。一般使用BWA或者Bowtie2工具。

      對于比對完成的bam文件我們可以使用samtools或者經(jīng)典的Picard工具來分析下比對后的情況,文獻(xiàn)這里建議:

      • unique mapping rate > 80% 屬于合格,會比較好。

      • 對于哺乳動物來說,ATAC-seq結(jié)果中應(yīng)該至少檢測到 50 million的reads用于分析開放區(qū)和做差異分析。找到200 million的reads用于分析TF 的footprints

      比對后質(zhì)控

      做完比對后,我們?nèi)匀恍枰鲑|(zhì)控,從unique mapping reads/rates,duplicated read percentages,fragment size distribution等等方面去評估。

      如果遇到下面的情況,則reads需要被去除:

      • 測序數(shù)據(jù)質(zhì)量太差

      • PE測序中無法找到overlap區(qū)域

      • 線粒體基因(因為線粒體基因都是可接近的,所以ATAC-seq數(shù)據(jù)中會有較多線粒體的序列,這部分需要需要我們?nèi)コ?/span>

      • ENCODE數(shù)據(jù)庫中記錄的需要被去除的區(qū)域

      • PCR重復(fù)序列

      上述的質(zhì)控可以提高數(shù)據(jù)的準(zhǔn)確性,降低假陽性率。

      但是,上述的可能并不是ATAC-seq質(zhì)控的特異指標(biāo),因為我們在做RNA-seq或者ChIP-seq數(shù)據(jù)分析中也會做這些質(zhì)控,下面有幾個ATAC-seq質(zhì)控的特異指標(biāo)

      片段長度分布圖如下:

      圖片

      這個圖如何看可以看我之前寫的推文:

      CHIP-seq 2013年Greenleaf的第一篇文章

      • 對于nucleosome-free regions(NFR)片段 < 100 bp,這些片段理論上是富集在不同基因的TSS區(qū)域的。

      • 對于核小體結(jié)合區(qū)域片段,在TSS區(qū)域應(yīng)該存在一個低谷,而在TSS兩側(cè)翼區(qū)則應(yīng)該存在富集現(xiàn)象。

      如下:

      圖片

      上述這種評估可以使用ATACseqQC工具進(jìn)行評估。

      還有一個比較容易忽視的細(xì)節(jié),也是比較重要的,根據(jù)一個朋友的經(jīng)驗,他提醒我關(guān)于reads需要移動的一個tips——"+4和-5"規(guī)則

      • 正鏈+4bp

      • 負(fù)鏈-5bp

      小結(jié)

      作者提供了他們自己分析所使用到的工具pipeline:

      FastQC? trimmomatic?BWA-MEM?ATACseqQC

      第二部分——peak calling

      目前存在的一些用于peak calling的工具以及他們背后用到的統(tǒng)計學(xué)分布總結(jié):

      圖片

      1. 一般call peaks都是使用MACS2工具,在ENCODE官網(wǎng)上的ATAC-seq的pipeline上也推薦使用MACS2來call peaks。

      2. 目前存在的call peaks工具99%都是和ChIP-seq分析混用的,只有一個工具是專門針對ATAC-seq數(shù)據(jù)而開發(fā)的——HMMRATAC。

      3. 我們知道,在做ChIP-seq時,需要有正常input control對照。但是在ATAC-seq中一般不設(shè)置input control對照。

      4. 對于ATAC-seq的PE數(shù)據(jù),在經(jīng)過比對后,得到的范圍涉及到了NFR和核小體結(jié)合區(qū)

      圖片

      而對于所謂的開放區(qū),其實是來自NFR區(qū)域的比對結(jié)果的,或者使用一種生信方法——shift-extend。

      1. 目前call peaks的工具大致分為2大類:①基于計數(shù) ②基于分析形狀

      2. 基于計數(shù)的call peaks使用不同的統(tǒng)計方法來比較某個特定區(qū)域內(nèi)的reads分布和隨機(jī)情況下的reads分布形狀。如MACS2、HOMER、SICER/epic2都是假設(shè)是泊松分布;而ZINBA則假定是零膨脹負(fù)二項分布;等等。

        因為F-seq和ZINBA  并不是經(jīng)常有人維護(hù),所以作者不建議使用。

        總的來說,基于計數(shù)的call peaks使用更多,更容易解釋。

      3. 基于分析形狀的call peaks不常使用。

      4. HMMRATAC是唯一一個專門針對ATAC-seq的call peaks工具。優(yōu)點在于:結(jié)果比MACS2和Fseq等工具找到更好,并且可以同時提供給我們核小體的位置信息。缺點在于:計算量非常大,用到很多機(jī)器學(xué)習(xí)方面的算法,如三態(tài)半監(jiān)督隱馬爾可夫模型(一聽就很厲害,讓人不想去看,哈哈哈哈哈哈)

      5. 關(guān)于實驗中的設(shè)置生物學(xué)重復(fù)問題:設(shè)置生物學(xué)重復(fù)可以減低假陽性,同時提高可重復(fù)性。大多數(shù)工具在使用時都可以通過參數(shù)設(shè)置處理生物學(xué)重復(fù)。

      6. 放一個真實數(shù)據(jù)的ATAC-seq圖:

      分成3大部分:HMM based工具、count-based工具以及shape-based工具。

      RUNX1 motif track:是從JASPAR公共數(shù)據(jù)庫里得到的RUNX1 footprint結(jié)果

      K562 ChIP-seq track :是從ENCODE公共數(shù)據(jù)庫里得到的RUNX1的ChIP-seq結(jié)果。(相當(dāng)于是一個標(biāo)準(zhǔn)答案,因為是直接用ChIP拉下來的片段

      圖片

      • count-based工具之間結(jié)果相似,但是和shape-based工具之間結(jié)果有出入。

      • 這些數(shù)據(jù)證明,可以通過peaks的結(jié)果找到已知轉(zhuǎn)錄因子的motifs。反過來,也說明這些轉(zhuǎn)錄因子與染色質(zhì)的可及性密切相關(guān)

      小結(jié)

      目前沒有工作去比較ATAC-seq中peak calling的表現(xiàn)性能,作者推薦使用MACS2和HOMER這種工具來peak calling,如果服務(wù)器足夠強(qiáng)大,就推薦使用HMMRATAC去call peaks。

      第三部分——高級分析

      Peaks

      Peak differential analysis

      目前存在的一些Peak differential analysis的工具總結(jié):

      圖片

      1. 目前沒有專門針對ATAC-seq數(shù)據(jù)找差異peaks的工具。

      2. 目前存在的工具一般分成2種:

      • consensus peak-based工具:如HOMER,DBChIP,DiffBind。他們內(nèi)部其實主要依賴于差異基因分析的統(tǒng)計學(xué)原理,例如我們常用的edgeR、DESeq2等。我們很清楚這些工具的前提是他們假設(shè)數(shù)據(jù)分布是負(fù)二項分布(NB)。

      consensus peak是指:不同生物學(xué)樣本重復(fù)得到的peaks進(jìn)行合并后,找到的一些所有重復(fù)樣本中都存在的peaks。這樣可以減少假陽性結(jié)果。HOMER默認(rèn)會用將所有樣本的peaks混合pool在一起后算出consensus peak。而DBChIP,DiffBind則通過在不同樣本之間取交集來得到consensus peak。

      • Sliding window-based工具:使用這種方法的話,無須去生成consensus peak,他們會評估所有全基因組上每個bin區(qū)域,這樣當(dāng)然會有更多的假陽性情況,于是需要做FDR進(jìn)行校正p值

        獨立工具有:PePr和DiffReps,他們使用負(fù)二項分布檢驗、G檢驗或卡方檢驗。ChIPDiff則應(yīng)用HMM去計算2個臨近窗口的相關(guān)性。

        還有些工具,如csaw,則是依賴于其他的DE分析的R包edgeR。

      Sliding window-based工具因為是對整個基因組范圍進(jìn)行分析,所以是一種unbiased的方法,但是這也提示,使用這種方法進(jìn)行分析時,需要一個很嚴(yán)格的過濾標(biāo)準(zhǔn)!

      1. 目前絕大多數(shù)的研究都證實ATAC-seq數(shù)據(jù)中reads的分布符合泊松分布,這和RNA-seq數(shù)據(jù)的分布是一致的。

      2. shape-based的差異peaks分析工具沒有專門針對ATAC-seq數(shù)據(jù)的,但是因為shape-based的方法可以用到同一個數(shù)據(jù)的2個維度——reads+分布形狀,所以作者認(rèn)為這種方法應(yīng)該會給我們提供更多的信息。并且作者推薦使用csaw,因為這個工具核心是依賴于edgeR,這樣結(jié)果更好解釋。

      Peak annotation
      1. 使用工具:HOMER,ChIPseeker和ChIPpeakAnno使用最多。

      2. 一般對于peaks的注釋,都是找離peaks距離最近的gene(內(nèi)含子或外顯子)或者調(diào)節(jié)元件(promoter,5′ UTR,3′ UTR等)。

      圖片

      簡單來說,就是exon與intron是互斥的,exon包含UTR和CDS。具體的關(guān)系可以看我之前分析CCDS文件的系列過程:

      探索hg19中基因exon坐標(biāo)問題

      再次探索hg19中基因exon坐標(biāo)問題

      探索CCDS文件

      1. 一般來說生信分析的軟件,對于peaks注釋后的可視化展示最經(jīng)典的如下餅圖:

      圖片

      代碼的話其實直接用Y叔的R包就可以了,非常的簡單,有空了把相關(guān)畫圖代碼找找放上來吧~

      1. 得到這些注釋結(jié)果后,可以通過GO/KEGG/Reactome等數(shù)據(jù)庫進(jìn)行富集分析,其實代碼也非常的簡單。日后用到再整理吧~

      Motifs

      1. 所謂的Motifs就是那些可以結(jié)合TF的DNA序列,而TF結(jié)合的位置稱為TFBS(TF binding sites)。TF如果想要對轉(zhuǎn)錄進(jìn)行調(diào)控,就必須和DNA上的順式作用元件結(jié)合,而TF結(jié)合的前提通常來說是這段DNA序列是可接近的,也就是ATAC-seq中可以測到。不過也有少數(shù)TF可以和那些非開放區(qū)域進(jìn)行結(jié)合。

      2. TF調(diào)節(jié)轉(zhuǎn)錄的機(jī)制:1)競爭組蛋?或?組蛋?;2)co-factor互作  

      具體介紹TF調(diào)節(jié)轉(zhuǎn)錄機(jī)制的綜述推薦:

      文章地址:https://www./articles/s41576-018-0089-8

      下載地址:https://www./articles/s41576-018-0089-8.pdf

      Motif database and scan
      1. 和其他的生信分析思路類似,想要探索Motifs的信息,我們需要先有一個Motifs的數(shù)據(jù)庫,例如:

      • JASPAR(包括多個物種,可以通過API進(jìn)行訪問、存在Bioconductor的R包

      • CIS-BP和TRANSFAC(真核生物

      • HOCOMOCO(人和鼠的數(shù)據(jù))

      • RegulonDB(大腸桿菌數(shù)據(jù)庫)

      1. HOMER(Linux)以及Bioconductor上的一些R包(TFBSTools和motifmatchr)都可以通過檢索給定的DNA序列來判斷TFBSs。

      2. PWMScan可以直接在線使用,需要提供bowtie index后的文件。

      3. MEME工具(之前使用過)包括幾個組件組成,其中:

      • FIMO去搜索Motif

      • MAST合并多個Motif

      • MCAST推斷調(diào)節(jié)模塊

      1. 推薦使用的工具——MEME和PWMScan

      Motif enrichment and activity analysis
      1. 前面的工具,找到了Motif的位置和發(fā)生頻率,接下來就看這些Motif在peaks里的頻率了。HOMER用到的統(tǒng)計學(xué)原理是超幾何檢驗,這個比較好理解,不懂的可以去看我之前寫過關(guān)于超幾何檢驗的推文。MEME-AME則用到的是秩和檢驗 。DAStk通過計算MD分?jǐn)?shù)來判斷。當(dāng)然還有更多其他的方法,不過這些方法都是通過應(yīng)用不同的統(tǒng)計學(xué)方法來比較Motif在peaks中的頻率,從而得到真正的Motif吧。

      2. 通過計數(shù)fragments的讀數(shù),可以得到TFBS的可及性,這個和TF的活性相關(guān)。而ChromVAR工具就是針對scATAC-seq數(shù)據(jù)而設(shè)計的,但是是否可以 應(yīng)用于bulk ATAC-seq數(shù)據(jù)目前沒有研究。DiffTF則針對所有TFBS計算一個可及性改變FC

      3. 這里提到的所有工具都是用來間接預(yù)測peaks區(qū)域內(nèi)的TFBSs。但是這里找到的TFBSs可能有一些是錯誤的。因為目前并不是所有的TF都有明確的Motif序列,而且,來自相同家族的TF可以有共同的Motif結(jié)合序列。

      Footprints

      1. 我們解析TF調(diào)節(jié)也可以用Footprints。所謂的Footprints是指:激活的TF結(jié)合的DNA序列,這段序列因為和TF結(jié)合而不受Tn5酶切處理。

      2. 使用Footprints進(jìn)行分析存在的幾個要點:

      • 前面提到關(guān)于read的移動,需要正鏈的插入結(jié)果往右移動4bp(+4 bp), 負(fù)鏈的插入結(jié)果往左偏移5bp(-5 bp)。

      • 因為Tn5酶具有偏好性,所以對于一些短暫結(jié)合的TF,F(xiàn)ootprints的檢測存在困難。在過去用DNase-seq時這種困難也存在。

      1. 分析Footprints的工具主要分成2大類:

      • de novo:根據(jù)Footprints的典型特征,預(yù)測所有peaks區(qū)域的Footprints,得到的結(jié)果和已知的Motif去做匹配,少數(shù)無法匹配到的則為新發(fā)現(xiàn)的Motif。

      • motif-centric:需要我們提供一個TFBSs的信息文件,并通過機(jī)器學(xué)習(xí)的思想去區(qū)分這些屬于結(jié)合狀態(tài)和非結(jié)合狀態(tài)。

      圖片

      De novo tools
      1. 這種方法的一個重點在于要用數(shù)學(xué)方法上去定義什么是一個footprint,并且盡量降低由于Tn5酶切偏好性引起的footprint噪音。

      2. 這里列舉HINT-ATAC工具,使用隱馬爾科夫模型(HMM),同時矯正了Tn5酶切偏好性:

      圖片

      • HINT-ATAC找到的footprint,同樣在K562細(xì)胞系中,用RUNX1的ChIP-seq結(jié)果中得到了驗證。

      1. 對于使用HMM的工具,本質(zhì)上都是需要監(jiān)督學(xué)習(xí)的,所以也就是說,需要我們手動去注釋一些基因區(qū)域,因此這類工具在更大范圍內(nèi)的使用問題仍需測評。

      Motif-centric tools
      1. 利用非監(jiān)督學(xué)習(xí)的方法進(jìn)行聚類,基于一系列參數(shù)如:距離TSS距離,PWM分?jǐn)?shù),reads分布,reads數(shù)目等等將可能的TFBSs分成結(jié)合狀態(tài)和非結(jié)合狀態(tài)。CENTIPEDE工具對于參數(shù)的變化比較敏感;msCentipde可以提高低深度和低質(zhì)量數(shù)據(jù)的表現(xiàn);PIQ在有生物重復(fù)的情況下可以提高結(jié)果的魯棒性。

      2. 利用監(jiān)督學(xué)習(xí)的方法進(jìn)行聚類,基于高質(zhì)量的ChIP-seq數(shù)據(jù)來注釋真正的TFBSs。MILLIPEDE和BinDNase使用邏輯回歸,DeFCoM使用支持向量機(jī)SVM,BPAC使用隨機(jī)森林進(jìn)行鑒定。

      對于footprint分析的評價
      1. 一般來說,監(jiān)督學(xué)習(xí)工具會比非監(jiān)督學(xué)習(xí)工具和de novo工具效果更好,但是其通用性就稍遜一籌。

      2. 偏差校正在DNase-seq和ATAC-seq足跡檢測中都很重要。

      3. 能夠有效實現(xiàn)足跡分析的ATAC-seq最小測序深度是多少,目前沒有標(biāo)準(zhǔn)。雖然建議每個樣品read數(shù)超過2億,但有報道稱DeFCoM對于更少的測序read數(shù)也能有不粗的表現(xiàn)。

      4. 對于低質(zhì)量和之前未報道過的motif,de novo方法仍然具有優(yōu)勢。

      5. 作者認(rèn)為HINT-ATAC可以是一個不錯的選擇,因為它具有ATAC-seq特異性的偏好校正

      6. 同樣的,研究人員可以結(jié)合多種工具的結(jié)果來獲得高度可靠的足跡。

      Nucleosome positioning

      1. 在ATAC-seq數(shù)據(jù)中,較長的reads片段對應(yīng)著開放區(qū)中纏繞核小體的DNA片段。有許多工具用來分析檢測這些纏繞核小體的DNA序列,但是根據(jù)研究證明,由于ATAC-seq數(shù)據(jù)中這些區(qū)域的覆蓋深度較淺,所以相比與MNase-seq數(shù)據(jù)來說,分析更加困難。

      2. 針對MNase-seq開發(fā)的軟件如DANPOS2,PuFFIN,INPS,和NucTools,可以在ATAC-seq數(shù)據(jù)過濾得到核小體相關(guān)片段后使用,而NucleoATAC和HMMRATAC是專為ATAC-seq開發(fā)的。

      3. 所有這些工具都具有典型ATAC-seq實驗的相同潛在缺點,即染色質(zhì)開放區(qū)之外的覆蓋率較低。期待未來開發(fā)用于ATAC-seq的生物信息學(xué)方法,以更有效和精確地捕獲核小體的占位。目前作者認(rèn)為HMMRATAC和NucleoATAC是用于ATAC-seq核小體檢測的兩個有用且特異性的工具。

      第四部分——多組學(xué)數(shù)據(jù)聯(lián)合分析建立調(diào)控網(wǎng)絡(luò)結(jié)構(gòu)

      與ChIP-seq聯(lián)合分析

      1. 由于開放染色質(zhì)是大多數(shù)TF結(jié)合的前提條件,但是不是所有開放染色質(zhì)都有TF的結(jié)合,因此ATAC-seq峰通常與TF ChIP-seq峰重疊,但通常更寬。聯(lián)合TF ChIP-seq和ATAC-seq可以相互驗證彼此的質(zhì)量和可靠性。

      2. ChIP-seq中存在TF的峰,而在ATAC-seq中不存在,可能指示了先驅(qū)轉(zhuǎn)錄因子(pioneer factor,它結(jié)合到封閉染色質(zhì),然后招募染色質(zhì)重塑因子或其他轉(zhuǎn)錄因子并起始轉(zhuǎn)錄。

      3. ATAC-seq也可以與標(biāo)記組蛋白修飾的ChIP-seq聯(lián)合分析,驗證與活躍染色質(zhì)標(biāo)記(如H3K4me3的,H3K4me1,H3K27ac等)正相關(guān),與不活躍的染色質(zhì)標(biāo)記(如H3K27me3)負(fù)相關(guān) 。

      4. 由于ATAC-seq實驗方法的\簡便性和樣品需求較少,因此可以在做ChIP-seq實驗之前,把ATAC-seq當(dāng)成一種預(yù)實驗。

      與RNA-seq聯(lián)合分析

      1. 我們可以驗證差異基因在各自的TSS周圍是否也具有明顯的染色質(zhì)可及性差異,從而從染色質(zhì)可及性的角度驗證自己的理論假說。

      2. 可以推定差異基因受到開放染色質(zhì)中特定TF的調(diào)控。

      建立調(diào)控網(wǎng)絡(luò)

      圖片

      1. 關(guān)于增強(qiáng)子的作用機(jī)理

      圖片

      可以看到,啟動子promoter一般在target gene的上游,而Enhancer的話可以在gene的上/下游,或者在更遠(yuǎn)的位置。發(fā)揮作用時,只需增強(qiáng)子和TF結(jié)合后,通過增強(qiáng)TF的活性,促進(jìn)Promoter的轉(zhuǎn)錄活性。

      1. 增強(qiáng)子在線性基因組中可能非常遙遠(yuǎn),但在空間上接近其目標(biāo)基因。這導(dǎo)致增強(qiáng)子的直接靶基因難以預(yù)測,因為很多研究都是直接把遠(yuǎn)端增強(qiáng)子聯(lián)系到最近的基因上,而非真正的target gene。

      2. 對于scATAC-seq,Pliner等人推出了Cicero,可將增強(qiáng)子和啟動子聯(lián)系到同一靶基因。盡管已證明Cicero可以用于scATAC-seq,但是沒有證據(jù)證明Cicero否適用于樣本量小的bulk ATAC-seq數(shù)據(jù)

      未來展望和總結(jié)

      1. ATAC-seq近年來發(fā)展迅速,在實驗protocol取得了較大的進(jìn)展,但生物信息學(xué)分析工具的進(jìn)展緩慢,沒有成熟的分析pipeline。

      2. 在整個分析過程中,比對到參考基因組和質(zhì)控步驟與RNA-seq和ChIP-seq中類似。至于call peak,大多數(shù)ChIP-seq的工具都與ATAC-seq數(shù)據(jù)兼容,ATAC-seq特異性的call peak工具較少。

      3. 對于下游分析,peak差異分析可以概述染色質(zhì)可及性的變化。為了推斷生物學(xué)功能和相關(guān)的TF,peak注釋和motif富集分析是初步了解的首選。

      4. motif和footprint分別是調(diào)控事件的直接和間接指標(biāo)。檢測footprint的困難來自酶切偏倚和TF結(jié)合DNA時間短引起的信號微弱。

      5. 由于ATAC-seq數(shù)據(jù)固有的弱點(峰以外的區(qū)域read覆蓋率很低),核小體檢測仍然很困難

      6. 作者建議的分析流程

      • 用FastQC,trimmomatic和BWA-MEM進(jìn)行預(yù)分析

      • 用MACS2進(jìn)行peak calling

      • 使用csaw進(jìn)行peak差異分析

      • 使用MEME進(jìn)行motif檢測和富集

      • 使用ChIPseeker進(jìn)行注釋和可視化

      • 使用HMMRATAC進(jìn)行核小體檢測

      • 使用HINT-ATAC進(jìn)行足跡分析

      • 如果同時有RNA-seq數(shù)據(jù),則可以使用PECA方法重建調(diào)控網(wǎng)絡(luò)。

      生信教程補(bǔ)充

      這篇綜述內(nèi)容還是很多的,也學(xué)到了許多關(guān)于ATAC-seq的新知識。

      另外也找到一個生信分析的系列教程:

      http:///new/book/chapter-05/#第四章-chip-seq數(shù)據(jù)分析chapter-4-chip-seq-data-analysis

      有需求的同學(xué)可以自行學(xué)習(xí)~

      另外放上我當(dāng)初學(xué)習(xí)ChIP-seq的代碼教程吧,因為當(dāng)初是第一次學(xué)習(xí),所以很多就會相對比較細(xì)致了,但是也可能會存在一些問題,大家自行判斷學(xué)習(xí):

      九月學(xué)徒ChIP-seq學(xué)習(xí)成果展(6萬字總結(jié))(上篇)

      九月學(xué)徒ChIP-seq學(xué)習(xí)成果展(6萬字總結(jié))(下篇)

      后記

      近來開學(xué)在即,本著不信謠不傳謠的黨中央精神,我在家默默看完了這篇文獻(xiàn)。希望大家也要在家堅持:不信謠不傳謠~

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多