乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      使用TASSEL學(xué)習(xí)GWAS筆記(1/6):讀取plink基因型數(shù)據(jù)和表型數(shù)據(jù)

       育種數(shù)據(jù)分析 2021-11-18

      今天整理一下TASSEL操作GWAS的筆記。

      筆記計(jì)劃分為六篇:

      • 第一篇:讀取plink基因型數(shù)據(jù)和表型數(shù)據(jù)
      • 第二篇:對(duì)基因型數(shù)據(jù)質(zhì)控:缺失質(zhì)控,maf質(zhì)控,hwe質(zhì)控,樣本質(zhì)控
      • 第三篇:基因型數(shù)據(jù)可視化:kingship,LD,MDS
      • 第四篇:一般線性模型進(jìn)行GWAS分析(GLM模型)
      • 第五篇:混合線性模型進(jìn)行GWAS分析(MLM模型)
      • 第六篇:TASSEL結(jié)果可視化:QQ plot,曼哈頓圖

      1. 下載安裝TASSEL軟件

      官網(wǎng)地址:https://www./tassel

      下載過的安裝文件:

      雙擊軟件安裝,安裝完成:

      打開軟件后一個(gè)大大的logo:

      打開TASSEL界面:

      2. 軟件菜單

      「FILE:」

      主要是打開數(shù)據(jù),保存數(shù)據(jù),刪除數(shù)據(jù)。「Data:」

      主要是數(shù)據(jù)和提取,合并,經(jīng)常用到的是Interset Join功能。

      「Impute:」

      主要是填充數(shù)據(jù),包括不同方法的填充方法。

      「Filter:」

      對(duì)數(shù)據(jù)進(jìn)行質(zhì)控。

      「Analysis:」

      是最主要的模塊,包括PCA,MDS,Kinship等方法,也包括GLM,MLM等方法。

      「Results:」

      主要是結(jié)果的可視化,包括LD圖,QQ圖,曼哈頓圖等等。

      其它菜單后續(xù)介紹。

      3. 什么是plink數(shù)據(jù)

      TASSEL支持的基因型數(shù)據(jù)有很多種,包括:

      • Hapmap
      • VCF
      • Flapjack
      • Plink
      • Projection Genotype
      • Sequence
      • Fasta

      這里我們需要讀取plink格式:

      「什么是plink數(shù)據(jù)?」

      「.map格式」

      格式說明鏈接: http://zzz.bwh./plink/data.shtml#map

      ?

      map格式的文件, 主要是圖譜文件信息, 主要包括染色體名稱, 所在的染色體和所在染色體的坐標(biāo).

      ?

      1, map文件沒有行頭

      2, map文件包括四列: 染色體, SNP名稱, SNP位置,  堿基對(duì)坐標(biāo)

      • 染色體編號(hào)為數(shù)字, 未知為0
      • SNP名稱為字符或數(shù)字, 如果不重要, 可以從1編號(hào), 注意要和bed文件SNP列一一對(duì)應(yīng)
      • 染色體的摩爾未知(可選項(xiàng), 可以用0)
      • SNP物理坐標(biāo)

      3, 如果只有SNP名稱, 可以手動(dòng)構(gòu)建map文件, 第二列為SNP名稱, 其它三列為0即可.


      「Example」

      1 snp1 0 1
      1 snp2 0 2
      1 snp3 0 3
      • 這里有3個(gè)SNP, 分別名為snp1, snp3, snp3 「(第二列)」
      • 這三個(gè)SNP在第一個(gè)染色體上 「(第一列)」
      • 第三列為0
      • 第四列為SNP所在染色體的坐標(biāo)

      「.ped格式」格式說明鏈接:http://zzz.bwh./plink/data.shtml#ped

      ?

      bed格式的文件, 主要包括SNP的信息, 包括個(gè)體ID, 系譜信息, 表型和SNP的分型信息.

      ?

      1, 數(shù)據(jù)沒有行頭, 空格或者tab隔開的文件 2, 必須要有六列, 包括系譜信息, 表型信息

      • 第一列: Family ID # 如果沒有, 可以用個(gè)體ID代替
      • 第二列: Individual ID # 個(gè)體ID編號(hào)
      • 第三列:  Paternal ID # 父本編號(hào)
      • 第四列:   Maternal ID # 母本編號(hào)
      • 第五列:   Sex (1=male; 2=female; other=unknown) # 性別, 如果未知, 用0表示
      • 第六列:   Phenotype # 表型數(shù)據(jù), 如果未知, 用0表示
      • 第七列以后: 為SNP分型數(shù)據(jù), 可以是AT CG或11 12, 或者A T C G或1 1 2 2

      3, 上面六列, 必須要有, 如果沒有相關(guān)數(shù)據(jù), 用0表示.

      4. TASSEL怎么讀取plink數(shù)據(jù)

      1,F(xiàn)ile--> Open As

      2,下拉菜單選擇plink格式

      3,將ped文件和map文件選擇

      「讀取成功:」

      TASSEL,會(huì)自動(dòng)將plink文件合并,用分型的形式顯示出來。

      在這里插入圖片描述

      5 TASSEL怎么讀取表型txt數(shù)據(jù)

      1,F(xiàn)ile --> Open As2,格式選擇:Make Best Guess,自動(dòng)選擇3,找到txt表型數(shù)據(jù)文件

      4,表型數(shù)據(jù)讀取成功:

      6 TASSEL數(shù)據(jù)格式介紹

      TASSEL的數(shù)據(jù)格式,根據(jù)數(shù)據(jù)類型分為不同的格式:

      • Numerical:主要是儲(chǔ)存表型數(shù)據(jù)
      • Sequence:主要是儲(chǔ)存基因型數(shù)據(jù)
      • Matrix:主要儲(chǔ)存矩陣數(shù)據(jù)(后面kinship矩陣會(huì)有講到)
      • Result:主要是儲(chǔ)存結(jié)果文件Flag已經(jīng)立了,后續(xù)一定更新完成,然后總結(jié)出一個(gè)友好的TASSEL入門教程。

      關(guān)注公眾號(hào),一起學(xué)習(xí)吧。

        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請遵守用戶 評(píng)論公約

        類似文章