
今天整理一下TASSEL操作GWAS的筆記。
筆記計(jì)劃分為六篇:
- 第一篇:讀取plink基因型數(shù)據(jù)和表型數(shù)據(jù)
- 第二篇:對(duì)基因型數(shù)據(jù)質(zhì)控:缺失質(zhì)控,maf質(zhì)控,hwe質(zhì)控,樣本質(zhì)控
- 第三篇:基因型數(shù)據(jù)可視化:kingship,LD,MDS
- 第四篇:一般線性模型進(jìn)行GWAS分析(GLM模型)
- 第五篇:混合線性模型進(jìn)行GWAS分析(MLM模型)
- 第六篇:TASSEL結(jié)果可視化:QQ plot,曼哈頓圖
1. 下載安裝TASSEL軟件
官網(wǎng)地址:https://www./tassel

下載過的安裝文件:
雙擊軟件安裝,安裝完成:
打開軟件后一個(gè)大大的logo:

打開TASSEL界面:
2. 軟件菜單
「FILE:」
主要是打開數(shù)據(jù),保存數(shù)據(jù),刪除數(shù)據(jù)。
「Data:」
主要是數(shù)據(jù)和提取,合并,經(jīng)常用到的是Interset Join功能。
「Impute:」
主要是填充數(shù)據(jù),包括不同方法的填充方法。
「Filter:」
對(duì)數(shù)據(jù)進(jìn)行質(zhì)控。
「Analysis:」
是最主要的模塊,包括PCA,MDS,Kinship等方法,也包括GLM,MLM等方法。
「Results:」
主要是結(jié)果的可視化,包括LD圖,QQ圖,曼哈頓圖等等。
其它菜單后續(xù)介紹。
3. 什么是plink數(shù)據(jù)
TASSEL支持的基因型數(shù)據(jù)有很多種,包括:
這里我們需要讀取plink格式:
「什么是plink數(shù)據(jù)?」
「.map格式」
格式說明鏈接: http://zzz.bwh./plink/data.shtml#map
?map格式的文件, 主要是圖譜文件信息, 主要包括染色體名稱, 所在的染色體和所在染色體的坐標(biāo).
?
1, map文件沒有行頭
2, map文件包括四列: 染色體, SNP名稱, SNP位置, 堿基對(duì)坐標(biāo)
- SNP名稱為字符或數(shù)字, 如果不重要, 可以從1編號(hào), 注意要和bed文件SNP列一一對(duì)應(yīng)
- 染色體的摩爾未知(可選項(xiàng), 可以用0)
3, 如果只有SNP名稱, 可以手動(dòng)構(gòu)建map文件, 第二列為SNP名稱, 其它三列為0即可.
「Example」
1 snp1 0 1
1 snp2 0 2
1 snp3 0 3
- 這里有3個(gè)SNP, 分別名為snp1, snp3, snp3 「(第二列)」
- 這三個(gè)SNP在第一個(gè)染色體上 「(第一列)」
「.ped格式」格式說明鏈接:http://zzz.bwh./plink/data.shtml#ped
?bed格式的文件, 主要包括SNP的信息, 包括個(gè)體ID, 系譜信息, 表型和SNP的分型信息.
?
1, 數(shù)據(jù)沒有行頭, 空格或者tab隔開的文件
2, 必須要有六列, 包括系譜信息, 表型信息
- 第一列: Family ID # 如果沒有, 可以用個(gè)體ID代替
- 第二列: Individual ID # 個(gè)體ID編號(hào)
- 第三列: Paternal ID # 父本編號(hào)
- 第四列: Maternal ID # 母本編號(hào)
- 第五列: Sex (1=male; 2=female; other=unknown) # 性別, 如果未知, 用0表示
- 第六列: Phenotype # 表型數(shù)據(jù), 如果未知, 用0表示
- 第七列以后: 為SNP分型數(shù)據(jù), 可以是AT CG或11 12, 或者A T C G或1 1 2 2
3, 上面六列, 必須要有, 如果沒有相關(guān)數(shù)據(jù), 用0表示.

4. TASSEL怎么讀取plink數(shù)據(jù)
1,F(xiàn)ile--> Open As
2,下拉菜單選擇plink格式
3,將ped文件和map文件選擇


「讀取成功:」
TASSEL,會(huì)自動(dòng)將plink文件合并,用分型的形式顯示出來。
在這里插入圖片描述5 TASSEL怎么讀取表型txt數(shù)據(jù)
1,F(xiàn)ile --> Open As
2,格式選擇:Make Best Guess,自動(dòng)選擇
3,找到txt表型數(shù)據(jù)文件
4,表型數(shù)據(jù)讀取成功:

6 TASSEL數(shù)據(jù)格式介紹
TASSEL的數(shù)據(jù)格式,根據(jù)數(shù)據(jù)類型分為不同的格式:
- Numerical:主要是儲(chǔ)存表型數(shù)據(jù)
- Sequence:主要是儲(chǔ)存基因型數(shù)據(jù)
- Matrix:主要儲(chǔ)存矩陣數(shù)據(jù)(后面kinship矩陣會(huì)有講到)
- Result:主要是儲(chǔ)存結(jié)果文件
Flag已經(jīng)立了,后續(xù)一定更新完成,然后總結(jié)出一個(gè)友好的TASSEL入門教程。
關(guān)注公眾號(hào),一起學(xué)習(xí)吧。