GoldenHelix 基因分析软件操作手册
2009 年 10 月 24 日 xuemei 浏览:2,932 最后更新:2010 年 11 月 17 日
工作流程
- 创建一个project
- 导入数据,包括基因数据、表型数据、家系数据
- 数据清理
- 导入和应用基因图谱信息
- 数据分析
- 分析结果的可视化
主界面介绍
对主界面菜单的介绍:
File:对project进行操作,包括创建、关闭、打开、压缩、复制
Tools:包括从Affy下载Marker图谱和应用Marker图谱、对编程脚本的运行和编写等。
Tmport:对各种格式的数据导入。
Download:cong Affy下载anotation和Library文件。
数据导入
支持的数据格式
Text、Plink支持的PED、TPED、BED、Golden支持的DSF和GHD格式、Affy的CHP、CEL、CNT、CNCHP、illumina的DSF文件、以及第三方软件格式,包括excel、spss等大多数统计软件支持格式。
Text格式的导入
数据文件以.CSV和.txt以及.dat的文件都支持。点击Import菜单,点击Text,弹出对话框.
在 对话框中,File format 选择数据分割附,对于Tex而言,一般都是以‘Whitespace’分割,即空格键,这个选错了程序会报错。Row Labels主要指在text中,数据变量名是哪一列,一般而言,都是第一列是变量名。点击Ok后,出现另一个对话框。
在新弹出的对话框中,对于text中的缺失值进行设定,已经基因数据的呈现方式。File Header Options指text中可以忽略哪一行数据不导入。有时候数据的第一行不是变量名,而是数据的说明,那么就可以选择第一行数据略去。然后点击Ok,数据开始导入。
下面(左边)是txt中数据的呈现格式,Txt数据文件的格式,这里用的‘whitespace’作为分割符,第一行是每一列变量的名字。右边是数据导入后,在SVS中的呈现方式。
第三方数据格式的导入
支持格式包括excel、spss、matlab、SAS等常见的统计软件的数据格式。从Import >Third Party,打开对话框。
在对话框中,如果excel中有多个sheet都有数据,则会出现要求选择需要导入的sheet。这里我们的excel只有一个sheet中有数据,所以没有出现。Colums Names 中excel的第一行作为变量名,选择Row Labels即被试ID。
数据导入后,在SVS中的呈现成像方式。
PED/TPED/BED数据的导入
这是plink的数据格式。这个格式的数据已经包含了gene marker map信息,即map文件。
map文件中,数据的呈现格式:染色体、rs编号、0(占位)、物理距离。ped文件和map文件中,基因位点是一一对应的:Snp1,SNP2,SNP3…..的map信息,每一行就是一个snp位点的信息,位点顺序(上到下)与ped文件(左到右)一一对应
在SVS中两个文件合并后的呈现形式
Affy数据的导入
Affy数据的导入主要有SNP和CNV两种。SNP数据以CHP和CNT数据的格式导入,CNV数据以CEL和CNT、CNCHP格式导入。
对于Affy的 500k、SNp5.0、SNp6.0芯片,拷贝数变异分析模块(CNAM) 支持读入CEL文件,并且直接计算拷贝数分割的log2比率和关联分析。
对于Affy 10k, 100k, and 500k的阵列,可以用 Affy CNAT Batch Analysis tool 创建 CNT 格式的文件。
对于100k, 500k, and SNP 6.0 芯片,也可以用 the Genotyping Console 创建 CNCHP 格式的文件。
基因标记图谱(anotation文件)和Affy的Library文件
基因标记数据(Genetic marker maps)包含每一个snp和cnv所在的染色体、rs编号、物理距离等信息。对于基因芯片的数据而言,这些数据可以从Affymetrix NetAffx service下载(Affy anotation文件)。而对于自己挑选的位点,可以自己编辑这些信息,创建txt文件导入(格式如前面介绍的plink的map文件)。
如果是Affy的基因芯片位点,直接从Affy下载,需要能够联网,输入用户名和密码。
需要注意的是:Affyde 100k芯片的anotation文件是由上下两个50k的anotation文件组成;而500k的芯片的anotation文件是由上下两个250k的anotation文件组成。所以需要都下载下来,然后再SVS中进行合并。
很多时候,我们自己选择了一些基因位点,这些位点的信息就需要自己编辑成txt文件(格式如plink的map文件)。在这里我们已经在前面导入了名为473_277的ped文件和map文件。其中map文件就是基因标记图谱。需要注意的是,当以plink支持的ped和map数据
进入tool>Genetic m Marker Map后,出现对话框。选择要导入的文件。
应用基因标记图谱
打开一个包含基因位点的Spreadsheet。
然后点击 File > Apply Genetic Marker Map,出现一个选择框。选择包含Spreadsheet文件的基因位点的Genetic Marker Map文件。
生成一个473_277 mapped sheet。
下载CDF文件(Affy library文件)
点击Download > Affymetrix Library File,需要用户名和密码。然后选择所需的library文件。
数据质量控制
GoldenHelix提供多种质量控制手段:
- 等位基因和基因型频率控制
- 检出率(call rate):
- 哈迪温博平衡p值
- HWE的费希精确检测p值
- Signed HWE Correlation R :太高则意味着杂合子太多,可能有基因污染。
- 基因型主成分分析Genotype Principal Component Analysis ,检验snp位点的人群分层和batch effect
- 数量主成分分析Numeric Principal Component Analysis ,检验cnv的人群分层、batch effect。
- 基因型性别核查Genotype Gender Check,检验X和Y染色体
- SNP Concordance ,一个样本中所有snp
- Filtering Markers
基因型统计
打开一个包含基因型数据,并且已经与基因图谱map的spreadsheet,如前面的473_277。
打开后,点击进如菜单:
Quality Assurance -> Genotype Statistics。
注意:1、bi-allelic markers
2、对于case/control,HWE的三个统计、genotype counts、Allele counts都可以分别计算。
3、点击’run’,生成‘Marker Statistic’。
基因质量控制剔除( Genotype Quality Assurance Filtering)
打开后,点击进如菜单:Quality Assurance -> Genotype Filtering。
生成新的Filtering Results
基因型主成份分析( Genotypic Principal Component Analysis)
进入菜单:Quality Assurance > Genotypic Principal Component Analysis
数量型主成份分析( Numeric Principal Component Analysis)
数量型主成份分析,spreadsheet中包含数量型的数据。
通过基因控制校正人群分层和batch effect
进入Analysis > Genotype Association Tests
分析
分析主要包括:
- 基因型关联分析Genotype Association Tests
- 单体型关联分析Haplotype Association Tests
- 单体型检测Haplotype Block Detection
- 同质性检测Runs of Homozygosity
- 数量关联分析Numeric Association Tests
- 回归分析Regression Analysis
基因型关联分析 Genotype Association Tests
进入Analysis > Genotype Association Tests .最上面有三个菜单:Association Test Parameters、PCA Parameters、Overall Marker Statistics.分别点击进去,可以对这些参数分别进行设置。其中PCA Parameters 和Overall Marker Statistics与前面的介绍的基因型主成分分析和基因型统计分析一样,在这里不再说明。即前面的主成分分析和基因型统计分析可以和 关联分析一起做,不一定要在质量控制中。
让我们首先看Association Test Parameters中的参数设置。
在Association Test Parameters中,一共有6个设置部分。
- Genetic Model or Tests
- Missing Values
- Additional Outputs
- Principal Components Analysis
- Test Statistics or Method
- Multiple Testing Correction
- Genomic Control of Output Data for Stratification
未完待续……
分类: 数据分析
6 条评论 发表评论
1.
medical transcription | 2011 年 01 月 11 日 于 15:22
this post is very usefull thx!
2.
PesWoolbops | 2011 年 05 月 25 日 于 12:58
hola mobiye.com! http://www.fnbclassicclashes.co.za/Community/members/Venda-De-Kamagra-Pela-Internet-512/default.aspx venda de kamagra pela internet
http://www.mclips.it/members/Compra-Cialis-512.aspx compra cialis
http://www.mclips.it/members/Onde-Comprar-Cialis-Generico-512.aspx onde comprar cialis generico
http://mswindowscr.org/members/Quero-Comprar-Cialis-Generico-512.aspx quero comprar cialis generico
http://ucug.nl/members/Compra-Cialis-512/default.aspx compra cialis
3. conveyancing lawyer&hellip | 2011 年 06 月 03 日 于 02:29
Property Solicitors…
[...]the time to read or visit the content or sites we have linked to below the[...]…
4.
Muchacho | 2011 年 06 月 03 日 于 03:23
Cheers, a great read – added to favourites so will pop back for new content and to read other people’s comments. Cheers again.
5. Polish Dating UK&hellip | 2011 年 06 月 03 日 于 07:17
Polish Dating News…
[...]we like to bookmark other sites on the web, even if they aren’t related to us, by linking to them. Below are some sites worth checking out[...]…
6. California Home Loan&hellip | 2011 年 06 月 03 日 于 08:43
Mortgages…
[...]below you’ll find the link to some sites that we think you should visit[...]…
发表评论
XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>
TrackBack URL | 这篇文章上的评论的 RSS feed