首页 » 数据分析 » 全文

GoldenHelix 基因分析软件操作手册

2009 年 10 月 24 日 xuemei 浏览:2,932 最后更新:2010 年 11 月 17 日

工作流程

  • 创建一个project
  • 导入数据,包括基因数据、表型数据、家系数据
  • 数据清理
  • 导入和应用基因图谱信息
  • 数据分析
  • 分析结果的可视化

界面介绍

对主界面菜单的介绍:

File:对project进行操作,包括创建、关闭、打开、压缩、复制

Tools:包括从Affy下载Marker图谱和应用Marker图谱、对编程脚本的运行和编写等。

Tmport:对各种格式的数据导入。

Download:cong Affy下载anotationLibrary文件。

数据导入

支持的数据格式

TextPlink支持的PEDTPEDBEDGolden支持的DSFGHD格式、AffyCHPCELCNTCNCHPilluminaDSF文件、以及第三方软件格式,包括excelspss等大多数统计软件支持格式。

Text格式的导入

数据文件以.CSV.txt以及.dat的文件都支持。点击Import菜单,点击Text,弹出对话框.


在 对话框中,File format 选择数据分割附,对于Tex而言,一般都是以‘Whitespace’分割,即空格键,这个选错了程序会报错。Row Labels主要指在text中,数据变量名是哪一列,一般而言,都是第一列是变量名。点击Ok后,出现另一个对话框。


在新弹出的对话框中,对于text中的缺失值进行设定,已经基因数据的呈现方式。File Header Options指text中可以忽略哪一行数据不导入。有时候数据的第一行不是变量名,而是数据的说明,那么就可以选择第一行数据略去。然后点击Ok,数据开始导入。

下面(左边)是txt中数据的呈现格式,Txt数据文件的格式,这里用的‘whitespace’作为分割符,第一行是每一列变量的名字。右边是数据导入后,在SVS中的呈现方式。


第三方数据格式的导入

支持格式包括excelspssmatlabSAS等常见的统计软件的数据格式。从Import >Third Party,打开对话框。


在对话框中,如果excel中有多个sheet都有数据,则会出现要求选择需要导入的sheet。这里我们的excel只有一个sheet中有数据,所以没有出现。Colums Names 中excel的第一行作为变量名,选择Row Labels即被试ID。


数据导入后,在SVS中的呈现成像方式。

PED/TPED/BED数据的导入


这是plink的数据格式。这个格式的数据已经包含了gene marker map信息,即map文件。


ped文件中,数据的呈现格式(下图):FIDSubIDfatherIDmotherIDgenderphenotypesnp1snp2.

map文件中,数据的呈现格式:染色体、rs编号、0(占位)、物理距离。ped文件和map文件中,基因位点是一一对应的:Snp1,SNP2,SNP3..的map信息,每一行就是一个snp位点的信息,位点顺序(上到下)与ped文件(左到右)一一对应

SVS中两个文件合并后的呈现形式

Affy数据的导入

Affy数据的导入主要有SNPCNV两种。SNP数据以CHPCNT数据的格式导入,CNV数据以CELCNTCNCHP格式导入。

对于Affy 500kSNp5.0SNp6.0芯片,拷贝数变异分析模块(CNAM) 支持读入CEL文件,并且直接计算拷贝数分割的log2比率和关联分析。

对于Affy 10k, 100k, and 500k的阵列,可以用 Affy CNAT Batch Analysis tool 创建 CNT 格式的文件。

对于100k, 500k, and SNP 6.0 芯片,也可以用 the Genotyping Console 创建 CNCHP 格式的文件。

基因标记图谱anotation文件)AffyLibrary文件

基因标记数据(Genetic marker maps)包含每一个snpcnv所在的染色体、rs编号、物理距离等信息。对于基因芯片的数据而言,这些数据可以从Affymetrix NetAffx service下载Affy anotation文件)。而对于自己挑选的位点,可以自己编辑这些信息,创建txt文件导入(格式如前面介绍的plinkmap文件)。

如果是Affy的基因芯片位点,直接从Affy下载,需要能够联网,输入用户名和密码。

需要注意的是:Affyde 100k芯片的anotation文件是由上下两个50kanotation文件组成;而500k的芯片的anotation文件是由上下两个250kanotation文件组成。所以需要都下载下来,然后再SVS中进行合并。

很多时候,我们自己选择了一些基因位点,这些位点的信息就需要自己编辑成txt文件(格式如plinkmap文件)。在这里我们已经在前面导入了名为473_277ped文件和map文件。其中map文件就是基因标记图谱。需要注意的是,当以plink支持的pedmap数据

进入tool>Genetic m Marker Map后,出现对话框。选择要导入的文件。

导入473_277 文件,下图是导入的gene Marker Map。


应用基因标记图谱

打开一个包含基因位点的Spreadsheet。

然后点击 File > Apply Genetic Marker Map,出现一个选择框。选择包含Spreadsheet文件的基因位点的Genetic Marker Map文件。


生成一个473_277 mapped sheet。

下载CDF文件(Affy library文件)

点击Download > Affymetrix Library File需要用户名和密码。然后选择所需的library文件。

数据质量控制

GoldenHelix提供多种质量控制手段:

  • 等位基因和基因型频率控制

  • 检出率call rate):

  • 哈迪温博平衡p
  • HWE的费希精确检测p
  • Signed HWE Correlation R :太高则意味着杂合子太多,可能有基因污染。

  • 基因型主成分分析Genotype Principal Component Analysis ,检验snp位点的人群分层batch effect
  • 数量主成分分析Numeric Principal Component Analysis ,检验cnv的人群分层batch effect
  • 基因型性别核查Genotype Gender Check,检验XY染色体
  • SNP Concordance ,一个样本中所有snp
  • Filtering Markers

基因型统计

打开一个包含基因型数据,并且已经与基因图谱mapspreadsheet,如前面的473_277

打开后,点击进如菜单:

Quality Assurance -> Genotype Statistics

注意:1bi-allelic markers

2、对于case/control,HWE的三个统计、genotype counts、Allele counts都可以分别计算。

3、点击run,生成‘Marker Statistic’

基因质量控制剔除( Genotype Quality Assurance Filtering)

打开后,点击进如菜单:Quality Assurance -> Genotype Filtering

生成新的Filtering Results


基因型主成份分析 Genotypic Principal Component Analysis

进入菜单:Quality Assurance > Genotypic Principal Component Analysis

数量型主成份分析( Numeric Principal Component Analysis

数量型主成份分析,spreadsheet中包含数量型的数据。

通过基因控制校正人群分层和batch effect

进入Analysis > Genotype Association Tests


分析

分析主要包括:


基因型关联分析 Genotype Association Tests

进入Analysis > Genotype Association Tests .最上面有三个菜单:Association Test ParametersPCA ParametersOverall Marker Statistics.分别点击进去,可以对这些参数分别进行设置。其中PCA Parameters Overall Marker Statistics与前面的介绍的基因型主成分分析和基因型统计分析一样,在这里不再说明。即前面的主成分分析和基因型统计分析可以和 关联分析一起做,不一定要在质量控制中。

让我们首先看Association Test Parameters中的参数设置。

Association Test Parameters中,一共有6个设置部分。

  • Genetic Model or Tests
  • Missing Values
  • Additional Outputs
  • Principal Components Analysis
  • Test Statistics or Method
  • Multiple Testing Correction
  • Genomic Control of Output Data for Stratification

未完待续……

分类: 数据分析

标签:

e-prime的时间问题 linux introductuon for fsl users

6 条评论 发表评论

发表评论

(必填)

(必填), (隐藏)

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

TrackBack URL  |  这篇文章上的评论的 RSS feed


最新文章

热门文章

近期评论

标签云

amygdala Analyze bat brain anatomy brain structure BrainVoyager call Cerebral Cortex choice dcm2nii del DICOM e-prime e-prime、gonogo e-prime、时间精确度 e-prime使用指南 e_prime for for循环 freesurfer fsl functional connectivity go-nogo GoldenHelix、gene、SVS gonogo、e-prime if if判断 linux MRI MRIconvert MRIcron NIfRI rd Rem rest rm spm spm5 spm8 start tutorial 命令管道符 批处理 文件定向符 文件通配符

链接表

站点管理