国际标准期刊号: 0974-276X
菲利普·库利、罗伯特·F·克拉克和格里尔·佩奇
近千项人类全基因组关联研究 (GWAS) 检查了 210 多种疾病和性状,发现了 1,200 多个 SNP 关联。随着基因分型技术的改进和可用标记数量的不断增加,病例对照全基因组关联研究 (GWAS) 已成为研究复杂疾病的关键工具。本研究通过分析包含已知影响关联测量的因素的合成基因数据集,评估 GWAS 中存在的基因型和诊断错误的影响。使用蒙特卡罗方法生成合成基因数据,其中纳入了基因遗传、相对风险水平、疾病外显率、基因型分布、样本量以及本研究重点的两个误差因素等因素。生成的数据集提供了用于评估统计方法性能和关联敏感性的真值集。虽然之前已经了解,但这些结果量化并记录了基因型和诊断误差测量以及统计功效损失之间关系的程度。我们的结果还表明,对于低风险非隐性基因座,即使在现实的基因型和表型错误假设下,1,000 - 2,000 个病例范围内的样本量也将达到 10-8 的错误类型 I 错误水平的 80% 功效阈值。尽管如此,通过增加样本量来补偿由于基因型和诊断错误的存在而造成的功率损失不应被低估。我们的估计表明,样本量增加要求在 20% 至 40% 范围内,具体取决于假设的基因遗传模型。