飞机上的邂逅
身高2米29的前NBA球员
2910个基因
耗时6年的论文
撰文 | 金淘沙拣
● ● ●
飞机上的邂逅
2012年夏日的一天,美国盐湖城机场,杨百翰大学(Brigham Young University, 或BYU)助理教授约翰·考威(John Kauwe)登上了一班前往休斯顿的客机。 飞机不大,考威坐在头等舱一个靠窗的位置,等待起飞。过了一会儿,他感觉旁边有人坐了下来,就扭头一看,结果吃了一惊。 考威一眼就认出了他的邻座——其实飞机上没有几个人不认识他——身高2米29的前BYU男篮校队球星、前NBA球员肖恩·布拉德利 (Shawn Bradley)。
图1:在BYU任职的考威 (Dr. John S.K. Kauwe "Keoni")教授。(Source:http://www.youtube.com/watch?v=MoY0cdFsaqs)
1972年出生的布拉德利除了个头高之外并没有其他生理异常。在BYU打球时他创下了单场比赛盖帽14次的全美大学记录。从1993到2005年他在NBA征战了12年。(和他同样身高的姚明的NBA生涯是从2002到2010年)。
图2: 布拉德利 (Shawn Bradley) (Source: 参考文献11,courtesy of BYU photography )
即使坐在头等舱里,布拉德利的两条长腿也无处安放,他的左腿折叠放在考威的座位底下,右腿则伸到过道里。考威和他交谈起来,提到自己在BYU有一个实验室,主要研究阿尔茨海默症的遗传基础。这引起了布拉德利的兴趣。 他说,我一直在思考,我为什么会这么高?难道也和基因有关系?考威说这我倒可以帮忙。在飞机还没有离开跑道时,两个人就谈妥了:布拉德利将为考威实验室提供血样,考威的团队将对他的基因组进行测序,探索他身高的秘密。
没想到飞机上的这场邂逅竟然促成了六年后一篇论文的发表。这篇论文的奇特之处在于它以布拉德利一个人为中心,同时又以一千多人的基因组数据作为基础。
在继续这个故事之前,让我们先了解一下人类的基因组,以及身高和遗传的关系。
生命之书
公元前209年,陈胜发出的那句振聋发聩的呐喊:“王侯将相,宁有种乎?”这句话 除了具有历史意义,我认为还在科学史上占有重要的地位。他的话翻译成现代汉语就是:“人的命运是由基因决定的吗?” 陈胜可能是历史上首次提出了基因(“种”)概念的人。更重要的是,陈胜、吴广还建立了以科学假说为中心的科学方法体系:为了证明或证伪“基因决定命运“这个假说,他们设计并参与了大型实验——大泽乡起义,以改变自己和秦朝的命运。
当然,以上纯属调侃。奥地利的孟德尔是我们公认的遗传学奠基人。作为主要遗传物质,DNA是我们每个人携带着的生命之书。然而距离孟德尔种豆已过去了150多年,我们仍没有完全破解人类遗传信息长卷的所有秘密。
在地球上生活着的77亿人,每个人的每个细胞(红细胞除外)都携带着这本厚厚的书。这些书大同小异,大约有64亿个字母,分布在23对染色体上和线粒体中。每本书的信息量浩如烟海,相当于1400套《哈利·波特》全集。
这是一本关于历史的书。A、T、G、C四种碱基的重复、组合记载着人类数百万年的挣扎。我们的祖先世世代代曾经历过的环境的变迁,瘟疫的袭击,农业的发明、食物的演化、文化的发展,甚至性生活史(智人物种的DNA中有约2%来自尼安德特人)都在我们的DNA中留下了烙印。从这本书中,遗传学家和生物学家不断尝试着去回答人类的终极问题:我们是谁?从哪里来? 要往哪里去?
DNA也是一本关于未来的书。从受精卵开始,每个胎儿的身体在时间和空间的四个维度的发育计划就已制定完毕。什么时候开始分化出神经系统,什么时候长出胳膊和腿,如无意外,一切都已安排妥当。人的发育、成长像一个精密运转的开放系统,而控制这一过程的程序都在DNA里。
虽然每个人的DNA之书大同小异,但它还是独一无二的。我们每个人都是孤本!即便是同卵双生的双胞胎,他们书中的文字虽然一样,但装订却仍有差异——通过不同的表观遗传修饰,不同的X染色体失活模式(对女性来说) ,书中可被阅读的部分还是有些区别。除了后天环境的不同,DNA平均0.1%的差别也帮助造就了人类的多样性:肤色或深或浅。身材或高或矮;有的人喜欢熬夜,有的人喜欢早起;有的人对咖啡敏感,有的人嗜酒如命;有的人爆发力强,有的人善于长跑;有的人注定在55岁之前得阿尔兹海默症(请参阅拙作《百年孤独,百年求索》),有的人则可以长命百岁。
这本书并不完美。我们人类生理上的优点和缺点都在书中埋下伏笔。这本书太过复杂。科学家们还在苦苦研读它,希望能够更多地了解人类,希望能够尽快找到治疗各种疾病的更有效的方法。
基因和性状、疾病
人的基因组承载了大约2万个编码蛋白的基因,占所有DNA的1.5%。之前学术界认为人类80%的DNA是垃圾(Junk DNA),没有任何功能。但现在我们已经意识到这个标签并不恰当。这些非编码DNA也有很重要的作用:调控基因的表达、编码miRNA和lncRNA、在进化压力下成为提供救命蛋白的源泉。
人的性状(trait)的呈现、疾病的形成既有遗传基础,也有环境的影响,即所谓的先天加后天 (nature + nurture)。
前文提到,人与人之间存在着平均0.1%的DNA差别。也就是说,和别人的书相比,你自己这本含有64亿字母的生命之书大约有500万个不同之处。它们大部分是单个碱基的置换(单核苷酸位点变异,SNP或SNV),星星点点散落在每个章节。多数SNP不会引起表观上或性状上的差异。少数SNP造就了我们的差异:它们有可能在非编码区,也有可能在编码区,但都会改变某些基因的表达。
这0.1%的DNA差别没有考虑染色体结构的重排,个别基因或基因片段的插入、删除或重复,也不包括DNA重复片段(比如CAGCAGCAG......)拷贝数的变化 (CNV)。这些变化有时则更重要。
哪些基因决定我们的肤色、身高和数学能力这些性状?又有哪些基因会增加我们得糖尿病、癌症的风险?基因和性状、疾病之间有着非常复杂的关系。而我们用来破译这些复杂关系的工具也经过了一个进化的历程。最原始的方法是上个世纪中叶建立的是基因连锁分析(linkage analysis),通过比较受遗传疾病影响的家族中不同成员的染色体条带或遗传标记的异同,在染色体上定位致病基因。这种方法在研究单基因遗传病(“孟德尔”式遗传病)方面取得了很多成绩,但其缺点是分辨率有限,很难准确地定位到单个基因上。
从本世纪初起,遗传学家们开始采用更系统、更全面的全基因组关联研究(GWAS)技术,以DNA芯片为主要测量手段,把遍布全基因组的成千上万个SNP通过统计和各种性状、疾病联系起来。GWAS 成为研究多基因性状/疾病的主要技术。值得注意的是,GWAS 只是建立了基因或染色体位点和性状的联系,但并不能建立因果关系。要想建立因果关系,还需要后续的生物实验去验证。
图3. 研究基因和性状、疾病之间关系的工具和技术的进化。研究单基因性状/疾病主要使用基因连锁分析和NGS;对于多基因性状/疾病,所有三种技术都可使用。
GWAS 虽然威力强大,但也有其局限性。比如它很难找到比较罕见的基因变异(次要等位基因的分布频率或MAF<5%),也不容易检测到DNA片段的删减或插入(indel),和重复片段的拷贝数的变化(CNV)。 新一代 DNA测序(NGS)不但弥补了这些缺点,而且可以帮助我们找到全新的变异,高通量地获得更多的信息。
NGS 技术近几年发展迅速,已经衍生出各种分支:基因组DNA测序和RNAseq;全基因组测序 (WGS)、全外显子组测序(WES)和靶向测序(panel) ;捕获测序(capture-based) 和扩增子测序(amplicon-based)。以 WGS 流程为例,基因组 DNA 先被切成很多个片段,这些片段再被扩增,然后每个 DNA 扩增产物被独立地、平行地测序。最后所有的DNA序列被组装、复原成完整的基因组。除了帮助研究疾病的遗传基础,NGS现在还被广泛应用到生物医药领域的各个方面,包括癌症突变分析和液体活检,潜在的药物靶点的搜索,和全人源单克隆抗体库的建立、筛查和开发。
除肤色外,身高是一个人最明显的性状。研究身高和遗传的关系也成为我们解读DNA这本书的一个试金石。
身高和遗传
身高一直是人们比较关心的话题。从古至今,虽然择偶条件随时代而变,但身高,尤其是男人的身高,对其在婚姻市场上的定位及其重要。(矮个男青年在婚配市场上比较尴尬,需要靠其它方面弥补:或者腰缠万贯,或者像我一样才高八斗。)身高在体育场上、职场上的影响也很明显。 前45位美国总统的中位身高为1米82。
测量身高比较简单,而且指标是客观的、定量的。另外,由于身高是所有临床研究中必测的一个指标,即使不是以身高为研究对象的科研项目也可以进行后续分析。这给研究身高的遗传基础提供了大量的实验数据。
经过多年的研究,遗传学家现在公认的结论是身高是一个多基因复杂性状。 遗传因素决定身高差异的80%,而后天环境只影响20%。遗传是决定身高差异的主导因素的一些证据最开始来自于观察:高个父母生的孩子一般也是高个子;同卵双生的双胞胎即使在出生后立刻分开,他们的成人身高也会差不多(相关系数为0.8-0.9,1代表完全相同);血缘关系越近,身高的相关性也就越强(比如,兄弟姐妹的相关性高于表亲堂亲的相关性)。环境的影响主要来自营养、经济水平甚至自然环境等。一个很有意思的现象是基因和环境的相互作用。欧洲人平均身高较高的一个原因是他们对奶制品(高质量蛋白)的食用量高于其他地区的人。而这一原因又是由两个因素相互作用而成:环境因素是畜牧业的发达,遗传因素是他们的乳糖酶基因发生了突变,在童年之后仍能有效消化乳糖。
基因、性状和疾病三者之间有着复杂的关系。有时决定某一性状的基因变本往往也会增加某些疾病的风险。身高作为一个复杂的性状,与某些疾病也有相关性。比如,个高的人得乳腺癌、结肠癌和胰腺癌的风险高于个矮的人,而个矮与二型糖尿病、心脏病和骨关节炎的风险有正相关性。
我们一直在寻找身高的遗传因素。哪些是高个基因,哪些是矮个基因?但遗憾的是,我们到现在都还没有找到占主导地位的候选基因——那种拥有了一个变异版本,就可以让你多长10厘米的基因。我们发现,与身高有关的基因至少有数千个,其中对身高差异的贡献超过3厘米的基因变本则凤毛麟角。
近期在这一领域比较有代表性的有两篇文献。第一篇是2014年在《自然·遗传》上由人体测量学特征的遗传学研究联盟(Genetic Investigation of Anthropometric Traits (GIANT) Consortium)发表的。这项研究充分体现了“大数据、大科学”的趋势,仅作者就有445人,合作者还有359人。他们以 GWAS为主要手段,分析了25万多人(以欧洲人为主)的SNP数据,找到了2万多个和身高相关联的常见SNP(次要等位基因频率或MAF不低于5%),可以解释约20%的身高遗传性。其中697个SNP统计意义最为突出,它们集中在423个位点附近,涉及的基因很多与软骨代谢、骨骼生长有关。结合历史数据,所有已知的常见SNP可以解释人与人之间身高差别的50%,或遗传影响的62.5%。
图4. 2014年《自然·遗传》的这篇论文显示,对身高影响较大的SNP或基因的表达多富集在骨骼系统里。竖轴代表统计学意义。
如果说2014年的那篇论文主要关注的是常见的基因变本(MAF>5%)和非编码区,那么在2017年另一篇由 GIANT 联盟(380名作者)发表在《自然》的后续论文的关注点则是不常见(MAF<5%)的基因变本和它们的编码区。作者们先通过 NGS 发现不常见的基因版本,再用以 ExomeChip 芯片为工具的基因分型技术找到了一些分布频率小但对身高有显著效果的变本。比如,文中提到基因 STC2 的一个突变导致了其编码的蛋白的一个氨基酸被置换(R44L)。这个变本在人口中只有0.1%的频率,但拥有一份拷贝可增高1.9厘米。论文中还包括 STC2 的生物功能实验,显示这个 STC2 突变蛋白增加了胰岛素样生长因子1(IGF-1)的信号传导。
图5. 2017年《自然》这篇论文找到了几个和身高有关的低频高效的基因。比如,“拔高型”的STC2基因变本,和“压矮型”的IHH,CRISPLD2和AR基因变本。横轴为次要等位基因频率或MAF,竖轴为每个基因变本对身高的影响大小。从图中还可看出,大部分基因变本对身高影响不大。
2017年这篇论文找到的新的 SNP 可以解释遗传对身高影响的额外4.1%。至此,身高差异的66%的遗传度已经找到原因,距80%的上限还有一步之遥。
图6. 随着时间的推移,我们找到决定身高的遗传因素越来越多,现已接近遗传度的上限(h2 =80%)。
值得注意的是,这两项和其它大规模的身高研究项目都是以白人为主要研究对象。靶向东亚人群的类似项目很少,其中最著名的是2010年发表的一项在韩国开展的研究。该研究表明,东亚人口和欧洲人口的身高相关基因不尽相同。比如,HMGA2 基因对韩国人身高的影响远弱于其对欧洲人身高的影响。另外,一些特有的、新的身高相关基因也在韩国人中发现。
现在让我们回到布拉德利那个项目。关于布拉德利身高的研究曾一度陷入困境,但2014年那篇《自然·遗传》论文的发表给这个项目带来了转机。
一波三折
2012年飞机上的邂逅开启了布拉德利和考威的合作,但这个项目进展并不顺利。 仅是完成项目的申请程序就花了一年多的时间——凡是涉及到人的试验都要经过层层审批,其中最关键的一步是要通过机构审查委员会(IRB)的批准。等所有绿灯都亮了的时候,已经是 2014年了。布拉德利来到了考威教授的办公室抽血取样。考威团队对他的DNA 进行了全基因组外显子测序(WES),覆盖深度为 x 30(也就是说,每个位置的碱基经过平均30次独立的阅读)。NGS 流程虽然复杂,但对这些数据的处理、分析则更为耗时耗力。当时从文献上能查到的与身高有关的 SNP 只有几百个。考威团队分析了这几百个 SNP,但并没有得到什么有意义的结论。在很长的一段时间里,布拉德利的基因数据被搁置起来。考威和他的团队仍继续着许多其它科研项目。
2014年10月,GIANT 联盟的身高数据在《自然·遗传》上发表。和身高有关的 SNP 一下子增加到2万多。考威团队又重新拾起布拉德利这一项目。除了利用 GIANT 数据外,他们又调用了来自其它项目的三组大数据。第一组来自阿尔茨海默氏症遗传联盟(ADGC)的3万3千人的SNP数据。通过对这组数据的连锁不平衡(linkage disequilibrium)检定,考威团队从GIANT的2万多个身高相关的SNP中砍掉大量冗余,最后精简为2910个独立的SNP。它们代表着2910个基因。第二组数据来自在犹他州一个县开展的关于记忆健康和衰老的研究项目。第三组来自阿尔茨海默症神经影像采集数据库。从这两组数据中一共获得1020个人(以北欧人后裔为主)的全基因组测序(WGS)数据。 考威团队就开始对这1021人(1020人加上布拉德利)的2910个SNP进行分析。
这里稍微讨论一些技术细节。布拉德利项目由于没有研究基金支持,考威团队只能尽量节省开支。那1020个人的 WGS 数据是从公开的数据库直接调用的。按理说,布拉德利的 DNA 也应该测 WGS。但由于资金的问题,考威团队开始只测量了他的 WES 数据,而且覆盖深度只有30x (为了减少假阳性和假阴性,WES最好大于100x)。为了弥补这一缺陷,他们又用 HumanOmniExpress 芯片做了布拉德利一个人的 GWAS 来验证、推算(impute)、补全了这2910个 SNP。很多 SNP 在非编码区,用 WES 无法检测,只能通过 GWAS 确认。
又经过一番周折,这些分析结果终于成为论文,于2018年9月4日发表在《国际基因组学杂志》( International Journal of Genomics )上。 此时距离考威第一次见到布拉德利已经过去了6年。在此期间,考威在事业上、学术上成果斐然。他发表了70多篇论文,已从助理教授升为副教授、正教授,并成为 BYU 生物系的系主任。他的家庭也增添了新的成员——在关于布拉德利论文被反复修改的时候,考威的第5个孩子出生了。
布拉德利身高的秘密
在这篇论文中,他们把疾病的遗传基础研究中的手段借鉴过来,其中最主要的是多基因评分(polygenic score)。这个工具的优势是在没有占主导地位的性状/致病基因时,可以把众多的微效基因的功效综合起来。
让我们用一个简单的例子来看一下多基因评分是怎样计算出来的(表一)。假设有4个基因与身高有关:1、2、3和4。基因1有两种等位基因版本A和a。A是最常见的,即主要等位基因,也就是说大多数人都携带A的至少一个拷贝。它的出现对携带者身高与平均身高的差异既没有负影响,也没有正影响。所以A的携带对身高的贡献为0。但次要等位基因a则不然,GWAS 发现有一份拷贝的a的人的平均身高比所有人的平均身高多出2厘米。那么具有 Aa 异型等位基因的人由基因1贡献的分就是2厘米 x 1 = 2厘米,而具有aa纯合的人在基因1上的得分就是2厘米 x 2 = 4厘米。一个次要等位基因对身高的贡献也有可能是负值,比如表中的c和d。最后我们把各个基因得分相加,就得到多基因评分。这个总得分加在相应人群的平均身高上,就是用基因组预测的个人身高。我们这里假设主要等位基因对身高差异的贡献为零。如果老王的基因型是AABBCCDD(即全是主要等位基因),如果不考虑环境的影响,他理论上的身高就是相应人群的平均身高。
表1. 计算多基因评分的一个例子。
在布拉德利的项目中,每个人的多基因评分就是用类似的计算方法算出来的,只不过4个基因被扩展到2910个。计算结果:其他1020人的平均分为0.98,而布拉德利的身高分为10.32!布拉德利的理论身高遥遥领先于其他人——第二个最高分仅为7.43。
图7. 布拉德利和其他1020人的身高分的分布。箭头所指的是布拉德利。(图片来源: 参考文献9)
文章最主要的一个结论就是布拉德利虽然没有自己独特的基因变本,但是却具有罕见的组合。文章中把布拉德利和其他人的身高分又进一步拆分。与一般人相比,他有更多的“拔高型”的同型等位基因,而其“压矮型”的同型等位基因的数量要少得多 (少了149对)。也就是说,布拉德利个子高最主要的原因是他少了很多“压矮型”纯合基因拖后腿。
图8. 布拉德利和其他人身高分组成的比较。最大的差异来自“压矮型”同型等位基因的负贡献。
考威估计产生布拉德利这种基因组合的概率为10-30。考威说,很多人误解了这个说法。这个接近为零的概率是把布拉德利当作一个孤立的样本,根据每个等位基因的频率计算出来的。但如果我们考虑社会学和生物学的一个现象——选型交配(assortative mating),布拉德利这种基因组合的可能性就不那么吓人了。
选型交配是指一般人倾向于找和自己差不多的配偶。比如高个找高个,矮个找矮个。我能想到的解释选型交配最形象的是在网上看到的一个笑话:长颈鹿嫁给了猴子,但不到一年长颈鹿就提出离婚。婚姻调节员向双方询问原因。长颈鹿抱怨说,“他一点儿稳当劲儿都没有,整天上蹿下跳的!” 猴子大怒:“离就离!这日子我也过得够够了,要想和她亲个嘴还得爬树!”
布拉德利的出生也是数代的选型交配的结果。他的父亲身高2米03,他的母亲身高1米83。他的父母的身高也部分解释了为什么布拉德利有那么多的“拔高型”纯和等位基因和那么少的“压矮型”纯和等位基因——每对纯和等位基因中,一份等位基因来自父亲,另一份相同的等位基因来自母亲。
一个随之而来的问题是,布拉德利有哪些同型等位基因?考威解释道,为了保护布拉德利的隐私,他不便披露他的基因型具体的数据。也恰恰是因为这一点,当时他们投稿给几家著名期刊,没有被接受。论文最后发表在一个影响力并不大的期刊上。
多基因评分的改进空间
多基因评分成功地预测了布拉德利的身高排名,但没有准确计算出他的具体身高。按着得分,他的身高应为1米88(美国男性平均身高1米78加上10.32厘米)。事实上,多基因评分对普通人身高的预测性也很差。 这可能有三个原因:
1) 考威团队的身高分是建立在已知的SNP上。或许一些罕见的、高影响的基因变本还没有被发现,而布拉德利携带着几个这样的基因。
2) 基因并不是决定身高的全部因素。环境还有20%的影响。虽然布拉德利的兄弟姐妹都很高,但他最高的弟弟只有2米08,比他矮了20厘米。考威猜测像布拉德利这样的罕见身高,除了在基因型上中了彩票,某些未知环境因素的助力也发挥到了极致。
3) 多基因评分还是一个很原始的工具,仍然需要不断改进。现在学术界的主导看法是,身高的遗传基础是累加性(additive) 的,即各个基因的影响简单地线性叠加,综合在一起决定身高。多基因评分也是按照这个假设设计的。但考威认为这一假设值得推敲。身高的遗传因素中还应该包括异型等位基因之间的相互作用(dominance),和不同基因之间的协同效应(epistasis)。多基因评分的计算方式也要相应地做出调整。
也许在不久的将来,我们可以用人工智能取代多基因评分。我们输入几十万人的基因型数据和身高,让计算机自己一层层地计算、摸索,找到最佳预测模型。人工智能的优势是能够帮助我们研发出比多基因评分更准确的预测工具。但它的缺点是像一个黑盒子:我们很难弄清其内部的逻辑关系,无法轻易地获得新的知识和洞见。
布拉德利项目给我们的另一个启示是,探索基因和疾病关系的数据、方法可以轻易地借鉴到身高的研究领域里。反之亦然。事实上,研究身高的最大意义就是它为我们提供了一个演习的沙盘,让我们把 NGS、连锁不平衡检定、多基因评分等各种工具不断改进,从而探索出新的规律,并最终把发现到的新的手段和思路引进到疾病研究中。
后记
几个月前,考威把自己的唾液样品寄给了 ancestry.com(23andMe公司的竞争对手)。两个月之后,他在网上看到了自己的基因型测量和分析结果:他有8%的中国血统!当然考威本人并不吃惊。他是在夏威夷出生、长大的;他父亲的爷爷是中国人;他的父亲会讲流利的中文。
在关于布拉德利项目的论文发表几天后,《华尔街日报》也介绍了这一结果。在报道中,考威提到只有布拉德利一个人的极值样本还是不够。他们还需要更多的、特别高特别高的人的参与。他热烈欢迎姚明或“大鲨鱼”奥尼尔与他联系。虽然到目前为止,还没有NBA前明星或现役球星做出任何回应,但那篇报道也起到了一定的效果——几个极高的志愿者联系了他,并参与了测序。这些结果将放在他的下一篇论文中。
在《华尔街日报》网站的那篇文章下面的读者留言中有一段对话引起了我的注意。翻译如下:
“我得和那位教授联系。有一个问题一直困扰着我:我为什么如此英俊潇洒、温文尔雅、魅力四射,而且还特别谦虚?”“请告诉我你的测试结果……你去我就不用去了。”图9. 《华尔街日报》网站的那篇文章(参考文献2)下面的读者对话。
2019年3月22日,《华尔街日报》发表了另一篇关于身高的文章。在上一世纪50年代,美国人的平均身高还是全世界领先,但在过去的几十年里一直落后于荷兰。报道试着去找到这一趋势的原因。在排除了经济和种族等因素后,文章并没有给出明确的结论。一个有趣的现象是,和美国人相比,荷兰人的青春期的生长高峰开始较晚,持续时间较长。
图10. 荷兰男人的平均身高在上个世纪50年代中期开始超过美国,在过去几十年一直领先。美国的身高曲线只包括了欧洲裔人口。(图片来源:参考文献9)
在评论区,一位读者大胆地提出了他的科学假说:“荷兰的很多地区处于海平面以下,在历史上经常发洪水。结果个矮的人都淹死了,幸存下来的都是个高的人。”
参考文献
1. Cho, Y. S., et al. (2009). "A large-scale genome-wide association study of Asian populations uncovers genetic factors influencing eight quantitative traits." Nat Genet 41: 527.
2. Cohen, B. (2018). "Shawn Bradley Is Really, Really Tall. But Why?" The Wall Street Journal.
3. Dudbridge, F. (2013). "Power and predictive accuracy of polygenic risk scores." PLoS Genet 9(3): e1003348.
4. Kim, J.-J., et al. (2009). "Identification of 15 loci influencing height in a Korean population." Journal Of Human Genetics 55: 27.
5. Koboldt, D. C., et al. (2013). "The next-generation sequencing revolution and its impact on genomics." Cell 155(1): 27-38.
6. Marouli, E., et al. (2017). "Rare and low-frequency coding variants alter human adult height." Nature 542(7640): 186-190.
7. Mattson, D. L. (2018). "Genetics: An integrated genetic analysis of disease." Nat Rev Nephrol 14(5): 287-288.
8. McEvoy, B. P. and P. M. Visscher (2009). "Genetics of human height." Econ Hum Biol 7(3): 294-306.
9. McGinty, J. C. (2019). "Who's the Tallest of Them All? It's No Longer the Americans." The Wall Street Journal.
10. Ridley, M. (2000). Genome: The Autobiography of A Species in 23 Chapters, HarperCollins Publishers.
11. Sexton, C. E., et al. (2018). "Common DNA Variants Accurately Rank an Individual of Extreme Height." Int J Genomics 2018: 5121540.
12. Visscher, P. M. (2008). "Sizing up human height variation." Nat Genet 40: 489.
13. Visscher, P. M., et al. (2010). "From Galton to GWAS: quantitative genetics of human height." Genet Res (Camb) 92(5-6): 371-379.
14. Wood, A. R., et al. (2014). "Defining the role of common variation in the genomic and biological architecture of adult human height." Nat Genet 46(11): 1173-1186.
15. Yang, J., et al. (2010). "Common SNPs explain a large proportion of the heritability for human height." Nat Genet 42: 565.
16. Yang, J., et al. (2011). "Genome partitioning of genetic variation for complex traits using common SNPs." Nat Genet 43: 519.
17. Zhuang, X., et al. (2019). "Molecular mechanism and history of non-sense to sense evolution of antifreeze glycoprotein gene in northern gadids." Proc Natl Acad Sci U S A.
18. Ziogas, D. E., et al. (2018). "Next-generation sequencing: from conventional applications to breakthrough genomic analyses and precision oncology." Expert Rev Med Devices 15(1): 1-3.
本文首发于《礼来亚洲资本》,《知识分子》获授权转载。
制版编辑 | 皮皮鱼