Skip to content

Latest commit

 

History

History
executable file
·
448 lines (248 loc) · 69 KB

昆虫比较基因组分析及化学感受受体的鉴定.md

File metadata and controls

executable file
·
448 lines (248 loc) · 69 KB

昆虫比较基因组学及化学感受受体基因家族的鉴定分析

[toc]

引言

​ 昆虫种类繁多、形态各异,属于节肢动物门昆虫纲,是地球上数量最多的动物群体,已发现超过100万种,它们的踪迹几乎遍布世界的每一个角落。昆虫在其生态系统中发挥着重要的作用,如蜜蜂可以帮助开花植物授粉。而蜜蜂采集的蜂蜜,也是人们喜欢的食品之一。另一方面,许多草食性昆虫对农作物也造成巨大破坏,一些寄生性昆虫则把疾病传染给人类。过去的昆虫学研究主要集中于生理学,生物化学和分子生物学,而在过去的20年间,随着2000年果蝇基因组测序完成,昆虫学研究进入了组学时代。随着测序技术和组装方法的不断发展,出现了基因组,转录组,代谢组,蛋白质组,甲基化组,单细胞转录组等各种各样的组学技术。

​ 基因组学是研究基因的结构,功能,进化,比对和编辑。基因组是生物体完整的DNA集合,包括其所有基因。而基因组学则旨在对所有生物基因,它们之间的相互关系以及对生物的影响进行集体表征和定量分析。基因可以在酶和信使分子的帮助下指导蛋白质的生产。反过来,蛋白质组成诸如器官和组织的身体结构,并控制化学反应并在细胞之间传递信号。基因组学还涉及通过使用高通量DNA测序和生物信息学来组装和分析整个基因组的功能和结构,从而对基因组进行测序和分析1

​ 比较基因组学是从基因结构,共线性和基因家族等方面分析相关物种或同一物种的不同个体的基因组序列,揭示不同物种之间基因家族的收缩和扩张,基因的起源和进化,从而阐明重要特征的分子机制。比较基因组学主要利用基因组序列间的比对,寻找基因组间的同源基因,并计算这些序列的保守程度,将基因型与表型结合起来,研究分子进化以及种群遗传学等。

​ 昆虫生活在十分复杂的化学环境中,它们主要依赖外周化学感受系统来定位寄主,交配以及产卵。一旦气味分子通过感器表面微孔进入淋巴液,与气味结合蛋白 (odorant-binding protein,OBP)或化学感受蛋白(chemosensory protein,CSP)结合,到达嗅觉感受神经元(OSN,olfactory sensory neuron)细胞膜周围,激活膜上气味受体(odorant receptor,OR),OR 将化学信号转化为电信号并传递至触角叶和侧角等高级中枢神经系统进行处理,同时气味分子被气味降解酶(odorant-degrading enzyme,ODE)降解,昆虫对气味产生行为反应2。 在此过程中,涉及到的基因家族主要包括 OBP、OR、IR、CSP、ODE 以及感觉神经元膜蛋白(sensory neuron membrane protein,SNMP)等。相对于嗅觉,目前昆虫味觉的研究较少,已知的过程是化学物质进入味觉感器后直接与味觉受体(gustatory receptor, GR)结合并被转化为电信号,传入中枢神经系统,指导昆虫做出反应3

​ 虽然在哺乳动物和线虫中,嗅觉受体早已鉴定到,但由于嗅觉受体基因间的相似性较低,很难通过同源克隆的方式去鉴定。果蝇基因组测序完成后,研究人员利用蛋白结构搜索的方式,鉴定到了许多化学感受受体和蛋白456。随着越来越多的昆虫基因组和转录组得到了测序,许多昆虫的化学感受受体和蛋白得到鉴定。

1. 测序技术发展概述

主要介绍测序技术的发展历史以及各个测序方法和测序仪的比较。

DNA测序是指确定一条DNA链上A,T,G,C四种脱氧核苷酸的位置和顺序的过程。根据目前市面上的主流测序技术根据测序原理,可分为“双脱氧末端终止法测序”(Chain-terminating dideoxynucleotides),“短读长大规模平行测序”(Short read massive parallel sequencing)和“单分子实时测序”(Single molecule real-time sequencing)。

1.1 双脱氧末端终止法测序

Sanger 测序

​ 1977年,Frederick Sanger和他的同事开发了链终止测序技术,也称Sanger测序。该方法基于体外DNA复制过程中通过DNA聚合酶选择性掺入链终止的双脱氧核苷酸。包括DNA碎片化,PCR扩增和体外克隆,ddNTP测序以及凝胶电泳。

​ 测序反应需要单链DNA模板,DNA引物,DNA聚合酶,正常的脱氧核苷酸三磷酸(dNTPs)和修饰的二脱氧核苷酸三磷酸(ddNTPs),后者可终止DNA链延长。这些终止链的核苷酸缺少在两个核苷酸之间形成磷酸二酯键所需的3'- OH基团,当掺入修饰的ddNTP时,导致DNA聚合酶停止DNA的延伸。可以对ddNTP进行放射性标记或荧光标记,以在自动测序仪中进行检测。将DNA样品分为四个单独的测序反应,其中包含所有四个标准脱氧核苷酸(dATP,dGTP,dCTP和dTTP)和DNA聚合酶。向每个反应仅添加四个双脱氧核苷酸之一(ddATP,ddGTP,ddCTP或ddTTP),而其他添加的核苷酸是普通脱氧核苷酸。脱氧核苷酸的浓度应比相应的双脱氧核苷酸的浓度高约100倍,以产生足够的片段7。在此过程中需要四个单独的反应来测试所有四个荧光标记的ddNTP。从结合的引物上进行几轮模板DNA延伸后,将所得到的DNA片段进行热变性并使用凝胶电泳按大小进行分离。然后可以通过放射自显影使DNA条带显示荧光,并可以直接从DNA序列中读取DNA序列。

​ Sanger测序被称为测序行业的“金标准”,每个反应可以得到700-1000bp的序列,序列长度高于短读长大规模平行测序,单个反应价格低廉,测序准确性高。但每次只能进行一个反应,通量低,而且大规模测序成本高,费时。目前,Sanger测序主要应用在DNA克隆测序,基因突变验证,基因分型以及临床诊断等。

Estevezj, CC BY-SA 3.0 , via Wikimedia Commons

1.2 短读长大规模平行测序

大规模并行测序是使用大规模并行处理的概念进行DNA测序的几种高通量方法中的任何一种。也称为下一代测序(NGS)或第二代测序。其中包括Roche公司的454测序、illumina公司的Hiseq/Novaseq测序、ABI公司的SOLID测序以及华大智造的组合探针锚定合成(cPAS)测序。Roche公司的454测序系统是第二代测序技术中第一个商业化运营的测序平台,而illumina收购Solexa公司后,其市场份额达到70%以上。

Roche-454测序

​ 454 Life Sciences是一家位于康涅狄格州布兰福德的生物技术公司,专门从事高通量DNA测序, 但该技术于2007年Roche收购,并于2013年因技术失去竞争力而被罗氏(Roche)关闭。

​ 它利用大规模并行焦磷酸测序系统,该系统每10个小时可在带有GS FLX Titanium系列试剂的Genome Sequencer FLX上测序约400-600兆碱基的DNA。该系统依靠将雾化的和衔接子连接的DNA片段固定在油包水乳液中的小DNA捕获磁珠上。然后,通过PCR扩增固定在这些珠子上的DNA 。每个DNA结合磁珠放入约29微米的PicoTiterPlate中,它是一个光纤芯片。酶的混合物(例如DNA聚合酶,ATP硫酰化酶和荧光素酶)也放入其中。然后将PicoTiterPlate放入GS FLX系统中进行测序。

1. Preparation 454测序技术利用喷雾法将待测DNA打断成300-800bp长的小片段,并在片段两端加上不同的接头,或将待测DNA变性后用杂交引物进行PCR扩增,连接载体,构建单链DNA文库。

2. Emulsion PCR 在PCR反应前,将包含PCR所有反应成分的水溶液注入高速旋转的矿物油表面,形成被矿物油包裹的无数个小水滴,每一个小水滴即为一个独立的PCR反应空间,理想状态下,每一个小水滴只包含一个DNA模板和一个磁珠,磁珠表面含有与接头互补的DNA序列,经过PCR扩增后,磁珠上会富集大量序列相同的PCR产物,从而达到测序所需DNA量的要求。

3. Sequencing 测序时,需将磁珠固定在特制的PTP平板上。这种平板上含有许多直径约为44μm的小孔,每个小孔仅能容纳一个磁珠,通过这种方法来固定每个磁珠的位置。

启动测序反应后,每次向PTP平板中加入一种dNTP,如果能与待测序列配对,则会在碱基连接在模板上之后释放焦磷酸,焦磷酸通过ATP硫酸化学酶激活荧光素酶产生荧光,通过PTP板另一侧的CCD照相机记录荧光,从而确定目的模板的核酸序列。

该方法的局限性在于,DNA序列的单个读段的长度在300-500个核苷酸附近,比链终止法(例如Sanger测序)可获得的800-1000短。这会使基因组组装过程更加困难,尤其是对于包含大量重复DNA的序列而言。缺乏校对活动限制了该方法的准确性。

454 sequencing

ABI-SOLID测序

​ SOLID测序通过寡核苷酸连接和检测测序是Life Technologies公司于2006年开发的下一代DNA测序技术,在同一时间读取产生10 8 - 10 9短序列。它使用2种基本编码将测序平台生成的原始数据解码为序列数据。

​ 从要测序的样品中制备DNA片段文库,并用于制备克隆珠子群体。即,每个磁珠的表面上将仅存在一种碎片。附着在磁珠上的片段将附着一个通用的P1衔接子序列,因此每个片段的起始序列都是已知且相同的。乳液PCR在含有所有必需的PCR试剂的微型反应器中进行。然后将附着于珠子的所得PCR产物共价结合至载玻片。

​ 引物与文库模板内的P1衔接子序列杂交。一组四个荧光标记的双碱基探针竞争与测序引物的连接。通过查询每个连接反应中的每个第1个和第2个碱基来实现双碱基探针的特异性。进行连接,检测和切割的多个循环,其中循环数决定了最终的读取长度。在一系列的连接循环之后,去除延伸产物,并用与n-1位置互补的引物将模板复位,进行第二轮连接循环。

​ 每个序列标签完成五轮引物重置。通过引物重置过程,每个碱基在两个独立的连接反应中被两个不同的引物询问。例如,在连接循环2中通过2号引物和在连接循环1中通过3号引物测定读取位置5的碱基。

Library_preparation_for_the_SOLiD_platform

据报道,该机器使用的方法(连接测序)在回文序列的测序上存在一些问题。

Illumina(Solexa) 测序

​ Solexa现在是Illumina的一部分,由Shankar Balasubramanian和David Klenerman于1998年创立,并开发了一种基于可逆染料终止剂技术和工程聚合酶的测序方法。可逆终止化学概念是由巴黎巴斯德研究所的布鲁诺·卡纳德(Bruno Canard)和西蒙·萨法蒂(Simon Sarfati)发明的。

​ Illumina测序采用边合成边测序(sequence by synthesis, SBS)。Illumina测序技术分三个基本步骤工作:扩增,测序和分析。该过程从纯化的DNA开始。将DNA片段化,并添加衔接子(adapters),它是一段在扩增,测序和分析过程中充当参考点的片段。将修饰的DNA加载到流通池(flow cell)中,在此处进行扩增和测序。流动池包含纳米孔,可以隔开片段并避免过度拥挤。每个纳孔均包含寡核苷酸,可为衔接子提供锚定位置。一旦片段附着,就开始了一个称为簇生成的阶段。该步骤产生每个DNA片段约一千个拷贝,并通过桥式扩增PCR完成。接下来,将测序引物和修饰的核苷酸冲洗到芯片上。这些核苷酸具有可逆的3'荧光阻滞剂,因此DNA聚合酶一次只能将一个核苷酸添加到DNA片段上。在每轮合成之后,相机会为芯片拍照。计算机根据荧光标记的波长确定添加了哪些碱基,并记录在芯片上的每个斑点上。在每一轮之后,未结合的分子被洗掉。然后使用化学解封闭步骤去除3'荧光末端封闭基团。该过程继续进行,直到对完整的DNA分子进行测序。借助这项技术,通过大规模并行测序可一次对整个基因组中的数千个位置进行测序。

Next-Generation Sequencing Chemistry Overview

​ 克隆扩增结束时,将所有反向链从流通池中冲洗掉,仅留下正向链。引物附着于正链衔接子引物结合位点,聚合酶将荧光标记的dNTP添加至DNA链。由于荧光基团起封闭基团的作用,每轮只能添加一个碱基。但是,封闭基团是可逆的。在使用四色化学方法中,四个碱基中的每一个都有唯一的发射荧光,并且在每轮之后,机器会记录添加了哪个碱基。记录颜色后,将洗去荧光基团,并在流通池上加入另外一个dNTP,然后重复该过程。dATP,dTTP,dGTP和dCTP分别冲洗到流动池中,因此可以鉴定出每个核苷酸。从后来推出NextSeq和MiniSeq开始,Illumina引入了新的双色测序化学。核苷酸的特征是两种颜色(红色或绿色)中的任何一种,无颜色(“黑色”)或两种颜色组合在一起(橙色显示为红色和绿色的混合物)。

​ 读取DNA链后,将刚添加的链洗掉。然后,index1引物附着,聚合index1序列,然后被洗去。该链再次形成桥,并且DNA链的3'末端附着在流动池上的一个寡核苷酸上。index2引物附着,聚合序列并被洗去。聚合酶在弓形链的顶部对互补链进行测序。它们分开,每条链的3'末端被封闭。正链被洗掉,并且合成过程重复了反向链的过程。

Sequence_By_Synthesis

Adapters

​ 从原理上说,桑格测序与新一代测序(NGS)技术背后的概念是相似的。在NGS和桑格测序(也称为双脱氧测序或毛细管电泳测序)的过程中,DNA聚合酶会将有荧光的核苷酸逐个添加到正在延长的DNA模板链上。通过荧光标记识别每个掺入的核苷酸。

​ 桑格测序与NGS的主要差异在于测序量。桑格测序一次只能对一条DNA片段进行测序,而NGS可以进行大规模平行测序,每次运行可同时对数百万个片段进行测序。这意味着这样的高通量过程一次可对数百到数千个基因进行测序。NGS还具有更强的探索能力,可以通过深度测序检测新型或罕见变异。

​ Illumina测序序列读长较短,最长为250-300bp;由于建库中利用了PCR富集序列,因此有一些含量较少的序列可能无法被大量扩增,造成一些信息的丢失,且PCR过程中有一定概率会引入错配碱基;想要得到准确和长度较长的拼接结果,需要测序的覆盖率较高,导致结果错误较多和成本增加。

组合探针锚定合成(cPAS)测序

此方法是Complete Genomics描述的组合探针锚定连接技术(cPAL)的升级改进,此技术已于2013年成为中国华大基因公司(BGI)的一部分。两家公司已对该技术进行了改进,以允许更长的阅读时间。长度,缩短反应时间并缩短获得结果的时间。

​ 构成此高通量测序技术基础的两种技术是DNA纳米球(DNB)和用于将纳米球附着到固体表面的图案化阵列。简单地通过使双链,衔接子连接的文库变性并仅将正向链与夹板寡核苷酸连接以形成ssDNA环,即可形成DNA纳米球。使用滚环扩增技术产生包含DNA插入片段的环的真实副本,可产生约300-500份副本。ssDNA的长链自身折叠以产生直径约为220 nm的三维纳米球结构。制备DNB代替了在流通池上生成文库的PCR副本的需要,因此可以消除大部分重复读段,衔接子-接头连接和PCR引起的错误。

​ 带正电荷的斑点的带图案的阵列是通过光刻和蚀刻技术制造的,然后进行化学修饰以生成测序流动池。流通池上的每个点的直径约为250 nm,相隔700 nm(从中心到中心),并且可以轻松地将单个带负电荷的DNB连接到流通池,从而减少流通池上的簇集不足或簇集。然后通过添加寡核苷酸探针进行测序,所述寡核苷酸探针与DNB内的特定位点结合在一起。探针充当锚,然后在流过流通池后,允许四个单个可逆灭活的标记核苷酸之一结合。未结合的核苷酸会被冲洗掉,然后再用激光激发附着的标记,然后发出荧光,并通过摄像头捕获信号,然后将其转换为用于碱基检出的数字输出。附着的碱基的终止子和标记在循环完成时被化学裂解。整个流动池中的另一条自由标记的核苷酸流重复该循环,以允许下一个核苷酸结合并捕获其信号。

离子半导体测序

​ 离子半导体测序是基于DNA聚合过程中检测氢离子的变化的方法。这是一种“通过合成测序”的方法,其间基于模板链的序列构建互补链。由Ion Torrent Systems Inc.开发,并于2010年2月发布。

​ 将脱氧核糖核苷三磷酸酯(dNTP)掺入到正在生长的DNA链中涉及共价键的形成以及焦磷酸和带正电的氢离子的释放。 dNTP仅在与前导未配对模板核苷酸互补时才被掺入。离子半导体测序通过确定向反应提供单一种类的dNTP后是否释放氢离子来利用这些事实。

2000px-DNTP_nucleotide_incorporation_reaction.svg

半导体芯片上的微孔,每个微孔包含要测序的一个单链模板DNA分子的许多拷贝,DNA聚合酶依次被未修饰的A,C,G或TdNTP淹没。如果导入的dNTP与模板链上的下一个未配对核苷酸互补,则它会通过DNA聚合酶掺入正在生长的互补链中。如果引入的dNTP不互补,则不会掺入,也不会发生生化反应。反应中释放的氢离子会改变溶液的pH,这可以通过ISFET进行检测。当引入不同的dNTP物种时,未附着的dNTP分子在下一个循环之前被洗掉。

2000px-DNTP_nucletide_incorporation_events.svg

​ 离子半导体测序的主要好处是测序速度快,前期和操作成本低。通过避免修饰核苷酸和光学测量可以实现这一点。如果均聚物重复相同的核苷酸(例如TTTTT)存在于模板链(待测序的链)上,然后引入多个引入的核苷酸,并且在单个循环中释放更多的氢离子。这导致更大的pH变化和成比例的更大的电子信号。这是系统的局限性(454测序也存在这个问题),该系统的另一个限制是与其他测序方法(如Sanger测序或焦磷酸测序)相比,读取长度短。

2000px-DNTP_incorporation_hydrogen_magnitude.svg

Helicos单分子荧光测序

​ Heliscope测序是Helicos Biosciences开发的单分子测序方法。它使用带有添加到流动池表面的poly-A尾衔接子的DNA片段。下一步涉及基于延伸的测序,其中流通池的循环洗涤带有荧光标记的核苷酸(与Sanger方法一样,一次为一种核苷酸类型)。读取由Heliscope测序仪执行。读数很短,平均35 bp。这项技术特别新颖的是,它是同类中第一个对未扩增的DNA进行测序的方法,因此可以防止与扩增步骤相关的任何读取错误。2009年,使用Heliscope对人类基因组进行了测序,但是在2012年,该公司破产。

​ 单分子测序策略简化了DNA样品的制备过程,避免了PCR引起的偏差和错误,简化了数据分析。由于每个延伸过程都要终止一次,所以单个碱基的测序时间延长,而且每次只能测32个核苷酸。

1.3 单分子实时测序

PacBio

​ Single-molecule real-time sequencing(SMRT)单分子实时测序是一种并行的单分子DNA测序方法。单分子实时测序利用零模式波导孔(ZMW)。单个DNA聚合酶以单个DNA分子为模板固定在ZMW的底部。ZMW是一种纳米光子封闭结构,它由沉积在透明二氧化硅基板上的铝覆膜中的圆形孔组成,它的体积足够小,只能观察到DNA聚合酶掺入DNA的单个核苷酸。四个DNA碱基中的每一个均与四种不同荧光染料之一相连。当核苷酸被DNA聚合酶掺入时,荧光标记被切割掉并扩散到ZMW的观察区域之外,在该区域不再可以观察到其荧光。检测器检测核苷酸掺入的荧光信号,并根据染料的相应荧光进行碱基识别。

​ 对于每个核苷酸碱基,都有一个相应的荧光染料分子,该分子可使检测器在执行DNA合成时识别被DNA聚合酶掺入的碱基。荧光染料分子连接到核苷酸的磷酸链上。当核苷酸被DNA聚合酶掺入时,作为天然DNA合成过程的一部分,荧光染料会被磷酸酯链切割掉,在此过程中会生成磷酸二酯键以延长DNA链。然后,裂解的荧光染料分子扩散出检测体积,从而不再检测到荧光信号。

Principle of single-molecule, real-time DNA sequencing.

目前,Pacbio测序仪最新型号为Sequel II,每个SMRT cell可以容纳八百万(8M)个ZMWs,该测序仪有两个测序模式,continuous long reads (CLR)和Circular Consensus Sequence (CCS)。对于continuous long reads (CLR)模式,平均读长 15-30 kb ,可以产生250GB的数据量。而HiFi reads是使用循环共有序列(CCS)模式产生的数据类型。HiFi读取可提供基本水平的分辨率,单分子读取精度> 99.9%。对于HiFi reads(Circular Consensus Sequence (CCS)),平均读长 10 kb可以产生50GB的数据(>Q20)。

PacBio技术的优点:

  1. 无需PCR扩增,不会人为的引入突变;
  2. 超长读长,平均读长可达到10Kb,最长读长可以达到40Kb;
  3. 覆盖均匀,无GC偏好性;
  4. 通过reads的自我矫正,10X以上准确率能够达到99.9%;
  5. 可以直接检测到甲基化信息,同步进行表观遗传学识别。

PacBio技术的缺点:

  1. 单条序列错误率较高,平均核苷酸准确性不到85%(CSS>99%)
  2. 测序成本较贵。
  3. 该技术得到的序列读长主要跟DNA聚合酶的活性有关,它主要受激光对其造成的损伤所影响。

目前,通过Pacbio测序广泛应用于基因组组装,全场转录组分析以及甲基化分析等。

HiFi reads

Nanopore

牛津纳米孔测序是一项独特的可扩展技术,可对长DNA或RNA片段进行直接,实时分析。它通过监测核酸通过蛋白质纳米孔时电流的变化来工作。解码得到的信号以提供特定的DNA或RNA序列。使用纳米孔测序,可以对单个分子的DNA或RNA进行测序,而无需进行PCR扩增或样品化学标记。此技术原理是电流通过电阻膜,其电阻膜上嵌有蛋白纳米孔,当DNA/RNA通过纳米孔时,会导致电流中断,一次分析确定碱基序列。

目前Nanopore测序仪包括MinION,GridION,PromethION等几款型号,其中最为常用的为MinION,包含512个纳米孔通道,其中每张芯片可以产生30Gb的数据量,reads读长超过2Mb。

Nanopore技术的优点:

  1. 可以检测结构变异和可变剪切;
  2. 能直接对RNA分子进行测序;
  3. 能对修饰过的碱基进行测序;
  4. 测序读长更长,可以达到150kb;
  5. 测序数据可以做到实时监控;
  6. 运行速度快。

Nanopore技术的缺点:

采用的是水解测序法,不能进行重复测序,因而无法达到一个满意的测序精确度。

nanopore-sequencing

测序技术的比较

Method Read length **Accuracy ** Data output per run Time per run Cost per 1 billion bases (in US$) Advantages Disadvantages
Single-molecule real-time sequencing (Pacific Biosciences) CLR: 30kb (N50);maximum read length >100kb. CSS: 13.5kb(N50);maximum read length > 25kb CLR: 87% CCS: 99.9% CLR: 200Gb CCS: 50 Gb 30 h 26 high throughput; highly accurate Equipment can be very expensive; a really high error rate (~15%)
Ion semiconductor (Ion Torrent sequencing) up to 600 bp 99.6% 100-200 Mb 2 h 66.8-​950 Less expensive equipment; Fast Homopolymer errors.
Pyrosequencing (454) 700 bp 99.9% 0.7 Gb 24 h 10,000 Long read size; Fast Runs are expensive. Homopolymer errors.
Sequencing by synthesis (Illumina) NextSeq2000: 2 x 150bp NovaSeq 6000: 2 x 250 ≥ 75%(Q30) NextSeq2000: 330Gb NovaSeq6000: 6000Gb ~48 h 11.9 High throughput; Cheap; Fast Short reads; Requires high concentrations of DNA.
Combinatorial probe anchor synthesis (cPAS- BGI/MGI) DNBSEQ-T7: 100/150bp MGISEQ-2000: 50-200bp DNBSEQ-T7: >85%(Q30) MGISEQ-2000: >75%(Q30) DNBSEQ-T7: 6Tb MGISEQ-2000: 1440Gb 20-107 h 5 Cheap; High throughput Short reads; Requires high concentrations of DNA.
Sequencing by ligation (SOLiD sequencing) 50+35 or 50+50 bp 99.9% 60Gb 1 - 2 weeks 60–130 Low cost per base. Slower than other methods. Has issues sequencing palindromic sequences
Nanopore Sequencing MinION: >2Mb. PromethION(48 flow cells): >2 Mb ~99% single read 30Gb 1 min-72 h 7–100 Longest individual reads. Accessible user community. Portable (Palm sized). Lower throughput than other machines, Single read accuracy in 90%.
GenapSys Sequencing Around 150 bp single-end 99.9% (Q30) 2.0 Gb 24 h 667 Low-cost of instrument ($10,000)
Chain termination (Sanger sequencing) 400 to 900 bp 99.9% N/A 20 min-3 h 2,400,000 Useful for many applications; High accuracy More expensive and impractical for larger sequencing projects. This method also requires the time-consuming step of plasmid cloning or PCR.

未来基因测序技术发展方向:

  • 更高效的数据产出;
  • 更准确的碱基识别方式;
  • 更稳定的测序更长序列;
  • 更简洁的测序仪器平台;
  • 更快速的文库构建过程;
  • 更便宜的测序价格;

测序技术的发展简史

1

2. 昆虫基因组研究进展

主要介绍昆虫基因组测序的数量,种类以及未来的研究方向。

​ 自从2000年果蝇基因组测序完成后,不断测序了更多的昆虫基因组。近几年随着三代测序技术的发展,昆虫基因组测序的成本和质量也得到了大幅提高。目前在NCBI上有1644个昆虫基因组测序的项目,其中899种昆虫有完整的基因组组装,577种昆虫有基因组注释。在2011年来自美国的昆虫学家们提出了“i5k”计划,该计划目的是5年时间测序1000种节肢动物的基因组,并建立一个关于节肢动物基因组项目的资源库。目前该数据库种包含476种节肢动物基因组数据。浙江大学李飞团队在2016年建立 InsectBase,该数据库整合了昆虫基因组与转录组数据。目前该数据库中有138种昆虫基因组数据。在已测序的昆虫物种中,双翅目,鳞翅目和膜翅目测序的种类最多。模式昆虫,农业昆虫,卫生昆虫以及社会性昆虫与人类息息相关,接下来将对这些具有代表性的昆虫基因组学研究进行概述。

物种名 基因组大小(Mb) Contig/Scaffold N50(Kb) number of Contig/Scaffold 测序策略 创新点

模式昆虫基因组

​ 黑腹果蝇作为研究最为深入的模式物种,其广泛应用于遗传学,生理学和微生物学等生物学研究。黑腹果蝇基因组在2000年测序完成,该基因组为180 Mb,13,600个蛋白编码基因。其中近三分之一是着丝粒周围的异染色质,由简单的重复序列组成,包括转座子元件,RNA基因簇和一些单拷贝基因。大约120 Mb的常染色质分布在II号染色体,III号染色体和X染色体上。

​ 2002美国加利福尼亚大学团队更新了第二版果蝇基因组。尽管果蝇中预测的蛋白质编码基因的数量基本保持不变,但修订后的注释显着改善了基因模型,导致85%的转录本和45%的预测的蛋白质结构发生改变。将转座子和非蛋白质编码RNA注释为新的结构,并增加了未翻译(UTR)序列和可变剪切转录本的注释,分别包含70%和20%以上的基因。最后,通过cDNA序列提供了双顺反子转录本,发现在同一DNA序列链上具有重叠UTR的相邻基因,编码不同,不重叠肽段的可变剪接基因以及众多嵌套基因。

​ 2002年更新了第三版果蝇基因组,这项工作旨在缩小gaps的数量,提高序列质量并验证组装。来自WGS的序列痕迹和单个细菌人工染色体(BAC)的草图被组装成BAC大小的片段。这些片段带来了高质量,然后结合起来构成每个染色体臂的序列。通过与指纹BAC克隆的物理图谱进行比较来验证整体组装。当前版本三的116.9 Mb常染色体基因组中,六个常染色体臂由13个scaffolds组成,共有37个序列gaps。在常染色体独特序列的区域中,版本二的错误率是20,000 bp中的一个。

​ 2007年果蝇基因组第四版发表,大多数后生动物和植物的基因组序列不完整,因为异染色质中存在重复的DNA。果蝇的异染色质区包含2000万个(Mb)适合作图,序列装配和修饰的碱基。使用可用克隆资源和组装方法,完成或改进了15 Mb异染色质区序列。我们还构建了一个基于细菌人工染色体的物理图谱,该图谱跨越13 Mb的着丝粒异染色质,而细胞遗传学图谱则将11 Mb定位在特定的染色体位置。

​ 2007年,对异染色质区序列的详细计算和手动注释,第五版果蝇果蝇基因组序列更新了24M碱基。异染色质区域至少包含230至254个蛋白质编码基因,它们在其他果蝇和更多物种中保守,还有32个假基因和13个非编码RNA。这种异染色质序列的77%以上(包括内含子和基因间区域)由片段化和嵌套的转座子以及其他重复的DNA组成。果蝇异染色质包含嵌入在这些复杂重复的“海洋”中的高度保守基因的“岛”,这可能需要特殊的表达和剪接机制。

​ 2014年果蝇基因组更新到第六版,也是目前最新一版。先前使用全基因组shotgun组装,BAC物理作图和clone-based finishing,改善了基因组常染色质部分中117-Mb序列和异染色质部分中21 Mb序列。第六版中基因组的单拷贝和中间重复区域的序列得到改进,该序列是通过使用细胞遗传学映射到有丝分裂和多聚染色体,基于clone-based finishing和BAC指纹验证,通过与cDNA序列比对对scaffolds进行排序而产生的,整合其他图谱和序列数据,并通过全基因组光学限制图谱进行验证。这些数据显着提高了参考序列的准确性和完整性,以及提高了scaffold进入染色体臂组装体的顺序和方向。 Y染色体和其他异染色质区也得到改进。新的143.9-Mb参考序列有效地利用了clone-based finishing的技术,用于比对和测序。高度重复的区域,包括大的卫星区和功能元件,如核糖体RNA基因和着丝粒,在目前的测序和组装方法中基本上是无法到达的,并且仍然表现不佳。进一步的重大改进将需要不依赖分子克隆且产生非常长reads的测序技术。

卫生害虫基因组

​ 一些昆虫对人类健康产生深远影响,因为它们是传染病的关键媒介。到目前为止,媒介昆虫的基因组测序主要来自双翅目,包括库蚊,家蝇,伊蚊和按蚊等。

​ 冈比亚按蚊是疟疾的主要媒介,疟疾每年使5亿多人丧生,并造成超过100万死亡。2002年美国的科研团队对其进行基因组测序。十倍测序深度的散弹枪测序法从冈比亚按蚊的PEST品系获得,并组装成跨越2.78M的scaffold。 303个scaffold中包括了91%的基因组;最大的scaffold是23.1M。该品系内存在大量的遗传变异,并且在基因组的相当大部分中明显存在两种频率近似相等的单倍型(“双重单倍型”)可能反映了PEST品系的近交特性。该序列保守地推断出超过400,000个单核苷酸多态性,显示出明显的双峰密度分布。对基因组序列的分析揭示了大约14,000种蛋白质编码转录本的有力证据。注意到可能与细胞粘附和免疫有关的特定蛋白家族的显著扩增。对通过供血调节的基因进行的表达序列标签分析,为深入了解食血昆虫的生理适应提供了帮助。在非洲,疟疾的可持续性控制受到传播这种疾病的按蚊的杀虫剂耐药性的上升威胁。为了更深入地了解蚊子种群的发展,2017 年Anopheles gambiae 1000 Genomes联盟对非洲15个地点的冈比亚按蚊和Anopheles coluzzii的765个标本的基因组进行了重测序,并在可访问的基因组中鉴定出超过5000万个单核苷酸多态性。这些数据揭示了复杂的种群结构和基因流动模式,并证明了原始的扩增,最近的瓶颈以及有效种群规模的局部变化。在抗药性基因中观察到了近期选择的强信号,几次扫描分布在较大的地理距离和物种之间。使用基因驱动系统控制蚊子的新工具的设计将需要考虑天然蚊子种群中高水平的遗传多样性。

​ 埃及伊蚊是黄热病和登革热的主要传播媒介,2007美国科研人员成功对其进行了基因组测序,基因组大小约为1.376Gb,约为冈比亚按蚊的基因组大小的5倍。接近50%的埃及伊蚊基因组是由转座子组成的,导致平均基因长度和基因间隔区域相对于冈比亚按蚊和黑腹果蝇增加约4至6倍。尽管蚊子之间的直系同源基因顺序比两者之间和果蝇之间的直系同源基因顺序的保守性更高(约2倍),但在这三种昆虫中通常都保持着染色体的一致性。相对于冈比亚按蚊,编码气味结合,细胞色素P450和表皮结构域的基因增加,这些蛋白家族的成员是两种蚊子之间某些生物学差异的基础。

​ 在节肢动物传播媒介中,蜱虫传播最广泛的人类和动物病原体,从而导致全球范围内越来越多的疾病。2020年北京市微生物与流行病学研究所的团队对6种硬蜱虫基因组进行了测序和组装,并进一步重新测序了678个样本,以了解其遗传多样性,种群结构和病原体分布。对蜱虫遗传基础的研究,包括血红素和血红蛋白消化,铁代谢和活性氧自由基,并首次揭示了不同蜱虫物种的遗传结构和病原体组成主要受生态和地理因素影响。进一步确定了与不同寄主范围,生命周期和分布有关的特定物种决定因素。这项研究的发现是研究和控制蜱虫和其传播疾病的宝贵资源。

​ 成年家蝇(Musca domestica L.),是超过100种破坏性疾病的媒介昆虫,这些疾病对人类和动物的健康造成严重影响。家蝇幼虫作为动物粪便的分解剂起着至关重要的作用,因此与许多动物病原体密切相关。2014年来自康奈尔大学的团队使用雌性家蝇的DNA对家蝇的基因组进行了测序和分析。测序的基因组为691 Mb。与果蝇相比,该基因组包含丰富的相同和新颖的蛋白质编码基因,大量重复序列,以及免疫系统识别和效应子的拷贝数和多样性大幅增加,与其生活在在病原体丰富的环境中的生境相一致。家蝇中有146个P450基因,外加11个假基因,相对于黑腹果蝇有显著增加,表明家蝇中存在增强的解毒作用。相对于黑腹果蝇(D. melanogaster),家蝇(M. domestica)还增加了化学感受受体以及嗅觉结合蛋白,这其中许多与味觉有关。

​ 热带家蚊(南部库蚊)是一种重要的蚊媒,传播包括西尼罗河病毒和圣路易斯脑炎病毒等病毒,以及引起淋巴丝虫病的线虫。 它是淡色库蚊(Culex pipiens)物种群中的一个物种,在全世界的热带和温带气候中均可发现。可以从鸟类,家畜和人类身上获取血液的能力有助于其在物种之间传播病原体的能力。2010年加州大学河滨分校的团队对其进行了基因组测序:它有18,883个蛋白质编码基因,比埃及伊蚊(Aedes aegypti)多22%,比冈比亚按蚊(Anopheles gambiae)多52%,具有多个包括嗅觉和味觉受体,唾液腺基因以及与毒素解毒有关的基因家族的扩增。

农业昆虫基因组

​ 小菜蛾(Plutella xylostella)是一种世界性的害虫,已经进化出对所有杀虫剂的抗药性,估计每年给世界经济造成4至50亿美元的损失。2013年来自福建农林大学的团队对小菜蛾基因组进行了测序,小菜蛾的基因组只有343 Mb。然而,其高度的杂合性导致基因组装配上的重大困难。 其中包含18,071个蛋白质编码和1,412个特异表达基因,具有与感知和植物防御化合物解毒相关的基因家族的扩增。最近在解毒相关基因附近的逆转座子的扩增和用于植物防御化合物代谢的更广泛的系统也显示出与杀虫剂抗性的发展有关。这项工作显示了这种全球范围内草食动物进化成功的遗传和分子基础,并为昆虫适应植物饲养提供了更广泛的见识,并为更可持续的害虫管理开辟了道路。2020年同样来自福建农林大学的团队分析了532个小菜蛾基因组之间的变异模式,包括114个种群的全球样本。证据表明,南美洲是该物种的原产地,挑战了旧世界起源的早期假设。小菜蛾在世界范围内经历了三大扩张,主要是由于欧洲殖民和全球贸易的促进。在与代谢和信号通路相关的中确定了基因选择的基因组特征,这可能是环境适应的证据。小菜蛾的进化史提供了对其越洋迁徙的深刻见解,使它成为全世界的害虫。

​ 棉铃虫(Helicoverpa armigera) 和美洲棉铃虫(Helicoverpa zea)分别是旧世界和新世界农业中的主要多食性昆虫。棉铃虫对许多杀虫剂产生了抗药性。2017年来自澳大利亚的团队通过比较基因组学,转录组学和重测序阐明其作为害虫的遗传基础。结果表明,两种昆虫的分歧时间大约在1.5百万年,与其他具有较窄宿主范围的鳞翅目昆虫相比,棉铃虫和美洲棉铃虫已经积累了多达100多个特定解毒和消化基因家族成员以及100多个味觉受体基因。这两个基因组在基因含量和顺序上仍然非常相似,但棉铃虫总体上具有更多的多态性,并且玉米损失了几个解毒基因以及大约50个味觉受体基因。它还缺乏某些在棉铃虫中发现的赋予杀虫剂抗性的基因和等位基因。在上述两个物种的旁系同源基因之间和直系同源基因之间,上述扩增的基因家族中的非同义替换位点发生迅速分歧。棉铃虫幼虫的全基因组转录组学分析显示,对不同寄主植物的响应差异很大,包括对许多重复的解毒和消化基因的反应。这两种实夜蛾属昆虫的多食性与寻找寄主过程中涉及的基因的大量扩增和新功能化以及不同寄主上的转录反应有关。棉铃虫最近几年对美洲的入侵意味着杂交可以产生既适应当地又具有抗药性的种群。

​ 东亚飞蝗(Locusta migratoria)是世界上最具破坏力的农业害虫之一,代表了昆虫学中一个常用的模型系统。2014年中国科学院动物研究所康乐院士团队成功破译东亚飞蝗基因组。东亚飞蝗基因组大小为6.5 Gb,这是迄今为止最大的动物基因组。研究结果表明,飞蝗如此大的基因组可能是由于转座子扩增以及它们的缓慢丢失率所致。甲基化和转录组分析揭示了在相变过程中涉及微管动态介导的突触可塑性的复杂调控机制。我们发现与能量消耗和解毒相关的基因家族显著扩增,这与长途飞行能力和杂食性相关。东亚飞蝗基因组中存在数百种潜在的杀虫剂靶标基因,包括环半胱氨酸配体门控离子通道,G蛋白偶联受体和致死基因。

​ 草地贪夜蛾(Spodoptera frugiperda),是一种破坏性害虫,原产于美国,最近已成为中国的一种入侵性害虫。由于草地贪夜蛾在中国的迅速传播和巨大的风险,了解草地贪夜蛾遗传背景和对农药的抗性对于制定有效的管理策略至关重要。2020年5月来自浙江大学的团队使用PacBio和Hi-C技术组装出染色体水平基因组。测序的个体是从中国浙江省采集的雌蛹,具有高杂合性。 组装基因组大小为486 Mb,包含361个contig,N50为1.13 Mb。 Hi-C进一步将基因组组装成31条染色体和W染色体的一部分,占所有contig的97.4%,并形成了具有scaffold N50为16.3 Mb的染色体水平基因组。通过对单个雄蛹和单个雌蛹进行基因组重测序来鉴定性染色体。大约28%的基因组被标注为重复序列,并鉴定出22,623个蛋白质编码基因。比较基因组学揭示了草地贪夜蛾中与解毒相关的基因家族,与化学感受相关的基因家族,与营养代谢和转运系统基因家族的扩增。2020年9月,来自云南农大的团队利用SFynMstLFR组装其染色体级基因组,并比较了来自美国,非洲和中国的种群的重测序结果。对从美国,非洲和中国收集的163个品系鉴定表明,在美国种群中都发现了玉米和水稻型,而在中国和非洲人群中只发现了玉米型。此外,种群基因组学分析表明,非洲和中国的种群与美国种群的显著遗传分化有着密切的关系。总体而言,入侵中国的草地贪夜蛾最有可能来自非洲。比较基因组学分析显示,细胞色素p450基因家族在FAW中已极大扩展至425个成员,其中283个基因是FAW特有的。用23种农药对来自中国种群进行处理,显示出转录谱的变异模式,并且一些解毒基因(例如AOX,UGT和GST)对农药有特殊反应。

​ 苹果蠹蛾(Cydia pomonella)是梨果实的主要入侵害虫,在过去半个世纪中已遍及全球。2019年来自浙江大学团队组装出包括Z染色体和W染色体的一部分的染色体级别基因组。其中嗅觉受体基因(OR3)的串联重复增强了其利用利他素和信息素来定位寄主植物和寻找伴侣的能力。全基因组关联研究对比了对杀虫剂具有抗性和易感性的品系,发现数百种可能与杀虫剂抗性相关的单核苷酸多态性(SNP),包括在CYP6B2启动子中发现的三个SNP。 CYP6B2的RNAi敲除增加了苹果蠹蛾对两种杀虫剂溴氰菊酯和谷硫磷的敏感性。苹果蠹蛾高质量的基因组组装为它的入侵提供了遗传基础,这表明具有独特的能力和适应性潜力,可以解释其在世界范围内的广泛分布。

​ 斜纹夜蛾(Spodoptera litura)是最普遍和最具破坏性的农业害虫之一,以热带和亚热带地区的100多种农作物为食。2017年西南大学的团队通过基因组测序,物理图谱和转录组分析,发现编码苦味或有毒物质的受体和解毒酶(例如细胞色素P450,羧酸酯酶和谷胱甘肽S-转移酶)的基因家族在该多食性物种中得到了大规模扩增。使其具有多种植物次级化合物的检测和解毒能力。幼虫接触杀虫剂会诱导解毒基因的表达,而使用短干扰RNA(siRNA)敲除其中的代表性基因会降低幼虫的存活率,这与它们对昆虫天然杀虫剂耐受性相一致。一项种群遗传学研究表明,该物种通过沿印度南部-中国南部-日本的轴线迁移而扩展到整个东南亚,通过多种寄主植物和杀虫剂适应广泛的生态条件,并通过其扩增的解毒系统得以生存和适应。这项研究的结果将有助于开发新的害虫管理策略,以控制如斜纹夜蛾等主要的农业害虫。

资源性昆虫基因组

​ 蚕丝纤维来源于家蚕的茧,蚕是在过去的5000年中从祖先野桑蚕中驯化而来的。蚕作为饲养昆虫的模型仅次于果蝇,原因是它们易于饲养,遗传上均一的近交系突变体的可获得性以及关于其生物学的大量信息的存在。2004年来自西南农大的中国团队报道了家蚕(Bombyx mori)基因组的draft序列,涵盖了所有已知家蚕基因的90.9%。估计的基因数为18,510,超过了报道的果蝇(Drosophila melanogaster)的13,379个基因。对果蝇,蚊子,蜘蛛和蝴蝶的比较分析表明,基因含量既相似又不同。

​ 2008年,国际家蚕联盟通过来自全基因组shotgun测序的两个独立数据集与新获得的fosmid-和BAC-末端序列一起进行组装。将估计的432 Mb基因组的8.5倍序列覆盖度组装成N50大小为3.7 Mb的scaffold。最大的scaffold是14.5Mb。借助高密度SNP连锁图谱,我们将87%的scaffold序列锚定在所有的28条染色体上。一个特殊的特征是高重复序列含量估计为43.6%,主要由转座子组成。基于GLEAN的算法预测了14,623个基因模型,该预测比该物种以前的基因模型更准确的预测。超过三千种家蚕基因在其他昆虫或脊椎动物基因组中没有同源序列。大量的丝产生与特定的tRNA簇的存在以及簇中组装的几个丝胶蛋白基因的存在有关。桑蚕对含有有毒生物碱的桑叶采食的适应性可能与从细菌中获得的新型蔗糖酶基因的存在有关。家蚕的基因组还揭示了参与保幼激素生物合成途径的级联反应,以及大量的表皮蛋白基因。

​ 由于家蚕基因组中存在许多重复序列,因此组装好的基因组中包含了不可忽略的错误组装和缺口区域。错误的基因组组装有时会导致错误的基因预测。2019年,东京大学的团队通过140倍测序深度的长(PacBio)和短(Illumina)reads进行了混合组装。使用BAC和Fosmid序列封闭了初始基因组装配中的剩余缺口,产生了460.3 Mb的新总长度,具有30个缺口区域,scaffoldN50位16.8 Mb,contigN50为2.2 Mb。与以前的版本相比,在新的基因组装配上比对到了更多的RNA-seq和piRNA-seq的reads,这表明新的基因组组装涵盖了更多的转录区域,包括重复元件。我们使用可用的mRNA和蛋白质序列数据,基于新的基因组装配进行了基因预测。基因模型数量为16,880,N50为2154 bp。新的基因模型反映出比旧模型更准确的编码序列和基因集。在新的家蚕基因组中的重复比例为46.8%。

​ 黑水虻(Hermetia illucens)因将有机废物生物转化为可持续的动物饲料而闻名。2019年来自中国科学院植物生理与生态研究所的团队报道了这种有益物种的1.1 Gb高质量基因组和16,770个基因模型。与其他双翅目物种相比,BSF基因组的功能模块与败血适应有关,包括免疫系统因子,嗅觉受体和细胞色素P450。进一步分析了饲喂代表性类型有机废物的BSF幼虫的中肠转录组和相关微生物组。发现与消化系统和对抗感染有关的途径通常被丰富,并且在所有饮食中,厚壁菌占据了BSF中微生物群落的主导地位。基于CRISPR / Cas9的高效基因编辑方法,产生了无翅表型,增强了取食能力,这两种表型都可以增强BSF的生产能力。该研究提供了宝贵的基因组和技术资源用于优化BSF生产线以实现工业化。

社会性昆虫基因组

​ 目前已经测序的社会性昆虫基因组主要集中在膜翅目昆虫中,包括蜜蜂和蚂蚁等。意大利蜜蜂是第一个测序的膜翅目昆虫。这是一种社会行为的关键模型,并且通过授粉对全球生态至关重要。2006年,国际蜜蜂基因组测序联盟对意大利蜜蜂进行了基因组测序。与其他测序的昆虫基因组相比,意大利蜜蜂的基因组具有较高的A + T和CpG含量,缺乏主要的转座子家族,进化速度较慢,并且在昼夜节律,RNA干扰和DNA甲基化基因等方面更类似于脊椎动物。此外,意大利蜜蜂具有较少的先天免疫基因,解毒酶,表皮形成蛋白和味觉受体,具有更多的气味受体基因以及花蜜和花粉利用的新基因,这与其生态和社会组织一致。与果蝇相比,意大利蜜蜂早期发育途径的基因不同,而性别,大脑功能和行为等功能却存在显著差异。2019年来自瑞典乌普萨拉大学团队利用PacBio测序,然后与10x Chromium数据合并,使用BioNano光学图谱和Hi-C染色质相互作用图谱进行scaffold构建,并辅之以遗传连锁图。其中每个组装步骤都减少了gap的数量,并增加了scaffold的长度。 新基因组(Amel_HAv3)比以前的基因组(Amel_4.5)更加连续和完整。contigN50高120倍(5. 381 Mbp,0.053 Mbp),我们将98%以上的序列锚定到染色体上。 全部16条染色体均表示为单个scaffold,每条染色体平均有3个序列缺口。 对于先前组装中未放置的重复序列有了极大改进。 此基因组在着丝粒和端粒之间是高度连续的,并且包含数百个与这些特征相关的AvaI和AluI重复序列。

​ 蚂蚁有组织的社会行为包括表现出特殊行为和形态的短命工蚁,以及致力于繁殖的长命蚁后。2010年测序和比较了两种社会性存在分歧的蚂蚁基因组:佛罗里达弓背蚁和印度跳蚁(Camponotus floridanus;Harpegnathos saltator)。尽管存在DNA甲基化,但两个基因组均含有大量的CpG,这在非膜翅目动物中与CpG的消耗有关。比较不同物种的基因表达,可以确定寿命更长的印度跳蚁中端粒酶和负责沉默调节蛋白的脱乙酰基酶表达上调,microRNA和SMYD组蛋白甲基转移酶的物种特异性表达,这其中可能涉及神经元功能和化学通讯基因的差异调节。

​ 切叶蚁(Acromyrmex echinatior)是一种用于共生和生殖冲突研究的模式物种。2011年,报道了高质量(> 100X测序深度)Illumina测序的基因组序列。将该基因组与来自不同亚科的三个先前测序的蚂蚁基因组进行比较,并将分析重点放在可能与已知进化变化相关的基因组方面。第一种是切叶蚁的特殊真菌饮食,发现了蚂蚁的精氨酸合成途径中的基因缺失,解毒基因的缺失以及一组肽酶蛋白的扩增。其中之一是对粪便液的独特的蚂蚁来源贡献,它由不受蚂蚁消化影响的“花园肥料”真菌酶组成。第二个是蚁后的多次交配和射精竞争,这可能与苯乙肼裂解酶-like肽酶基因家族的极大扩增有关。第三个是性别决定,只鉴定到了feminizer单个同源基因。由于其他蚂蚁和蜜蜂中该基因都发生了重复,这可能部分解释了切叶蚁中二倍体雄性幼虫的频繁产生。第四是真社会性制度的演变,发现神经肽基因的高度保守的蚂蚁特异性特征可能与等级制度的确定有关。这些对切叶蚁基因组的最初分析表明,5000万年前从猎人采集到农业食品生产的转变以及1000万年前从单一到多个蚁后的过渡,很可能伴随着巨大的遗传变化。

其他昆虫基因组

​ 袖蝶属是一种分布迅速的新热带蝴蝶属,广泛用于生态,行为,拟态和物种形成研究长期以来,2012年The Heliconius Genome Consortium对红带袖蝶(Heliconius melpomene)进行了基因组测序。并将其与其他物种进行了比较,以研究鳞翅目的染色体进化以及多个袖蝶属间和种群间的基因流动。在12669个预测基因中,化学感受和Hox基因家族发生了扩增。自白垩纪以来,蝴蝶从家蚕谱系分裂而来,染色体的组织一直保持着相对保守。利用基因组重测序,在三个共拟态昆虫红带袖蝶,白袖蝶和艳丽袖蝶发生了基因交换,尤其是在控制拟态的两个基因区域。密切相关的物种会混杂地交换保护性彩色模式基因,这表明杂交在适应性辐射中具有重要作用。人们一直在争论杂交和基因渗入的进化重要性。但杂种通常很少见且不适合生存,但即使不频繁杂交也可以通过在物种之间转移有益性状来帮助适应环境。

​ 菜粉蝶(Pieris rapae)最初是欧亚蝴蝶。在一个世纪或更早的时间里,它被意外地引入北美,澳大利亚和新西兰,并传播到各大洲,并迅速确立为最丰富的蝴蝶种类之一。尽管它是卷心菜和其他芥菜科植物的严重害虫,其幼虫可以将农作物吃到只剩下茎,但它还是Pierisin的来源,pierisin是白人所特有的一种蛋白质,对癌细胞具有细胞毒性。为了更好地理解这种无所不在的农业和医学上重要蝴蝶的生物学特性,2016年德克萨斯大学团队对美国样本的菜粉蝶完整基因组进行了测序和注释。它以246 Mbp的大小成为迄今为止报道的最小鳞翅目基因组之一。其基因组中1.5%的位置是杂合的,沿着scaffold高度非随机分布,并且在1000个碱基对以上的片段中,有近20%不含SNP(中位长度:38000 bp)。人口进化史的计算机模拟表明,美国种群是从较少的引进个体开始的,可能是一个受精的雌虫,这与历史文献一致。与其他鳞翅目动物的基因组进行比较后,发现了几个独特的蛋白质家族,这些蛋白质家族可能有助于菜粉蝶的超强适应性。

​ 有翅昆虫的进化彻底改变了陆地生态系统,并产生了地球最大的动物类群。但是,我们仍然不完全了解这种多样化所基于的基因组变化。作为所有其他有翅昆虫的姊妹群之一,蜉蝣是了解这种辐射的关键。2020年巴塞罗那大学团队对二翼蜉蝣的基因组及其在整个水生和空中生命周期以及特定器官中的基因表达进行了分析。发现了气味结合蛋白基因的扩增,其中一些在水生若虫的呼吸鳃中特异性表达,表明该器官的新型感官作用。相比之下,成虫会以性别二态的方式使用扩增的视蛋白,其中一些仅在雄性中表达。最后,鉴定了一组有翅类昆虫中十分保守的翅相关的基因,并在鳃和翅之间找到了转录组相似性,表明了一个共同的遗传模式。这项全面的基因组和转录组研究揭示了蜉蝣和有翅昆虫中关键进化适应的遗传基础。

3. 基因组测序

自从2000年果蝇基因组测序完成后,家蚕,埃及伊蚊,意大利蜜蜂等昆虫陆续通过一代测序技术完成基因组测序,但由于一代测序通量低,成本高,成功测序得昆虫很少。随着2010年Illumina Hiseq平台的产生,斜纹夜蛾,东亚飞蝗以及小菜蛾等昆虫基因组得到测序,但由于二代测序得到的片段短,组装的质量较差,基因组注释的也不够准确。2011年后,PacBio和Nanopore等三代测序平台的产生,许多以前用一代和二代测序技术测得的基因组通过三代测序得到更高的基因组完整性和连续性。目前,比较流行的测序策略是二代Illumina + 三代PacBio/Nanopore + Hi-C/BioNano,组装成染色体级别基因组,再结合二代/三代转录组测序辅助基因组组装。

​ 许多昆虫的个体较小,需要多个个体才能分离到足够的DNA用于基因组测序,那么会造成基因组杂合度过高,从而使基因组组装产生低连续性(contig N50),并且产生很多gap,进而影响基因模型注释。针对昆虫基因组杂合度和重复比例过高,可以通过inbreding尽量产生纯和的自交品系,或者利用遗传资源(Trio-bining)组装出两套染色体。

3.1 基因组组装

​ 序列拼接的一般步骤:将测序得到的read按照不同的算法拼接为contig,得到contig后,利用长片段文库将不同的contig排序,定位,拼接成更长的scaffold。scaffold组装完成后,如果存在物理图谱,遗传图谱,基于光学图谱或者染色体构象捕获来讲scaffold定位到染色体上。

3.1.1 基因组组装软件及算法

Overlap-Layout-Consensus & De Bruijn graph 不同算法对应的不同软件

目前 reads 拼接时用到的算法主要有三种:Overlap-layout-consensus(OLC)、De Bruijn graph、 greedy graph以及。基于三种算法研发的组装工具多种多样,它们在运算速度、内存需求、序列等方面多有不同: OLC 算法更适于组装长片段,如 Sanger 或 Roche454 测序得到的 reads ,De Bruijn graph目前主要应用于二代短读长reads, 组装工具有 SOAP denovo 、 ALLPATHS-LG、ABySS 以及 Velvet 等,但其缺点是需要较大内存和时间。目前三代测序由于其测序reads长,拼接软件主要利用OLC算法,比如Canu,Falcon,NextDenovo等。

  • De Bruijn graph

De-bruijn-dna-assembly

  • Overlap-Layout-Consensus

OLC,Overlap-Layout-consensus

Name Description Technologies Homepage
SPAdes (small) genomes, single-cell Illumina, Solexa, Sanger, 454, Ion Torrent, PacBio, Oxford Nanopore
ALLPATHS-LG (big)genomes Solexa, SOLiD
Velvet (small) genomes Sanger, 454, Solexa, SOLiD
ABySS parallel, paired-end sequence assembler designed for large genome assembly of short reads (genomic and transcriptomic), employ a Bloom filter to De Bruijn graph Illumina
SOAPdenovo genomes Solexa, Illumina
HGAP Genomes up to 130 MB PacBio reads
Falcon Diploid genomes PacBio reads
Canu Small and large, haploid/diploid genomes PacBio/Oxford Nanopore reads
MaSuRCA Any size, haploid/diploid genomes Illumina and PacBio/Oxford Nanopore data, legacy 454 and Sanger data
Hinge Small microbial genomes PacBio/Oxford Nanopore reads

3.1.2 影响基因组组装的因素

重复序列的比例以及基因组的杂合度

在组装contigs和scaffold的过程中,基因组中大量的重复序列会造成ambiguity,可能会造成拼接出来的基因组比实际要小,目前三代测序测序读长长,可以越过大量重复区域。基因组杂合度过高会影响基因组组装成单个单倍体型基因组,可以通过inbreding的方法获得尽可能纯合的品系或者利用遗传谱系,即父母本的reads构建kmer,根据kmer将子代长片段reads划分出两套单倍体。

Outline of trio binning and haplotype assembly

3.1.3 基因组组装的质量评估

基因组组装后需要进行评估和验证。反映测序与组装质量的有 N50、基因组覆盖度等。N50大小反应基因组组装的完整性和准确性。

  • 一般的,N50 越大,组装结果越接近基因组真实大小。

  • reads、BAC 文库、转录组、ESTs 序列比对率越高,表明组装效果越好。

  • 基因组组装前可以使用Kmer分析或者流式细胞分析,估算基因组大小,再将拼接好的基因组与预估的做比较。

  • 利用直系同源基因的完整性评估基因组组装质量:Benchmarking Universal Single-Copy Orthologs (BUSCO)利用不同物种的直系同源基因构建一个数据库,将组装好的基因组与数据库进行同源比对,确定比对上的百分比。

对于基因组组装质量的评估,应该尽量选取多个方案或软件,从不同角度评估基因组质量。

3.2 基因组注释

3.2.1 重复序列注释

基于同源比对和从头预测的方法

同源比对根据序列相似性识别同源重复序列。REPEATMASKER软件与RepBase数据库结合识别重复序列(转座子等)。从头预测使用重复序列的结构特征来识别新的重复序列。该方法在预测结构特征明显的重复序列,如短反向重复序列和长末端重复序列方面具有很大的优势。Recon、PILER、REPEATSCOUT、LTR-Finder和REPEATMODELER等软件都利用了从头预测的方法。对于大多数昆虫基因组,同源性比对和从头都被使用,从而产生一个完整的重复序列数据集。

3.2.2 非编码RNA注释

软件及数据库介绍

非编码RNA是一类不产生蛋白质产物的RNA,如转运RNA(tRNA)、核糖体RNA、piwi RNA、microRNA、小核仁RNA等。非编码RNA在各种生物过程中具有重要的调节作用。因此,识别非编码RNA是基因组注释中的一项重要任务。

软件:MIRDEEP、TRNASCAN、INFERNAL和RNASTRUCTURE等。

数据库:RNAdb、NONCODE、Rfam、miRBase和snoRNABase等。

3.3.3 蛋白编码基因注释

结构注释:基于同源比对、从头预测以及RNA-seq比对的方法

功能注释:与公共数据库同源比对,获取基因的功能信息、蛋白保守序列、结构域信息、生物学功能与过程信息及参与的生物通路信息等

​ 蛋白质编码基因的识别是结构注释中最重要的部分。从基因组中预测蛋白质编码基因有三种方法:(1)通过序列相似性确定已知蛋白质编码基因的同源基因;(2)利用已知蛋白质编码基因结构从头预测蛋白质编码基因;(3)直接转录组测序[例如RNA测序(RNAseq)或表达序列标签(EST)]并与组装好的基因组比对来确定外显子区域。通过同源比对发现的蛋白质编码基因只能找到已知的蛋白质基因而且存在较高错误率。从头预测可以发现更多的候选蛋白编码基因,但可能有很高的假阳性率。RNA-seq数据通常是最具权威性的方法,但在很大程度上依赖于转录组的质量和数量以及RNA-seq所选择的样本。 ​ 目前,提高蛋白质编码基因准确性的一种常用策略是将这三种证据结合到一个流程中。许多软件包实现了这种集成方法,例如Augustus、EVIDENCEMODELER、Glean、Evigan、Maker、Jigsaw和EVIGENE/EVIDENTIALGENE等软件。

4. 比较基因组学

4.1 基因家族聚类

使用 OrthoMCL/OrthoFinder 软件来进行基因家族聚类 。

4.2 物种进化分析

将所选物种的所有的单拷贝基因进行多序列比对,然后把所有的比对结果合并在一起,用于构建系统发育树

4.3 物种分歧时间估算

用单拷贝基因家族,使用 PAML 软件包中的 mcmctree 进行分歧时间估计

4.4 基因家族扩增和收缩分析

根据基因家族聚类结果和物种间的系统发育关系,使用 CAFE 进行基因家族扩张和收缩分析

4.5 基因组共线性分析

使用BLASTP 来检测与近缘物种间的直系同源基因,选择最优的比对结果,使用 MCscanX 识别同源基因区块,用于circos绘制物种间共线性图

5. 化学感受受体基因家族的鉴定

  • 用tblastn将测序物种或近邻物种已鉴定的相关化学感受蛋白基因作为query,去搜索组装好的基因组;再用blastp将注释好的基因结构模型与NR数据库进行比对;最后用HMMER3将鉴定好的基因家族的基因与Pfam数据库进行比对获取基因的保守结构域。

  • 将基因定位到染色体上,获得基因在染色体上的分布图谱。

  • 与近邻物种的基因家族相关基因进行进化分析。

6. 未来和展望

介绍昆虫基因组测序的未来发展方向以及多组学数据的整合

7. 参考文献

Footnotes

  1. https://en.wikipedia.org/wiki/Genomics

  2. (杜立啸等,2016)

  3. (汤清波等,2011)

  4. CLYNE P J, WARR C G, FREEMAN M R, et al. A Novel Family of Divergent Seven-Transmembrane Proteins: Candidate Odorant Receptors in Drosophila[J]. Neuron, 1999, 22(2): 327–338.

  5. VOSSHALL L B, AMREIN H, MOROZOV P S, 等. A Spatial Map of Olfactory Receptor Expression in the Drosophila Antenna[J]. Cell, Elsevier, 1999, 96(5): 725–736.

  6. GAO Q, CHESS A. Identification of Candidate Drosophila Olfactory Receptors from Genomic DNA Sequence[J]. Genomics, 1999, 60(1): 31–39.

  7. DNA sequencing with chain-terminating inhibitors | PNAS[EB/OL]. [2020-12-01] .