-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathsearch.xml
133 lines (93 loc) · 99.6 KB
/
search.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
<?xml version="1.0" encoding="utf-8"?>
<search>
<entry>
<title><![CDATA[文献速递 (2018年1月)]]></title>
<url>%2Fpaper-express%2Fpaper-express-201801.html</url>
<content type="text"><![CDATA[Coalescent-Based Analyses of Genomic Sequence Data Provide a Robust Resolution of Phylogenetic Relationships among Major Groups of Gibbons >>>Molecular Biology and Evolution, Volume 35, Issue 1, 1 January 2018长臂猿各群体的系统发育关系还不是很明确,主要是因为长臂猿是辐射状物种形成过程,因此种内有许多极短的枝以及谱系不完全分离,基因树的异质性。作者评估了基于启发式溯祖的几种方法对上述情形的适用性。 Out of Southern East Asia of the Brown Rat Revealed by Large-Scale Genome Sequencing >>>Molecular Biology and Evolution, Volume 35, Issue 1, 1 January 2018作者对110只野生棕鼠进行了全基因组测序,揭示了棕鼠群体的起源和迁徙历史。研究发现,几千年前棕鼠从东南亚迁出,扩散到中东和欧洲以及非洲。作者还发现野生棕鼠许多免疫相关基因都经过了正选择。 The Comoros Show the Earliest Austronesian Gene Flow into the Swahili Corridor >>>30464-0)AJHG, Volume 102, Issue 1, p58–68, 4 January 2018作者对来自肯尼亚和科摩罗以及印度洋周边的276个人类样本进行了全基因组基因分型,重建了这些群体的动态历史。作者的研究支持了科摩罗群岛是最先与太平洋南诸岛和非洲群体接触的观点。 A Comprehensive Workflow for Read Depth-Based Identification of Copy-Number Variation from Whole-Genome Sequence Data >>>30496-2)AJHG, Volume 102, Issue 1, p142–155, 4 January 2018作者提出了一套通过短读长重测序精确检测CNV的流程,包括文库构建,测序,质控,比对参考序列和CNV鉴别计算。 Navigating complexity to breed disease-resistant crops >>>Nature Reviews Genetics volume 19, pages 21–33 (2018)作物抗病性的综述。近期人们对宿主-病原菌互作的遗传机制认识加深,鉴定了一些抗病基因及其机制。 Genomic features of bacterial adaptation to plants >>>Nature Genetics, volume 50, pages138–150 (2018)使微生物适应植物生态环境的基因及其功能的研究还不是很清楚。作者对484个来自十字花科、白杨和玉米根部的细菌分离物基因组进行测序,与3837个其他细菌基因组比较,鉴别了上千个和植物相关的基因簇。这些细菌编码更多的碳水化合物代谢基因,以及更少的转座子。 NGS-pipe: a flexible, easily extendable and highly configurable framework for NGS analysis >>>Bioinformatics, Volume 34, Issue 1, 1 January 2018Python写的WGS、WES、RNA分析流程,包括质控去接头到变异检测(包括CNV),可以参考。 Interactive network visualization in Jupyter notebooks: visJS2jupyter >>>Bioinformatics, Volume 34, Issue 2, 15 January 2018基于Jupyter Notebook的互作network可视化python包。 类似的如Cytoscape,Gephi。 LinkageMapView—rendering high-resolution linkage and QTL maps >>>Bioinformatics, Volume 34, Issue 2, 15 January 2018画连锁图和QTL的R包。 Identifying structural variants using linked-read sequencing data >>>Bioinformatics, Volume 34, Issue 2, 15 January 2018利用10X genomics等测序技术产生的linked reads检测结构变异。 Inferring sex-specific demographic history from SNP data >>>PLoS Genet 14(1): e1007191.通过SNP的频率统计数据推断群体的分化时间和有效群体中不同性别比例(前者需要常染色体数据,后者需要X染色体数据)。 Insular Celtic population structure and genomic footprints of migration >>>PLoS Genet 14(1): e1007152.之前用基于单标记(SNP)的方法分析爱尔兰人的遗传数据,发现其是均质化的。但是作者利用基于单体型(fineSTRUCTURE)的数据分析发现,存在23个和地理相关的遗传聚类簇。 Genomic signals of selection predict climate-driven population declines in a migratory bird >>>Science 05 Jan 2018: Vol. 359, Issue 6371, pp. 83-86作者对来自21个地区的229只黄林莺(Setophaga petechia)进行了RAD测序,通过与环境的关联分析,发现了与环境变化相关的基因。 Terminal Pleistocene Alaskan genome reveals first founding population of Native Americans >>>Nature volume 553, pages 203–207 (11 January 2018)作者对白令陆桥地区11.5 Kya的人类婴儿样本进行测序。发现该样本在系统发育树上处于所有发现的美国土著样本的基部(包括古DNA样本)。作者发现白令陆桥地区群体和美国土著群体来自同一祖先群体,大概36 Kya分化,存在持续的基因流一直到25 Kya。作者还研究了美国人内部的群体结构和分化历史。 The genome of Schmidtea mediterranea and the evolution of core cellular mechanisms >>>Nature volume 554, pages 56–61 (01 February 2018)真涡虫参考序列。真涡虫是干细胞研究和再生的模式生物。 Evolutionary history of the angiosperm flora of China >>>Nature volume 554, pages 234–238 (08 February 2018)作者通过构建带时间的系统发育树和地理分布数据,研究了中国26,978种被子植物(占中国被子植物总量的92%)的时间-空间分化模型。 FineMAV: prioritizing candidate genetic variants driving local adaptations in human populations >>>Genome Biology, 2018, 19:5选择分析的新方法,评估结果比CMS要好。 Hybrid speciation leads to novel male secondary sexual ornamentation of an Amazonian bird >>>PNAS 2018 January, 115 (2) E218-E225.由不同物种杂交而形成新物种的研究不多。作者研究了亚马逊流域两种鸟杂交形成的新物种。利用SNP数据,研究了该鸟的遗传混合,群体结构等。 Ancient polymorphisms and divergence hitchhiking contribute to genomic islands of divergence within a poplar species complex >>>作者利用杨树几个种的基因组数据,分析了基因组中divergence islands形成的原因。作者发现杨树中的divergence islands长度和数量并不随着基因流水平和分歧时间变化,而是和祖先多态性相关。 Demography and mating system shape the genome-wide impact of purifying selection in Arabis alpina >>>PNAS 2018 January, 115 (4) 816-821.作者对欧洲38个黄花亭荠进行了全基因组测序,研究了不同交配系统(outcrossing/inbreeding/mixed)对群体多态性和有害突变积累及纯化选择的影响。 The Geographic Origins of Ethnic Groups in the Indian Subcontinent: Exploring Ancient Footprints with Y-DNA Haplogroups >>>Front. Genet., 23 January 2018通过Y染色体分析印度次大陆各种群的起源。 A southern African origin and cryptic structure in the highly mobile plains zebra >>>Nature Ecology & Evolution, volume 2, pages 491–498 (2018)平原斑马是非洲数量最多、分布最广的有蹄动物,根据形态可以划分为6个亚种。作者对包括所有亚种的59只平原斑马进行了RAD测序,此外,还包括3只山斑马和3只细纹斑马。通过分析发现,平原斑马的遗传结构和亚种的形态划分并不一致。群体统计模型表明,平原斑马大概在370 Kya从南非向非洲其他地区扩散。已灭绝的南非小斑马属于平原斑马变种,而且相对现存的北部平原斑马,南非小斑马和其他平原斑马在遗传上更近。 A genome for gnetophytes and early evolution of seed plants >>>Nature Plants, volume 4, pages82–89 (2018)裸子植物买麻藤基因组。 Autosomal and Mitochondrial Adaptation Following Admixture: A Case Study on the Honeybees of Reunion Island >>>Genome Biology and Evolution, Volume 10, Issue 1, 1 January 2018作者研究了留尼汪岛意蜂的遗传起源,以及对热带气候的适应性。 Elevated Proportions of Deleterious Genetic Variation in Domestic Animals and Plants >>>Genome Biology and Evolution, Volume 10, Issue 1, 1 January 2018作者研究了驯化动物和植物基因组中有害突变积累的情况。]]></content>
</entry>
<entry>
<title><![CDATA[文献速递 (2017年12月)]]></title>
<url>%2Fpaper-express%2Fpaper-express-201712.html</url>
<content type="text"><![CDATA[An Evolutionary Genomic Perspective on the Breeding of Dwarf Chickens >>>Molecular Biology and Evolution, Volume 34, Issue 12, 1 December 2017矮化鸡的进化历史一直是个迷。作者研究了世界上最小的培育品种鸡 Serama,通过选择分析,找到了矮化现象的遗传机制。 The Genetic Legacy of the Indian Ocean Slave Trade: Recent Admixture and Post-admixture Selection in the Makranis of Pakistan >>>30394-4)AJHG, Volume 101, Issue 6, p977–984, 7 December 2017作者研究了阿拉伯海的巴基斯坦非洲后裔群体Makranis,以及其周围地区的巴基斯坦其他群体。作者发现Makranis由当地的Baluch部落和非洲东部或东南部的Bantu语系群体混合而成,该事件大概发生在300年前的阿曼帝国统治期间。Makranis人的RoH和巴基斯坦的其他群体RoH水平相似,说明其快速适应了当地的同族婚配习惯。作者最后研究了Makranis群体混合事件后正选择作用下的快速适应,包括肤色,乳糖耐性,疟疾抗性。 Demographic history, selection and functional diversity of the canine genome >>>Nature Reviews Genetics volume 18, pages 705–720 (2017)对狗的驯化、选择历史研究进行了综述。 Lep-MAP3: robust linkage mapping even for low-coverage whole genome sequencing data >>>Bioinformatics, Volume 33, Issue 23, 1 December 2017低深度测序、高密度标记遗传图谱构建工具,作者构建了测序深度在7~12x,300万标记的高密度遗传图谱。 MapReduce for accurate error correction of next-generation sequencing data >>>Bioinformatics, Volume 33, Issue 23, 1 December 2017目前的测序技术存在系统错误,而已有的纠错软件往往引入更多错误,作者开发了一款表现不错的高通量测序数据纠错软件。 Genome-wide association studies using a penalized moving-window regression >>>Bioinformatics, Volume 33, Issue 24, 15 December 2017通过分析临近SNP的表现,去掉GWAS分析结果中的噪音。 On the origin of modern humans: Asian perspectives >>>Science 08 Dec 2017目前主流理论认为现代人是6万年前从非洲扩散而来,并取代了其它地区的土著人种。但是最近在亚洲发现的考古学、地质学、遗传学和古生物环境等证据表面,亚洲人的起源并不是简单的从非洲扩散而来。 Adaptation of Arabidopsis thaliana to the Yangtze River basin >>>Genome Biology 2017 18:239作者对扬子江流域的118个拟南芥进行了测序,作者发现这些拟南芥是61,409 年前分化的独立群体,经历了两次基因流事件,大约几千年前扩散到扬子江流域。作者分析了包括开花时间等性状在基因组上的选择信号。 sRNAnalyzer—a flexible and customizable small RNA sequencing data analysis pipeline >>>Nucleic Acids Research, Volume 45, Issue 21, 1 December 2017small RNA分析流程。该流程为perl写的开源项目。 Genetic Diversity and Population Structure of Ethiopian Sheep Populations Revealed by High-Density SNP Markers >>>Front. Genet., 22 December 2017作者对埃塞俄比亚5个不同地区的72只羊利用600 K SNP芯片进行了基因分型,研究了埃塞俄比亚绵羊的遗传多样性和群体结构。 Coupling Seq-BSA and RNA-Seq Analyses Reveal the Molecular Pathway and Genes Associated with Heading Type in Chinese Cabbage >>>Front. Genet., 12 December 2017利用BSA和转录组分析,定位控制中国大白菜花型的基因。作者在计算差异所用的欧氏距离和筛选离群值的方法可以参考。 Draft Sequencing of the Heterozygous Diploid Genome of Satsuma (Citrus unshiu Marc.) Using a Hybrid Assembly Approach >>>Front. Genet., 05 December 2017无核小蜜橘基因组组装。可能是因为杂合度高的原因,组装效果不好,N50才~386 Kb。 Contributions of Zea mays subspecies mexicana haplotypes to modern maize >>>Nature Communicationsvolume 8, Article number: 1874 (2017)玉米由亚种 parviglumis 驯化而来,但亚种 mexicana 对现代玉米的贡献还不清楚。本研究对现代玉米和 parviglumis 进行了宏基因组测序,揭示了 parviglumis 对现代玉米基因组的贡献。 Whole-genome sequencing for an enhanced understanding of genetic variation among South Africans >>>Nature Communicationsvolume 8, Article number: 2062 (2017)作者对24个南非人进行了高深度(50 x)测序,包括8个混血和16个Bantu语系人。对其遗传多样性,群体结构进行了研究。 Nemertean and phoronid genomes reveal lophotrochozoan evolution and the origin of bilaterian heads >>>Nature Ecology & Evolutionvolume 2, 141–151 (2018)纽虫和帚虫基因组测序揭示了触手担轮类动物的进化以及头部两侧对称的起源。 Genome of the Tasmanian tiger provides insights into the evolution and demography of an extinct marsupial carnivore >>>Nature Ecology & Evolutionvolume 2, pages182–192 (2018)塔斯马尼亚袋狼基因组测序。揭示其群体历史。 Genomic basis and evolutionary potential for extreme drought adaptation in Arabidopsis thaliana >>>Nature Ecology & Evolutionvolume 2, pages352–358 (2018)作者通过对适应极端干旱环境拟南芥群体的研究,调查其他群体对干旱适应的潜力。通过本研究,突出了种内遗传异质性对环境变化适应的重要性。]]></content>
</entry>
<entry>
<title><![CDATA[文献速递 (2017年11月)]]></title>
<url>%2Fpaper-express%2Fpaper-express-201711.html</url>
<content type="text"><![CDATA[Exome Sequencing Provides Evidence of Polygenic Adaptation to a Fat-Rich Animal Diet in Indigenous Siberian Populations >>>Molecular Biology and Evolution, Volume 34, Issue 11, 1 November 2017作者研究了西伯利亚恩加纳桑人和雅库特人对严寒环境适应性的遗传机制,发现7个选择信号是西伯利亚人特有的,其中3个和饮食代谢相关,特别是脂肪代谢,暗示了西伯利亚人对高脂肪食物的适应性。作者发现这两个西伯利亚人群在~12,000-13,000年前分化,伴随持续的基因流过程。(基于多基因模型依赖的选择分析模型,方法可能有借鉴意义) Detecting Long-Term Balancing Selection Using Allele Frequency Correlation >>>Molecular Biology and Evolution, Volume 34, Issue 11, 1 November 2017检测平衡选择(balance selection)信号的新方法。 Genome-wide Ancestry and Demographic History of African-Descendant Maroon Communities from French Guiana and Suriname >>>30390-7)AJHG, Volume 101, Issue 5, p725–736, 2 November 2017作者研究了奴隶贸易时期,美洲形成的黑人群体的动态历史。美洲有很多逃脱奴役的黑人形成的群体,如Noir Marron,其保持着很高的非洲人祖先成分,可能和其几个世纪的遗传隔离相关。巴西和哥伦比亚的黑人,因为其复杂的混合历史,所以有较多欧洲人和美洲土著的遗传成分。作者还推断了这些混合发生的时间。有意思的是作者还发现了性别特异的基因流--显著的欧洲父系基因流(这些禽兽……)。作者还推测了这些黑人群体对应的非洲祖先群体。 Natural Selection on Genes Related to Cardiovascular Health in High-Altitude Adapted Andeans >>>30392-0)AJHG, Volume 101, Issue 5, p752–767, 2 November 2017作者研究了印第安人高原适应性的遗传机制,文章结合了选择分析,适应性渗透分析,关联分析等方法,很有借鉴意义。 The trajectory of microbial single-cell sequencing >>>Nature Methods 14, 1045–1054 (2017)微生物单细胞测序综述。 MECAT: fast mapping, error correction, and de novo assembly for single-molecule sequencing reads >>>Nature Methods 14, 1072–1074 (2017)单分子测序数据比对、纠错和从头组装软件。 Towards standards for human fecal sample processing in metagenomic studies >>>Nature Biotechnology 35, 1069–1076 (2017)作者测试了21种具有代表性的人类粪便微生物DNA提取方案,定量比较了他们在观测微生物群体组分的差异。作者也比较了他们由文库构建,样本存储,发现DNA提取对宏基因组分析影响最大。作者还观察到不同方法对革兰氏阴性和阳性细菌比例的便好。由此作者提出了人类粪便微生物DNA提取的标准化流程。 Detection of long repeat expansions from PCR-free whole-genome sequence data >>>Genome Res. 2017. 27: 1895-1903基因组上很多长的短串联重复和疾病相关,作者开发了一个基于不依赖PCR文库和短读长全基因组测序数据检测短串联重复序列扩张的软件。 The Mobile Element Locator Tool (MELT): population-scale mobile element discovery and biology >>>Genome Res. 2017. 27: 1916-1929检测转座子软件,无论在速度、准确性和灵敏度都好于现存其他软件。 Transposable Elements Direct The Coevolution between Plants and Microbes >>>30112-9)Trends in Genetics, Volume 33, Issue 11, p842–851, November 2017综述:转座子主导的植物病原菌和其宿祖的协同进化(病原菌基因组中转座子活跃的区域往往是致病基因所在,而宿祖基因组中转座子活跃区域往往是免疫基因所在区域)。本期Trends in Genetics发表了多篇有关转座子的综述。 Harnessing ancient genomes to study the history of human adaptation >>>Nature Reviews Genetics 18, 659–674 (2017)利用古DNA样本研究人类对新环境的适应性以及共同进化的病原菌。 The draft genome of tropical fruit durian (Durio zibethinus) >>>Nature Genetics 49, 1633–1641 (2017)榴莲基因组草图发表。作者发现了榴莲和棉花共享的古多倍体化事件,以及榴莲特有的蛋氨酸r裂解酶(MGL)基因扩张,这和硫磺味挥发复合物相关。 Genomic history of the seventh pandemic of cholera in Africa >>>Science 10 Nov 2017:Vol. 358, Issue 6364, pp. 785-789通过对非洲45个国家,长达49年的1070个霍乱弧菌进行基因组测序,研究非洲第七次霍乱爆发的历史。 Southern African ancient genomes estimate modern human divergence to 350,000 to 260,000 years ago >>>Science 03 Nov 2017:Vol. 358, Issue 6363, pp. 652-655通过对7个古DNA(3个石器时代,4个铁器时代)全基因组测序,揭示现代人群在350,000~260,000年前分歧。作者的研究将该时间大大推前了。 A high-coverage Neandertal genome from Vindija Cave in Croatia >>>Science 03 Nov 2017:Vol. 358, Issue 6363, pp. 655-658作者发表了第二个高质量尼安德特人基因组。研究发现该基因组的杂合度为0.16%,比现代人要低,说明尼安德特人的有效群体大小较小。 Genome sequence of the progenitor of the wheat D genome Aegilops tauschii >>>Nature 551, 498–502 (23 November 2017)小麦D基因组二倍体祖先山羊草基因组测序。作者发现其基因组中的重复序列比任何其它植物基因组都要多,其进化速度要比其它草高一个数量级。 The dynamics of molecular evolution over 60,000 generations >>>大肠杆菌传60000代,其基因组的动态变化。 Long-term balancing selection contributes to adaptation in Arabidopsis and its relatives >>>Genome Biology, 2017 18:217拟南芥和其近缘种的平衡选择。揭示了平衡选择对适应性的重要性。 The interplay of demography and selection during maize domestication and expansion >>>Genome Biology, 2017 18:215玉米驯化和扩张过程中群体大小变化和选择的相互影响。 New reference genome sequences of hot pepper reveal the massive evolution of plant disease-resistance genes by retroduplication >>>Genome Biology, 2017 18:210作者测了3种辣椒基因组,通过比较基因组,研究大的进化事件(染色体重排)。 Survival and divergence in a small group: The extraordinary genomic history of the endangered Apennine brown bear stragglers >>>PNAS November 7, 2017 vol. 114 no. 45 E9589-E9597作者研究了亚平宁半岛一个隔绝的濒临灭绝的棕熊群体。该群体是研究大型濒临灭绝哺乳动物的遗传漂变和选择的好材料。 Contributions of Zea mays subspecies mexicana haplotypes to modern maize >>>Nature Communications 8, Article number: 1874 (2017)作者对玉米野生种mexicana和现代育成种进行了泛基因组组装,揭示了野生种对育成种的贡献。 A soft selective sweep during rapid evolution of gentle behaviour in an Africanized honeybee >>>Nature Communications 8, Article number: 1550 (2017)作者对非洲化蜜蜂的温驯行为的选择作用进行了研究。 The effect of artificial selection on phenotypic plasticity in maize >>>Nature Communications 8, Article number: 1348 (2017)人工选择对玉米表型可塑性的影响。 Tracing the origin and evolution of supergene mimicry in butterflies >>>Nature Communications 8, Article number: 1269 (2017)作者对蝴蝶拟态超基因家族的来源和进化进行了研究。 Genomic structural variation-mediated allelic suppression causes hybrid male sterility in rice >>>由基因组结构变异引起的等位基因抑制而导致的水稻杂交雄性不育。 The asparagus genome sheds light on the origin and evolution of a young Y chromosome >>>Nature Communications 8, Article number: 1279 (2017)芦笋基因组揭示了年轻Y染色体的起源和进化。]]></content>
</entry>
<entry>
<title><![CDATA[文献速递 (2017年10月)]]></title>
<url>%2Fpaper-express%2Fpaper-express-201710.html</url>
<content type="text"><![CDATA[Genome-Wide Analysis of Colonization History and Concomitant Selection in Arabidopsis lyrata >>>Molecular Biology and Evolution, Volume 34, Issue 10, 1 October 2017作者研究了不同地域(德国,英国,挪威,瑞典和美国)分布的琴叶拟南芥群体历史,以及适应当地环境的选择信号。 Genetic History of Xinjiang’s Uyghurs Suggests Bronze Age Multiple-Way Contacts in Eurasia >>>Molecular Biology and Evolution, Volume 34, Issue 10, 1 October 2017通过对来自14个地理亚群共951个新疆维吾尔族人芯片基因型数据的研究,揭示了维吾尔族人由于天山山脉隔断的南北群体分层,以及广泛存在的东西向基因流。发现了维吾尔族人与来自欧洲和东亚人群的两次群体混合事件。(文章使用了新的做Admixture的软件MultiWaver,该软件还未发表,有预印版,可以关注。) Complex Patterns of Admixture across the Indonesian Archipelago >>>Molecular Biology and Evolution, Volume 34, Issue 10, 1 October 2017作者对来自25个不同群体的498个马来西亚人样本进行了510K SNP芯片分型,研究了其内部群体分层,以及和其他人群的基因交流事件及时间。 Inferring Past Environments from Ancient Epigenomes >>>Molecular Biology and Evolution, Volume 34, Issue 10, 1 October 2017作者提出了根据甲基化推断古人所处的环境:生活习惯、疾病、营养、毒素暴露等等。 Pearl millet genome sequence provides a resource to improve agronomic traits in arid environments >>>Nature Biotechnology 35, 969–976 (2017)作者对珍珠栗基因组进行了组装,1.79 Gb草图包含了38,579个基因。这些基因在蜡质生物合成途径存在潜在富集,可能是珍珠栗适应热带和干旱环境的原因。作者还对994个珍珠栗品系进行了重测序,对其群体结构、遗传多样性和驯化进行了研究。作者还对表型及标记进行了关联,为珍珠栗改良育种提供了基础。 Haplostrips: revealing population structure through haplotype visualization >>>METHODS ECOL EVOL, Volume 8, Issue 10, October 2017python和R写的一个单体型可视化工具,输入为phase后的vcf文件,可以根据某个群体的单体型进行排序。 fastNGSadmix: admixture proportions and principal component analysis of a single NGS sample >>>Bioinformatics, Volume 33, Issue 19, 1 October 2017PCA和admixture分析的工具,该软件输入的是GL,因此适合低深度测序基因型判断不准的情况。 Recent natural selection causes adaptive evolution of an avian polygenic trait >>>Science 20 Oct 2017: Vol. 358, Issue 6361, pp. 365-368作者研究了英国大山雀的基因组选择信号,发现很多基因和鸟喙长度相关,特别是COL4A5基因,而该基因和繁殖成功率相关,因此说明鸟喙长度持续受到选择。 Alignment-free sequence comparison: benefits, applications, and tools >>>Genome Biology201718:186不依赖于参考序列比对的分析方法综述。这些方法通过提取原始测序数据的文本特征来比较不同样本之间的相似度,或检测基因水平转移等。相比依赖于参考序列比对的方法,这些方法不依赖参考序列,而且计算速度更快。 Evolutionary genomics of grape (Vitis vinifera ssp. vinifera) domestication >>>PNAS October 31, 2017 vol. 114 no. 44 11715-11720葡萄驯化研究。发现葡萄的驯化早于之前推测,在2,2000年前就开始和野生种分化。鉴定了在驯化过程中与糖代谢,花期,胁迫反应等相关的受选择基因,并发现了驯化过程中有害突变的积累。 Genome of wild olive and the evolution of oil biosynthesis >>>PNAS October 31, 2017 vol. 114 no. 44 E9413-E9422野生橄榄基因组从头测序,揭示了油脂合成过程中的关键基因。 New Tools in Orthology Analysis: A Brief Review of Promising Perspectives >>>Front. Genet., 31 October 2017同源基因鉴定算法和软件的综述。 Departure from Hardy Weinberg Equilibrium and Genotyping Error >>>Front. Genet., 31 October 2017作者研究了基因分型错误和哈温平衡之间的关系。 Echinochloa crus-galli genome analysis provides insight into its adaptation and invasiveness as a weed >>>Nature Communications 8, Article number: 1031 (2017)六倍体稗草基因组组装及其适应性机制。 Demographic history and biologically relevant genetic variation of Native Mexicans inferred from whole-genome sequencing >>>Nature Communications 8, Article number: 1005 (2017)作者对12个属于3个墨西哥遗传群体的6个族群的本土美国人进行了全基因组测序。解释了其近期群体历史和适应性。]]></content>
</entry>
<entry>
<title><![CDATA[文献速递 (2017年9月)]]></title>
<url>%2Fpaper-express%2Fpaper-express-201709.html</url>
<content type="text"><![CDATA[Genomic Reconstruction of the History of Native Sheep Reveals the Peopling Patterns of Nomads and the Expansion of Early Pastoralism in East Asia >>>Molecular Biology and Evolution, Volume 34, Issue 9, 1 September 2017作者利用SNP芯片(54K或685K)对1016只羊进行了全基因组SNP检测,揭示了东亚绵羊的群体历史及其和游牧民族迁徙的关系。作者还研究了盘羊对驯化绵羊的基因渗透,及驯化绵羊内部的基因交流,以及驯化过程中对尾型等性状的人工选择。 Disentangling Timing of Admixture, Patterns of Introgression, and Phenotypic Indicators in a Hybridizing Wolf Population >>>Molecular Biology and Evolution, Volume 34, Issue 9, 1 September 2017作者研究意大利狼和狗近期杂交群体的历史,推断了杂交的时间,研究了杂交后保留的狗的性状。(这篇文章研究的近几十年的历史,在进化文章中少见) Population Genomics Reveals Speciation and Introgression between Brown Norway Rats and Their Sibling Species >>>Molecular Biology and Evolution, Volume 34, Issue 9, 1 September 2017作者对51只挪威褐鼠及其近缘种进行了全基因组测序,揭示了两者分化与更新世中期气候剧烈变化相关,它们分化后存在基因流。渗透区域和化学通讯相关,说明基因流和挪威褐鼠适应性相关。 Variant Interpretation: Functional Assays to the Rescue >>>30292-6)AJHG, Volume 101, Issue 3, p315–325, 7 September 2017人类基因组突变大规模功能注释的方法。 The Genetic Legacy of Zoroastrianism in Iran and India: Insights into Population Structure, Gene Flow, and Selection >>>30291-4)AJHG, Volume 101, Issue 3, p353–368, 7 September 2017拜火教的起源,传播,遗传交流和正选择。 Genome-wide reconstruction of complex structural variants using read clouds >>>Nature Methods 14, 915–920 (2017)为10X Genomics或类似技术开发的结构变异检测工具。相较基于短读长数据检测结构变异,该技术检测能力有较大改善。 Shotgun metagenomics, from sampling to analysis >>>Nature Biotechnology 35, 833–844 (2017) doi:10.1038/nbt.3935宏基因组从取样到分析的综述。 Haplotype phasing of whole human genomes using bead-based barcode partitioning in a single tube >>>Nature Biotechnology 35, 852–857 (2017)类似10X Genomics的一种建库策略,但不需要微流体控制,利用了Tn5转座酶。 Detecting ancient positive selection in humans using extended lineage sorting >>>Genome Res. 2017. 27: 1563-1572通过与已经灭绝的近缘种和现存的近缘种比较,寻找基因组中快于中性进化的固定区域。这些区域很可能是近期受选择的区域。 Network propagation: a universal amplifier of genetic associations >>>Nature Reviews Genetics 18, 551–562 (2017)一般认为影响同一个性状的基因是相互作用的,这是网络分析的基础。本文对网络传播算法在遗传关联中的应用进行了综述。 Exploiting induced and natural epigenetic variation for crop improvement >>>Nature Reviews Genetics 18, 563–575 (2017)利用表观数据进行作物育种综述。 Concepts, estimation and interpretation of SNP- based heritability >>>Nature Genetics 49, 1304–1310 (2017)GWAS基于SNP的狭义遗传力计算。 OMSim: a simulator for optical map data >>>Bioinformatics, Volume 33, Issue 17, 1 September 2017模拟Bionano产生的光学图谱数据。 Estimation of kinship coefficient in structured and admixed populations using sparse sequencing data >>>PLoS Genet13(9): e1007021.适合稀疏测序数据(捕获或简化基因组测序)及高缺失数据(低深度测序)计算亲缘关系的算法(软件)。 A Neolithic expansion, but strong genetic structure, in the independent history of New Guinea >>>Science, 15 Sep 2017: Vol. 357, Issue 6356, pp. 1160-1163研究巴布亚新几内亚各人群关系及与亚洲和澳洲人群关系。 Strains, functions and dynamics in the expanded Human Microbiome Project >>>Nature 550, 61–66 (05 October 2017)对来自265个人的不同时间,不同部位的2,355个宏基因组进行了研究。 Parental influence on human germline de novo mutations in 1,548 trios from Iceland >>>Nature 549, 519–522 (28 September 2017)通过对1,548 个trios进行测序,发现了新突变产生的特征。如男女突变率不同,女人突变积累更快等。 The Apostasia genome and the evolution of orchids >>>Nature 549, 379–383 (21 September 2017)深圳拟兰基因组草图,研究了基因组复制时间,开花相关基因如MADS-box等。 DESMAN: a new tool for de novo extraction of strains from metagenomes >>>Genome Biology, 2017 18:181从宏基因组中抽出菌株的基因组。(?) Acidophilic green algal genome provides insights into adaptation to an acidic environment >>>PNAS, 2017 vol. 114 no. 39嗜酸绿藻基因组发表,揭示其对酸性环境的适应性机制。 A Hypothesis and Review of the Relationship between Selection for Improved Production Efficiency, Coping Behavior, and Domestication >>>Front. Genet., 28 September 2017动物应激行为和驯化关系的一篇综述。驯化会选择与产量性状无关的能量消耗行为,因此,驯化的动物大多是温驯的。 Ultrafast Comparison of Personal Genomes via Precomputed Genome Fingerprints >>>Front. Genet., 26 September 2017基因组指纹技术。通过相邻SNP突变类型和距离及对应的频率构成三维特征指纹,实现超快比对。还支持不同参考基因组混合比对。 Y-STR Haplogroup Diversity in the Jat Population Reveals Several Different Ancient Origins >>>Front. Genet., 20 September 2017通过分析印度和巴基斯坦的302个贾特人的Y染色体STR,揭示贾特人起源。 A biologist’s guide to Bayesian phylogenetic analysis >>>Nature Ecology & Evolution 1, 1446–1454 (2017)贝叶斯树构建的综述。(大牛杨子恒出品) Worldwide patterns of human epigenetic variation >>>Nature Ecology & Evolution 1, 1577–1583 (2017)不同人群的表观遗传差异。 Genome-Wide Variation Patterns Uncover the Origin and Selection in Cultivated Ginseng (Panax ginseng Meyer) >>>Genome Biology and Evolution, Volume 9, Issue 9, 1 September 2017栽培高丽参的起源和驯化选择研究,揭示了南方高丽参和北方高丽参是分别起源和驯化的。]]></content>
</entry>
<entry>
<title><![CDATA[文献速递 (2017年8月)]]></title>
<url>%2Fpaper-express%2Fpaper-express-201708.html</url>
<content type="text"><![CDATA[Human Y-chromosome variation in the genome-sequencing era >>>Nature Reviews Genetics 18, 485–497 (2017)人Y染色体的综述。 Reference standards for next-generation sequencing >>>Nature Reviews Genetics 18, 473–484 (2017)基因组的大小和复杂度,以及样本准备、测序和分析过程中带来的技术错误对NGS数据的解读是很大的挑战。通过参考标准物的使用,可以理解和减少这些错误。(参考标准物是研究很透彻的对照DNA) The origin of Metazoa: a unicellular perspective >>>Nature Reviews Genetics 18, 498–512 (2017)多细胞动物起源综述。 SeqArray—a storage-efficient high-performance data format for WGS variant calls >>>Bioinformatics, Volume 33, Issue 15, 1 August 2017一种新的变异存储格式,与vcf格式相比,文件只有其1/5左右,且比vcftools计算速度更快。 ploidyNGS: visually exploring ploidy with Next Generation Sequencing data >>>Bioinformatics, Volume 33, Issue 16, 15 August 2017基因组倍性检测和可视化开源软件。 Northeast African genomic variation shaped by the continuity of indigenous groups and Eurasian migrations >>>PLoS Genet 13(8): e1006976.非洲东北部人群的遗传特征(群体结构,基因流等)。非洲东北部是现代人走出非洲以及欧洲人向非洲迁徙的大门。 Composite likelihood method for inferring local pedigrees >>>PLoS Genet 13(8): e1006963.基于SNP的系谱推断软件。大牛出品,必属精品?! Deconstructing isolation-by-distance: The genomic consequences of limited dispersal >>>PLoS Genet 13(8): e1006911.以丛灌鸦为例解析isolation-by-distance。作者发现雄性isolation-by-distance现象比雌性更显著。(雄性领地观念更强,雌性择偶,所以迁徙更多?) Genomic estimation of complex traits reveals ancient maize adaptation to temperate North America >>>Science 04 Aug 2017:Vol. 357, Issue 6350, pp. 512-515通过对15个1900年前温带地区玉米进行测序,揭示了玉米适应温带环境的遗传机制。 Genetic origins of the Minoans and Mycenaeans >>>Nature 548, 214–218 (10 August 2017)通过对19个古人DNA全基因组测序,揭示了米诺斯人和迈锡尼人的遗传起源。 Genome-wide association studies dissect the genetic networks underlying agronomical traits in soybean >>>Genome Biology201718:161大豆GWAS。 A tandem simulation framework for predicting mapping quality >>>Genome Biology201718:152对比对质量进行校正。 Estimating the human mutation rate from autozygous segments reveals population differences in human mutational processes >>>Nature Communications 8, Article number: 303 (2017)对3222个人外显子测序,估计人的碱基突变率。发现不同人群的突变模式不同。 Genome re-sequencing reveals the history of apple and supports a two-stage model for fruit enlargement >>>Nature Communications 8, Article number: 249 (2017)通过对117个苹果重测序,揭示苹果果实经过两个阶段变大的遗传机制。 Adaptive and non-adaptive divergence in a common landscape>>>Nature Communications 8, Article number: 267 (2017)三刺鱼和九刺鱼在相同环境中,在基因组上面存在不同的适应信号。 Inferring Allele Frequency Trajectories from Ancient DNA Indicates That Selection on a Chicken Gene Coincided with Changes in Medieval Husbandry Practices >>>Molecular Biology and Evolution, Volume 34, Issue 8, 1 August 2017通过古DNA位点频率推断选择的强度和时间。 Mitochondrial Recombination and Introgression during Speciation by Hybridization >>>Molecular Biology and Evolution, Volume 34, Issue 8, 1 August 2017一般细胞器DNA都是单亲遗传的,不存在重组事件。作者发现两种不同芽殖酵母杂交后代的线粒体DNA存在重组。 Evidence for Very Recent Positive Selection in Mongolians >>>Molecular Biology and Evolution, Volume 34, Issue 8, 1 August 2017通过对96个蒙古人的SNP进行分析,发现了蒙古人基因组中环境适应性的信号。 Patterns of Genome-Wide Diversity and Population Structure in the Drosophila athabasca Species Complex >>>Molecular Biology and Evolution, Volume 34, Issue 8, 1 August 2017作者组装了1个阿萨巴斯卡果蝇基因组草图,并对28个个体进行了重测序。发现阿萨巴斯卡果蝇X染色体的分化模式和常染色体有较大区别。作者对3个亚群的分化时间和基因流进行了研究。 Soft Sweeps Are the Dominant Mode of Adaptation in the Human Genome >>>Molecular Biology and Evolution, Volume 34, Issue 8, 1 August 2017作者通过机器学习的方法对6个人群的选择消除位点进行了检测,发现soft sweep为人类近期适应性的主要方式。作者还发现选择作用影响了基因组的变异模式,且增加了有害突变的积累。 Bioinformatic processing of RAD-seq data dramatically impacts downstream population genetic inference >>>Methods Ecol Evol, 8: 907–917. 2017作者通过对RAD数据分析流程的评估:组装或比对到不同分化程度的参考基因组,以及不同的过滤策略,发现组装和比对的差异很大,过滤策略影响较小。最后建议RAD数据比对到近缘参考序列。 GenomeVIP: a cloud platform for genomic variant discovery and interpretation >>>Genome Res. 2017. 27: 1450-1459基于web的开源变异检测框架,包含GATK等主流软件和注释数据库。]]></content>
</entry>
<entry>
<title><![CDATA[文献速递 (2017年7月)]]></title>
<url>%2Fpaper-express%2Fpaper-express-201707.html</url>
<content type="text"><![CDATA[Rapid Genetic Adaptation during the First Four Months of Survival under Resource Exhaustion >>>Molecular Biology and Evolution, Volume 34, Issue 7, 1 July 2017, Pages 1758–1769大肠杆菌微进化。研究培养基耗尽后,大肠杆菌的适应性。 PopNet: A Markov Clustering Approach to Study Population Genetic Structure >>>Molecular Biology and Evolution, Volume 34, Issue 7, 1 July 2017, Pages 1799–1811新的群体遗传聚类软件。不依赖单一的参考序列,因此可以避免参考序列的选择带来的偏好性,比较适用于细菌。 The population genomics of archaeological transition in west Iberia: Investigation of ancient substructure using imputation and haplotype-based methods >>>PLoS Genet 13(7): e1006852作者收集了葡萄牙从新石器时代中期到青铜器时代中期的14个人类古DNA样本,发现这两个时期的遗传差异很小,说明相较欧洲其他地区,葡萄牙在当时群体流动性较小。作者还预测了新石器时代当地人的身高,暗示后来的群体混合导致的身高降低。作者还检测了其他重要的受选择性状,以及这些性状的来源及时间。 Genetic compensation: A phenomenon in search of mechanisms >>>PLoS Genet 13(7): e1006780.基因敲除或敲低后遗传补偿现象机制的综述。 GARLIC: Genomic Autozygosity Regions Likelihood-based Inference and Classification >>>Bioinformatics, Volume 33, Issue 13, 1 July 2017, Pages 2059–2062检测ROH区域的软件。 LASER server: ancestry tracing with genotypes or sequence reads >>>Bioinformatics, Volume 33, Issue 13, 1 July 2017, Pages 2056–2058这篇文章的思路就是先定义一个参考的祖先空间(reference ancestry space),即拿目前已有的具有代表性的群体做PCA,形成一个参考的变量空间,再将新样本映射到这个变量空间,从而判断这个样本的遗传组成。这样就不用合并新测序的样本,不管测序还是芯片,可以直接映射。 Fast admixture analysis and population tree estimation for SNP and NGS data >>>Bioinformatics, Volume 33, Issue 14, 15 July 2017, Pages 2148–2155STRUCTURE-like群体聚类软件,与ADMIXTURE相比,他能在相同的时间内,得到更大的likelihood值。能基于基因型的likelihood值计算,因此更适用于低深度测序。另外,该软件可以基于估计的祖先型构树。不得不提的是该文有Rasmus Nielsen和Thomas Mailund两位大牛站台。 Tagging SNP-set selection with maximum information based on linkage disequilibrium structure in genome-wide association studies >>>Bioinformatics, Volume 33, Issue 14, 15 July 2017, Pages 2078–2081tag SNP筛选,在保留最多变异信息的同时,挑选最少的SNP。作者用于全基因组关联分析的场景。主要基于LD,因此也可能可以用于群体遗传分析的其他分析,如PCA, ADMIXTURE等。 GenomeScope: fast reference-free genome profiling from short reads >>>Bioinformatics, Volume 33, Issue 14, 15 July 2017, Pages 2202–2204基于短读长测序数据的基因组特征评估软件,包括基因组大小,杂合度,重复含量等。 Discovery and genotyping of novel sequence insertions in many sequenced individuals >>>Bioinformatics, Volume 33, Issue 14, 15 July 2017, Pages i161–i169插入序列检测,基于局部组装。评估效果好于MindTheGap。 Comparison of computational methods for Hi-C data analysis >>>Nature Methods 14, 679–685 (2017)Hi-C不同数据分析方法比较。 1,003 reference genomes of bacterial and archaeal isolates expand coverage of the tree of life >>>Nature Biotechnology 35, 676–683 (2017)1,003珠细菌或古菌基因组。 Wild emmer genome architecture and diversity elucidate wheat evolution and domestication >>>Science 07 Jul 2017: Vol. 357, Issue 6346, pp. 93-97利用Hi-C技术组装野生异源四倍体小麦(二粒小麦)的全基因组序列。找到了控制脱粒性状的基因。 Evolution of the wheat blast fungus through functional losses in a host specificity determinant >>>Science 07 Jul 2017:Vol. 357, Issue 6346, pp. 80-83麦瘟病是一种真菌引起的小麦病害,起源于巴西,本研究阐明了麦瘟病的传播和爆发机制。 Sequencing and de novo assembly of 150 genomes from Denmark as a population reference >>>Nature 548, 87–91 (03 August 2017)组装了150个丹麦人基因组,只用了短读长reads和20 kb mate-pair reads。 Assessment of Genetic Diversity and Structure of Large Garlic (Allium sativum) Germplasm Bank, by Diversity Arrays Technology “Genotyping-by-Sequencing” Platform (DArTseq) >>>Front. Genet., 20 July 2017通过GBS测序评估大蒜种质资源的遗传多样性和群体结构。 Evaluation of Quality Assessment Protocols for High Throughput Genome Resequencing Data >>>几种重测序策略的评估(WGS, WES, gene panel),及数据处理策略评估。 Ancient European dog genomes reveal continuity since the Early Neolithic >>>作者测了新石器时代早期和晚期欧洲狗的化石,通过分析,推翻了去年Science狗的双地起源的推论,认为狗是一次起源。 Deeply divergent archaic mitochondrial genome provides lower time boundary for African gene flow into Neanderthals >>>Nature Communications 8, Article number: 16046 (2017)作者测了一个更新世人的线粒体基因组,分析发现他和其他尼安德特人在 ∼270,000 分歧,因此推断尼安德特人向现代人线粒体introgression的时间下限是∼270,000年。 A mitogenomic timetree for Darwin’s enigmatic South American mammal Macrauchenia patachonica >>>Nature Communications 8, Article number: 15951 (2017)作者测了一个长颈驼线粒体基因组,确定了其进化地位及分化时间。 The evolutionary significance of polyploidy >>>Nature Reviews Genetics 18, 411–424 (2017)综述,多倍体化和环境变化/压力的相关性,及多倍体化带来的短期适应性,以及对生物长期的影响。 Reevaluation of SNP heritability in complex human traits >>>Nature Genetics 49, 986–992 (2017)估计SNP的遗传力,发现不同MAF、LD水平等的SNP遗传力差异很大。 Genomic analyses in cotton identify signatures of selection and loci associated with fiber quality and yield traits >>>Nature Genetics 49, 1089–1098 (2017)棉花纤维的选择和关联分析。 Whole-genome resequencing of 292 pigeonpea accessions identifies genomic regions associated with domestication and agronomic traits >>>Nature Genetics 49, 1082–1088 (2017)对292珠木豆选育品种/地方品种及野生种的选择及关联分析,揭示驯化性状的遗传机制。]]></content>
</entry>
<entry>
<title><![CDATA[文献速递 (2017年6月)]]></title>
<url>%2Fpaper-express%2Fpaper-express-201706.html</url>
<content type="text"><![CDATA[A Critical Review on the Use of Support Values in Tree Viewers and Bioinformatics Toolkits >>>Mol Biol Evol (2017) 34 (6): 1535-1542.一般系统发育树以Newick格式储存,其中branch values如bootstrap等以node label的形式储存,在用软件如figtree进行rerooting的时候,会出现错误。文章对20种软件进行了测试,发现其中14个都会出现问题。 New Statistical Criteria Detect Phylogenetic Bias Caused by Compositional Heterogeneity >>>Mol Biol Evol (2017) 34 (6): 1529-1534.构建系统发育树的进化模型一般假定DNA序列的碱基组成是恒定的,但是实际数据并不符合。文章对碱基组成异质性对系统发育树的拓扑结构、枝长的影响进行了评估。 Genetic Diversity and the Efficacy of Purifying Selection across Plant and Animal Species >>>Mol Biol Evol (2017) 34 (6): 1417-1428.为什么有的物种比其它物种遗传多样性高以及为什么选择效应在不同物种中差异很大,这是进化生物学的两个中心问题。作者通过对34个动物和28个植物的全基因组数据,比较他们的同义和非同义突变发现,动物的寿命和繁殖数量是解释其非同义突变数量最好的因素。植物的寿命和交配系统一样起着主要作用。非同义比同义突变的对数和同义突变的数量呈负线性关系,但是植物的斜率要低于动物,可能是因为植物的突变率高于动物。 Contrasting Rates of Molecular Evolution and Patterns of Selection among Gymnosperms and Flowering Plants >>>Mol Biol Evol (2017) 34 (6): 1363-1377.被子植物是裸子植物分子进化速率的7倍,裸子植物较大的基因组和长代时是进化速率慢的原因,裸子植物具有更高的替换率比(非同义比同义?)。裸子植物具有更强和更有效的纯化和多样化选择,可能是由于其较大的有效群体大小。 Mitochondrial Mutation Rate, Spectrum and Heteroplasmy in Caenorhabditis elegans Spontaneous Mutation Accumulation Lines of Differing Population Size >>>Mol Biol Evol (2017) 34 (6): 1319-1334.不同群体大小下新杆状线虫自发突变累计系的线粒体突变率、频谱和异质性。 Optimal sequencing strategies for identifying disease-associated singletons >>>PLoS Genet 13(6): e1006811.作者对测序深度对singletons突变关联把握度(power)的影响进行了评估和测序方案建议。评估发现测序深度15~20 X为最佳方案。 admixturegraph: an R package for admixture graph manipulation and fitting >>>Bioinformatics (2017) 33 (11): 1738-1740.构建和可视化admixture graph,根据遗传数据拟合graph参数,可视化拟合优度,以及不同graph之间的相对优度。 ModelFinder: fast model selection for accurate phylogenetic estimates >>>Nature Methods 14, 587–589 (2017)模型选择是模型依赖的系统进化树构建的关键,作者提出了一个快速选择合适模型的方法/工具 ModelFinder。 Genome-wide profiling of heritable and de novo STR variations >>>Nature Methods 14, 590–592 (2017)Short tandem repeats (STRs) 检测工具HipSTR。 A genetic signature of the evolution of loss of flight in the Galapagos cormorant >>>Science 02 Jun 2017: Vol. 356, Issue 6341, eaal3345通过对加拉帕戈斯群岛鸬鹚,一种不会飞的鸬鹚,及其几个近缘会飞的鸬鹚的全基因组从头测序,解释了加拉帕戈斯群岛鸬鹚丧失飞行能力的遗传机制。 How to measure natural selection >>> Methods in Ecology and Evolution, Volume 8, Issue 6 June 2017 Pages 660–662本期主要内容为自然选择分析,本文对本期杂志7篇关于选择分析的文章进行了概述。 Fine-mapping inflammatory bowel disease loci to single-variant resolution >>>Nature (2017)肠道炎的GWAS分析。之前的研究虽然找到了200个关联的位点,但是很少有找到确定的功能变异。本研究找到了18个关联位点,有95%的置信度为causal变异。另外27个置信度超过50%。 Improved maize reference genome with single-molecule technologies >>>Nature 546, 524–527 (22 June 2017)利用单分子实时测序和高分辨率光学图谱技术重新组装了玉米基因组,contig长度提升了52倍,基因间区和着丝粒区域组装得到了明显改善,鉴定了130,000个完整转座子。通过单分子实时测序技术获得了111,000个全长转录本,更新了基因注释。 Gene flow, ancient polymorphism, and ecological adaptation shape the genomic landscape of divergence among Darwin’s finches >>>Genome Res. 2017. 27: 1004-1015作者研究了12种达尔文雀,通过扫描全基因组中两两遗传差异大的区域(FST,dXY),发现同域和异域的种之间这种区域的数量相当,说明基因流不是它们形成的主要因素。在这些区域发现了和鸟喙发育相关的基因,说明这些区域涉及生态适应。作者还发现有些区域的形成于达尔文雀扩散的早期。 Asian wild rice is a hybrid swarm with extensive gene flow and feralization from domesticated rice >>>Genome Res. 2017. 27: 1029-1038作者对203个栽培稻和435个野生稻就行了研究,发现现在的野生稻大多与栽培稻存在大量通过花粉或种子介导的基因流。研究还发现aus, indica和 japonica与同域的野生稻存在不同的基因流地理模式。与japonica相比,野生稻与aus, indica的基因流发生在更近期,可能与japonica很早以前就广泛分布有关。 Increasing mapping precision of genome-wide association studies: to genotype and impute, sequence, or both? >>>Genome Biology201718:118作者对GWAS精细定位进行了综述,主要关注全基因组测序和芯片分型加推断的优劣势。 Differentiated demographic histories and local adaptations between Sherpas and Tibetans >>>Genome Biology201718:115研究发现夏尔巴人和藏族人都是混合群体,但是不支持藏族人起源于夏尔巴人和汉人的猜想。与藏人相比,夏尔巴人有更高的南亚血统,藏人有更高的东亚和中亚/西伯利亚血统。作者还提出了新的模型来阐述藏人和夏尔巴人不同的群体历史和地区适应性。 “Like sugar in milk”: reconstructing the genetic history of the Parsi population >>>Genome Biology 2017 18:110研究发现在现代人群种,与其南亚邻居相比,帕西人在遗传上与伊朗和高加索人更近,帕西人与现代伊朗人共享更多的单倍型,帕西人大概1,200年前与印度人分歧。帕西人较高的纯合度反映了其近期的隔离和近交。古样本中观测到了48%南亚特有的线粒体型,可能是帕西人早起定居与当地的女性结合有关。作者还发现,与现代伊朗人相比,帕西人与古伊朗人更近,因为现代伊朗人近期混合了近东的遗传成分。 The Evolutionary Interplay between Adaptation and Self-Fertilization >>>30055-0)Trends in Genetics, Volume 33, Issue 6, p420–431, June 2017作者对自交对适应性的影响进行了综述。 Wild tobacco genomes reveal the evolution of nicotine biosynthesis >>>PNAS, June 6, 2017vol. 114 no. 23两种野生烟草基因组从头测序揭示了尼古丁生物合成的进化。 PosiGene: automated and easy-to-use pipeline for genome-wide detection of positively selected genes >>>Nucleic Acids Res (2017) 45 (11): e100.比较基因组学中,不同种同源基因正选择检测。 The Nephila clavipes genome highlights the diversity of spider silk genes and their complex expression >>>Nature Genetics 49, 895–903 (2017)大木林蛛基因组从头测序,揭示蛛丝基因的多样性和表达的复杂性。 Cassava haplotype map highlights fixation of deleterious mutations during clonal propagation >>>Nature Genetics 49, 959–963 (2017)作者通过对241个Cassava高深度测序来研究其有害突变的积累。研究发现,虽然驯化改变了淀粉和酮类代谢途径以适应人的消化,但是伴随的瓶颈效应和无性繁殖增加了有害突变的积累;因为Cassava基因组缺少重组,所以有害突变不能有效清除;虽然近期育种消除了杂合位点最有害的隐形突变以维持产量,但是并不能消除突变负载。 Contrasting evolutionary genome dynamics between domesticated and wild yeasts >>>Nature Genetics 49, 913–924 (2017)通过长读长测序12株酿酒酵母主要类型和其野生近缘种奇异酵母,研究酵母基因组机构变异的规律。 Genome sequencing and population genomic analyses provide insights into the adaptive landscape of silver birch >>>Nature Genetics 49, 904–912 (2017)银桦树基因组从头测序,并对80个银桦树进行了重测序,揭示了其群体历史和环境适应性。 Phylogenetic rooting using minimal ancestor deviation >>>Nature Ecology & Evolution 1, 0193 (2017)利用一种叫minimal ancestor deviation (MAD) 的方法给无根树定根。]]></content>
</entry>
<entry>
<title><![CDATA[LiftOver chain 文件创建流程]]></title>
<url>%2Fgenomics%2Fliftover-chain.html</url>
<content type="text"><![CDATA[当我们所研究的物种有多个基因组组装版本的时候,我们往往需要将两个版本的位置对应起来。比如某个版本注释了某些转录因子,而另外一个版本没有注释,我们需要知道这些转录因子在另一个版本的位置。比如早期的QTL研究是基于老版本的参考序列,我们需要知道这些QTL在新版本参考序列中的位置等等。 最常用的工具是UCSC的LiftOver,如果你所研究的物种刚好是LiftOver支持的物种,那很幸运,可以直接使用其在线工具,或者下载chain文件后,通过pyliftover或CrossMap等工具转换。如果没有做好的chain文件,那需要自己生成。UCSC对于自行生成chain文件有详细的pipeline,所以这篇博客不对每一步作详细说明,只提供主要步骤说明,并避开UCSC流程中的一些坑。 BLAT比对 既然要对应两个序列,那最直接的方式就是比对了,liftover原理主要基于此,并把位置关系存在chain文件中,用于后续查询。参考序列相近,比如同个物种的两个不同组装版本,可以用blat比对,如果是不同物种,则需要用blastz进行比对。 我对UCSC的pipeline进行了一些修改,命名为chain_step*.sh,中间需要修改或注意的地方加了注释。在运行之前,需要 1) 下载并编译好UCSC的kentUtils,liftover主要用到其中一系列工具。2) 将需要对应的两个参考序列转为2bit格式,并放在同一个目录下,可以用kentUtils的faToTwoBit进行转换。3)修改chain_step1.sh中的必要参数。主要需要修改的是kentUtils路径,工作路径,两个2bit格式参考序列前缀。需要指出的是,targetDb为已知位置的序列,queryDb为查询序列,即将targetDb的位置转为queryDb的位置。 运行该步后,会在run.blat目录下生成一个jobList,如果任务少,可以直接sh jobList运行,如果任务多,可以在集群上用SGE投递任务。运行需要blatJob.csh脚本,注意修改blatJob.csh中blat和kentUtils路径。 最大的坑出现了!!! jobList里面的任务运行完之后,并不能直接运行流程接下来的部分,这是UCSC流程最大的坑。在run.blat/psl/*/目录下,生成了一系列的psl格式的比对结果,需要对该结果进行修改,主要是因为对targetDb序列进行了切割,psl文件里面记录的染色体名和长度以及比对的位置都需要进行调整。该调整可以通过脚本change_psl.py实现,如需要对所有psl文件进行调整,则在psl目录下运行ls */*.psl|while read a;do python change_psl.py $a target.fa.fai ;done,其中target.fa.fai是待转换参考序列fa格式的fai文件,通过samtools faidx target.fa生成。 生成chain文件 第一步完成后,接下来就比较简单了。在工作目录下运行chain_step2.sh后,会在run.chain目录下生成jobList,直接运行或拆分后用SGE投递。jobList任务运行结束后,在工作目录运行chain_step3.sh,会在run.chain目录下生成doNet.csh,直接运行该脚本。注意修改step2和step3脚本中的路径。 运行结束后,会在工作目录生成后缀为.over.chain.gz的压缩文件,该文件就是我们需要的chain文件。 至此,大功告成! 利用该文件,就可以使用CrossMap对bed/gtf/gff/bam/vcf等文件中的参考序列位置进行转换。]]></content>
</entry>
<entry>
<title><![CDATA[文献速递 (2017年5月)]]></title>
<url>%2Fpaper-express%2Fpaper-express-201705.html</url>
<content type="text"><![CDATA[Two extended haplotype blocks are associated with adaptation to high altitude habitats in East African honey bees >>>PLoS Genet 13(5): e1006792.作者通过对东非意蜂高海拔和低海拔群体进行全基因组测序,发现高海拔和低海拔群体基因组之间存在两个遗传差异非常大的区段。其中一个区段存在一系列章鱼胺受体,推测与高海拔和低海拔群体的学习和觅食行为差异有关。这两个区段极大的遗传差异暗示了这些群体古老的起源,祖先群体很可能在传播到当前区域之前就存在不同的环境适应性了。 Pollutants and Insecticides Drive Local Adaptation in African Malaria Mosquitoes >>>Mol Biol Evol (2017) 34 (5): 1261-1275.对喀麦隆地区941只疟蚊进行简化基因组测序,得到8000个SNP标记。分析发现这些蚊子存在城市和乡村的群体遗传分化,城市污染地区的蚊子存在对杀虫剂的适应性。 Mitogenome Diversity in Sardinians: A Genetic Window onto an Island’s Past >>>Mol Biol Evol (2017) 34 (5): 1230-1239.撒丁岛人被认为是欧洲遗传组成的‘离群值’。作者对3,491个现代和21个古代撒丁岛人的线粒体基因组进行了研究,发现78.4%的现代线粒体基因组都能被分到89个单体型。作者发现大部分的线粒体基因组的溯祖时间大概在青铜时代,但也有一些稀有线粒体基因组的溯祖时间在新石器时代。 Evolution of Local Mutation Rate and Its Determinants >>>Mol Biol Evol (2017) 34 (5): 1100-1109.人基因组不同的区域,突变率存在差异,部分可以通过DNA分子不同区域的性质来解释。但是不同物种的同源区域突变率的差异的形成原因还不清楚,本文给出了一些解释。 The Demographic and Adaptive History of the African Green Monkey >>>Mol Biol Evol (2017) 34 (5): 1055-1065. 通过来自非洲绿猴所有5个群体的25个个体进行研究,揭示了绿猴的群体历史和适应性。 GppFst: genomic posterior predictive simulations of FST and dXY for identifying outlier loci from population genomic data >>>Bioinformatics (2017) 33 (9): 1414-1415.通过后验预测模拟FST和dXY来发现基因组受选择区域。 fastMitoCalc: an ultra-fast program to estimate mitochondrial DNA copy number from whole-genome sequences >>>Bioinformatics (2017) 33 (9): 1399-1401.快速估计细胞中平均线粒体拷贝数。其基本思想就是和常染色体测序深度比较。只是没有计算常染色体所有区域,只抽取了0.1%来计算,这样大大加快了计算速度。(这也能发Bioinformatics???) VCF-kit: assorted utilities for the variant call format >>>Bioinformatics (2017) 33 (10): 1581-1582.对VCF文件进行过滤等计算的工具。其中设计引物的功能可能是比较其他工具比较实用的。 KNIME4NGS: a comprehensive toolbox for next generation sequencing analysis >>>Bioinformatics (2017) 33 (10): 1565-1567.NGS数据分析pipeline,包括RNA的差异表达,DNA的质控,比对,SNP calling,BQSR,BQSR,VEP等等工具。 Widespread Allelic Heterogeneity in Complex Traits >>>30149-0)AJHG (2017) 100(5): 789-802等位基因异质性普遍存在于复杂性状中,这降低了统计的显著性。理解等位基因异质性,有助于我们开发新的方法进行遗传定位。 Inferring Human Demographic Histories of Non-African Populations from Patterns of Allele Sharing >>>30146-5)AJHG (2017) 100(5): 766-772.通过简单的基于简约法的分析揭示东亚人和美拉尼西亚人是姐妹群。 Dispersals and genetic adaptation of Bantu-speaking populations in Africa and North America >>>Science 05 May 2017:Vol. 356, Issue 6337, pp. 543-546对来自35个群体的1318个班图语系人的遗传数据进行分析,发现在向非洲南部和东部扩散之前,班图语系人首先沿着赤道雨林向南迁徙。和当地人的混合,帮助了班图语系人适应当地环境。发现了非洲中西部班图语系人对非裔美国人的遗传贡献。 New advances in sequence assembly >>>Genome Res. May 2017; 27 (5)这篇文章是编辑对于本期涉及组装方法的综述。这一期的文章主要讲基因组组装方法的进展,特别是长读长reads的组装方法。 Discovery and genotyping of structural variation from long-read haploid genome sequence data >>>Genome Res. 2017. 27: 677-685利用长读长reads检测结构变异。 A comparative evaluation of genome assembly reconciliation tools >>>Genome Biology 2017 18:93在基因组组装时,往往会用多个软件和参数组装多个版本,一般会挑一个最好的结果发表,也有将多个版本合并在一起,得到一个一致组装序列。对于后者,工具很多,本文对这些工具进行了评估。 African genomes illuminate the early history and transition to selfing in Arabidopsis thaliana >>>PNAS (2017) 114(20): 5213–5218 作者对78个非洲拟南芥进行测序,同1000多个已经测序的欧亚拟南芥一起分析。发现非洲拟南芥就是当地起源的,而且多态性最高,还发现拟南芥的自交性状是在非洲一个地方转变完成。文章对拟南芥的分歧时间,群体动态进行了推断。(研究植物群体历史的文章比较少,这篇看上去很有参考价值!) digit—a tool for detection and identification of genomic interchromosomal translocations >>>Nucleic Acids Res (2017) 45 (9): e72.基于pair end和mate pair数据检测染色体间异位的工具。 Signatures of adaptation in the weedy rice genome >>>Nature Genetics 49, 811–814 (2017)作者通过全基因组测序研究了美国两种主要杂草稻的起源和适应性。杂草稻从栽培稻祖先去驯化在其进化历史上扮演关键作用。 Transitioning from association to causation with eQTLs >>>Nature Reviews Genetics 18, 271 (2017)从关联到因果的转变-通过eQTLs。该文章介绍了AJHG的两篇文章,说明了eQTLs在寻找causal gene的作用。 Sequencing and de novo assembly of a near complete indica rice genome >>>Nature Communications 8, 15324 (2017)通过单分子测序,遗传图谱,fosmid等组装了籼稻Shuhui498的基因组,组装长度为390.3 Mb,覆盖Shuhui498基因组99%以上。 An integrated model for detecting significant chromatin interactions from high-resolution Hi-C data >>>Nature Communications 8, 15454 (2017)通过高分辨率的Hi-C数据检测显著染色体互作的整合模型。 Genomic variation associated with local adaptation of weedy rice during de-domestication >>>Nature Communications 8, 15323 (2017)作者对155株杂草稻和76株当地栽培稻进行了平均18.2 x的全基因组测序。通过系统发育树和群体动态分析发现,中国的杂草稻是独立从栽培稻去驯化形成的,中间经理了强的瓶颈效应。虽然有多个起源,杂草稻的关键基因显示了趋同进化。在杂草稻中鉴定出Mb大小的区段显示经历过平衡选择,而栽培稻没有。]]></content>
</entry>
<entry>
<title><![CDATA[python按指定分隔符读取文件]]></title>
<url>%2Fprogramming%2Fblockread-python.html</url>
<content type="text"><![CDATA[在处理一些结构化的文件,如fasta文件,我们往往需要读完一条记录再进行处理,如计算每条序列的长度,GC含量等等。这个时候通常的做法是按行读,先把内容存在一个临时变量,直到读到下一个区块分隔符(如fasta文件的‘>‘)的时候再处理上一条记录。如果文件不大,也可以一次读进内存,然后用split分割。前一种方法逻辑有点绕,而且容易忘记处理最后一条记录。而后一种方法对于大文件的处理就不适用了。 有没有什么方法让python以指定的分隔符读文件,而不是默认的换行符呢?我们知道perl有内建的$/变量来修改perl的默认文件分隔符,如设置$/='>'后,perl就可以每次读一条fasta记录。但是据我了解,python并没有类似的内建方法。这里提供一个十分方便的函数来按指定分隔符读文件: 123456789101112def blockread(fh, sep): buf = "" while True: while sep in buf: pos = buf.index(sep) yield buf[:pos] buf = buf[pos + len(sep):] chunk = fh.read(4096) if not chunk: yield buf break buf += chunk 函数第一个参数为文件句柄,第二个参数为分隔符。如果我们想遍历一个fasta文件,每次读一条fasta记录,可以使用for each in blockread(open('filename'), '>'):。该函数主要是用到yield来生成一个可迭代对象。函数的分隔符需要是字符串,经过简单修改,也可以用正则表达式作为分隔符。]]></content>
</entry>
<entry>
<title><![CDATA[群体模拟软件ms使用说明]]></title>
<url>%2FPopulation-Genetics%2Fms-simulation.html</url>
<content type="text"><![CDATA[ms是中性进化条件下,群体数据模拟最常用的软件。群体数据模拟在群体遗传学研究中非常重要,可以用来评估各统计量的可靠性,研究某种群体历史下各统计量的估计值,帮助我们理解真实数据所经历的群体历史。 基本用法: 1ms nsam nreps -t θ nsam为模拟的样本数量(单倍型),nreps为模拟的DNA片段数量,各片段之间不存在连锁。这两个参数为必需的。θ为突变参数,θ=4N0μL,详见下面参数解释。 输出文件如下: 12345678910111213141516ms 4 2 -t 5.027473 36154 10290//segsites: 4positions: 0.0110 0.0765 0.6557 0.75710010010000001001//segsites: 5positions: 0.0491 0.2443 0.2923 0.5984 0.831200001000000001011110 第一行为命令行。第二行为随机数种子,用该随机数种子可以重复模拟的结果。之后的数据以‘//’分隔各DNA片段。每个片段第一部分为分离位点数。第二部分为这些分离位点的相对位置,0~1之间,默认保留4位小数,可以用-p n 来修改精度,n为保留的小数位数。第三部分为基因型,每一行为一个单倍型,祖先型用0表示,突变用1表示。 各参数含义123456789101112131415161718192021222324-f filename # 参数文件,ms可以从文件读取除nsam, nreps之外的其它参数-seeds x1 x2 x3 # 随机数种子,3个整数,一样的随机数种子可以重复结果,缺省后ms使用默认随机数种子-t θ # 突变率,θ=4NμL, N为二倍体群体大小, μ为突变率,L为模拟的DNA片段长度。-s int # 每个DNA片段生成固定的分离位点数,如果我们要模拟不连锁的SNPs,可以设置-s 1。-T # 输出系统发育树,newick格式。-L # 输出最近共同祖先的时间及总枝长,单位是4N generation。-p int # 保留小数位数,默认是4-r ρ nsites # ρ=4Nr,r为模拟DNA片段两末端之间的重组率,nsites为DNA片段长度。-c f λ # 基因转换, f=g/r, g为每碱基转换率,如果r=0,则f=4Ng,λ为平均基因转换长度,即使ρ=0,nsites也要通过-c指定。-G α # 将所有群体的增长率设为α,群体呈指数增长,α为自然数e的幂。时间的单位为4N generation。-I npop n1 n2 ...[4Nm] # 设定一共npop个群体,每个群体的样本数分别为n1,n2 ...,群体的总基因流为4Nm,默认为0。注意,每个群体之间的基因流为4Nm/(npop-1)。 -n i x # 设置第i个群体大小为x*N。 -g i a_i # 设置第i个群体的增长率为a_i。 -m i j Mij # 设置群体j到群体i的基因流为Mij,单位为4N generation。 -ma M11, M12...M21, M22... # 设置基因流矩阵。i=j的时候,是没有任何意义的,ms会忽略,可以用x代替。-eG t a # 设置时间t的时候,所有群体的增长率,注意ms模拟的逻辑是backward,所有的时间都是距离当前的时间,单位为4N generation。-eg t i ai # 设置时间t的时候,i群体的增长率为ai。-eN t x # 设置时间t的时候,所有群体的大小为x*N,注意,此设置默认效果是所有群体的增长率变为0。因此,要使同一时间的增长率生效,增长率设置要在群体大小设置之后。-en t i x # 设置i亚群的增长率,效果同上。-eM t x # 设置t时间所有群体之间的基因流为x/(npop-1)。-em t i j x # 设置时间t,j 到i的基因流4Nmij=x。-ema t npop M11, M12... # 设置t时间的基因流矩阵。-es t i p # t时间i群体分为i和npop+1两个亚群,i中每个个体分到新i的概率为p,分到npop+1的概率为1-p。新群体的基因流和增长率都为0,群体大小设为N,i群体的基因流增长率不变。从正向历史来看,这是一个admixture事件。-ej t i j # t时间,i群体所有个体合并到j群体,i群体到其它群体的基因流都变为0,增长率不变。从正向历史来看,这是一个群体分化事件。 注: 以上N皆指 N0, 因为在markdown的代码块里面,html标记不生效 例子1. 群体大小瞬间收缩然后指数扩增 图中N1=10,000,N2=5,000,N3=20,000,如果突变率为每代10-8,如果模拟的DNA片段长度为8,000 bp,将N0设置为20,000,则θ=4*20000*10-8*8000=6.40,如果T1是16000代,则转为4N0代单位为16000/(4*20000)=0.2,T2为24000代,即0.3以4N0代为单位。5000=20000*exp-a0.2,算出a为6.93。如果该群体取15个样本,模拟1000个DNA片段,ms命令如下:1ms 15 1000 -t 6.4 -G 6.93 -eG 0.2 0.0 -eN 0.3 0.5 2. 两个群体分化后经历不同的群体大小变化 各个参数的计算参考1,不再赘述,只给每个模型的ms命令。 12ms 15 100 -t 11.2 -I 2 3 12 -g 1 44.36 -n 2 0.125 -eg 0.03125 10.0 -en 0.0625 2 0.05 -ej 0.09375 2 1 3. 近期隔离的踏脚石模型 123ms 15 100 -t 3.0 -I 6 0 7 0 0 8 0 -m 1 2 2.5 -m 2 1 2.5 -m 2 3 2.5-m 3 2 2.5 -m 4 5 2.5 -m 5 4 2.5 -m 5 6 2.5 -m 6 5 2.5 -em 2.0 3 42.5 -em 2.0 4 3 2.5 4. 近期Admixture事件 1234567891011ms 76 50000 -s 1 -I 17 24 22 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 \-n 1 1 -n 2 0.3333 -n 3 0.25 -n 4 0.25 -n 5 0.2 -n 6 0.2 -n 7 0.2 -n 8 0.2 \-n 9 0.2 -n 10 0.2 -n 11 0.2 -n 12 0.2 -n 13 0.2 -n 14 0.2 -n 15 0.2 \-n 16 0.2 -n 17 0.2 \-es 0.0003125 5 0.5 -en 0.0003125 5 0.2 -ej 0.0003125 18 2 \-es 0.0003125 6 0.5 -en 0.0003125 6 0.2 -ej 0.0003125 19 2 \-ej 0.01041667 6 5 -ej 0.01041667 7 5 -ej 0.01041667 8 5 -ej 0.01041667 9 5 \-ej 0.01041667 10 5 -ej 0.01041667 11 5 -ej 0.01041667 12 5 \-ej 0.01041667 13 5 -ej 0.01041667 14 5 -ej 0.01041667 15 5 \-ej 0.01041667 16 5 -ej 0.01041667 17 5 -ej 0.01354167 5 4 \-ej 0.01458333 4 3 -ej 0.015625 3 2 -ej 0.034375 2 1]]></content>
</entry>
<entry>
<title><![CDATA[主成分分析及其解读]]></title>
<url>%2FPopulation-Genetics%2Fpca-interpret.html</url>
<content type="text"><![CDATA[主成分分析是群体遗传学中常用的分析手段,一般用来 1)分析群体中存在的群体结构(分层); 2) 推断群体历史; 3) 关联分析中对群体结构进行校正。目前用于主成分分析的数据主要为高密度的SNP标记,其主要思想是将多个线性相关的变量(SNP),通过一系列矩阵转换,变成少数几个变异解释度大的线性无关变量(特征向量)。 主成分分析软件 主成分分析的软件非常多,R中的prcomp函数即可进行。但是对于群体遗传学中多样本(几百甚至几千),高密度SNP标记(几百万)需要太多内存和时间,甚至根本不能完成。这里推荐两个比较好用的软件smartpca(EIGENSOFT软件包中)和flashpca。下面以smartpca为例简单说明一下主成分分析。 主成分分析过程中,基因型数据要转换为[0, 1, 2]离散变量,表示某样本某位点相对参考序列突变allele数,因此只能分析二倍体双等位基因数据(smartpca也可以分析SSR数据)。n个样本,m个SNPs,既生成n x m矩阵。smartpca在计算过程中,每列需要标准化,即矩阵中每个数字要减去该列平均数uj,同时除以uj的一个函数,因此每列的和为0,自由度变为n-1,所以smartpca算出来的特征值和特征向量都是n-1个。 smartpca的输入文件支持5种格式,可以用EIGENSOFT软件包中的convertf程序相互转换。其中最通用,最方便我们使用的就是PLINK的ped格式文件。smartpca软件运行命令行: 1smartpca -p smartpca.par > pca.log smartpca.par为参数配置文件,示例如下: 12345678genotypename: sample159.pedsnpname: sample159.pedsnpindivname: sample159.pedindevecoutname: sample159.pca.vecevaloutname: sample159.pca.valnumoutlieriter: 0poplistname: popsnumchrom: 22 其中sample159.ped为PLINK格式ped文件,注意smartpca从该文件第6列读取群体信息,如果用vcftools转为PLINK格式ped文件,该列默认为-9,如果有群体信息,将该列改为相应的群体ID,如果没有,请将该列改为‘1’,如果该列为’0’, ‘9’, ‘-9’则表示过滤掉相应个体。sample159.pedsnp为PLINK格式map文件,sample159.pedind文件为sample159.ped文件的1~6列。注意,这3个文件的后缀不能改变,smartpca从文件后缀判断文件格式。*.vec和 *.val为特征向量和特征值的输出文件,numoutlieriter参数表示进行几次异常样本去除。如果只想用一部分群体进行PCA分析,将另外的个体映射到该变量空间,可以将进行PCA分析的群体ID放在poplistname参数的文件中,每个群体ID一行,其它个体将影射到这些群体的变量空间。numchrom为最大常染色体编号,超过该值的其它染色体将忽略。 smartpca程序分析结束后,就可以用特征向量*.vec文件进行画图。该文件特征向量按解释度大小从左到右排列。一般用前3个主成分进行画图展示。 主成分分析判断群体结构 主成分分析的结果可以用来判断是否存在群体结构(分层),如果亚群之间的差异比较大,我们可以看到不同的亚群会形成各自的cluster,如上图。有些群体可能差异比较小,很难通过眼睛判断是否存在群体结构,那么是否有定量的检验方法呢? smartpca提供Tracy-Widom检验来判断在每一个主成分上是否群体存在显著分层,该检验的P值输出在log文件中。一般两个群体之间的Fst大于0.005时,Tracy-Widom检验就会十分显著。 主成分分析推断群体历史 admixture事件 如下图,如果A群体和B群体混合生成了C群体,那么PCA分析结果中,C群体会在AB的连线上,谁的比例多,离谁更近。但是如果该混合事件发生在很久以前,由于混合群体经历了自己特有的遗传漂变,会逐渐偏离该连线。 混合事件不会改变变量空间,即上面的ABCD群体和ABD群体进行PCA分析,所得到的显著主成分一样多。 migration事件 如果PCA呈线性分布,与群体的地理分布距离一致,那很有可能说明了该物种的迁徙历史。如下图,左下方彩色的点表示的是狗,该分布就呈线性,与狗从亚洲东南部,经过中亚向欧洲扩散的历史相吻合。 下图用撒哈拉以南的非洲人群体作为变量空间进行PCA分析,将其它人群体映射到该变量空间,发现所有其它非撒哈拉以南非洲人群体都聚在一起,暗示了人类从南非的一次迁出。 需要注意的是,PCA呈线性分布并非一定是migration造成的,isolation by distance也会形成该结构。所以要结合其它分析进行判断。 长的LD片段会影响PCA分析,因此高密度的SNP数据,需要进行LD过滤(LD-based SNP Prunning)。 利用PCA结果对关联分析进行群体结构校正 一般用前几个主成分进行校正,关联分析软件GAPIT可以实现,在以后GWAS专题会总结,这里不细说。 需要注意的是,用PCA进行校正的时候,最好只用与表型相关的主成分校正,不然很容易校正过度,导致模型失去power。 参考文献: Principal component analysis of genetic data Population Structure and Eigenanalysis Interpreting principal component analyses of spatialpopulation genetic variation Out of southern East Asia: the natural history of domesticdogs across the world]]></content>
</entry>
<entry>
<title><![CDATA[分染色体并行计算中科学分配任务]]></title>
<url>%2Fprogramming%2Fsplit-ref.html</url>
<content type="text"><![CDATA[在生物信息分析过程中,为了加快运行速度,我们经常会采用分染色体计算的方式,即scatter/gather的思想。比如SNP calling, SNP phasing及imputation等。但怎样划分染色体,划分几个部分比较合适呢? 一般情况下,程序运行的时间和染色体长度成正比,而组装出来的染色体一般长度差异很大。在计算资源充足的情况下,一条染色体一个任务通常是最快的。如果任务存在排队,包含长染色体的任务如果排在后面,那需要的时间反而更多了。之前供职的公司,流程采用随机分成染色体数目相等的N份,但存在一些问题:1)N为多少合适?多了如果任务有排队,一条染色体一个任务不一定快,还比较浪费计算资源。分太少又需要更多计算时间。2)随机分配,很有可能将两条较长的染色体分在一个任务中。 很多人想到了,既然程序运行时间和染色体长度成正比,那保证每份任务所分配的染色体总长相等不就可以了吗?确实是这样,这里有一个前提,即染色体不能打断,因为打断后,有些计算可能出问题,比如断点处存在变异,比如计算ROH、IBD等。 这里提供一种比较科学的解决办法:将该问题视为简单的一维装箱问题,箱子的大小即最长染色体的长度,利用贪婪算法解决这个装箱问题。如果最长的染色体计算时间是最长的,这样其它任务都不会超过这个时间,而且保证了分配的任务数量相对少(贪婪算法的结果很有可能不是全局最优解,但是好在算法简单,相对最优的结果也可以接受)。python实现如下: 123456789101112131415161718192021222324252627282930def SplitFai(fai, outdir, size=0): chrs = [] flist = [] for line in open(fai): info = line.strip().split()[0:2] chrs += [[info[0], int(info[1])]] chrs = sorted(chrs, key=lambda a: a[1], reverse=True) if not size: size = chrs[0][1] elif size < chrs[0][1]: sys.stderr.write('Error: size is short than the longest chromosome!') sys.exit(0) count = 0 while chrs: fo = open(outdir+'/gemone.split_'+str(count)+'.list', 'w') flist.append(outdir+'/gemone.split_'+str(count)+'.list') lenC = 0 chrs_new = [] for each in chrs: if size - lenC >= each[1]: fo.write(each[0] + '\n') lenC += each[1] else: chrs_new += [each] chrs = chrs_new count += 1 return flist 该函数有3个参数,第1个是参考序列的index文件,用samtools faidx ref.fa生成,该文件第一列为染色体名,第二列为染色体长度。第2个参数为输出目录,第3个参数为每份染色体总长度的上限,即箱子大小,默认为最长染色体长度。 注意,如果自己指定箱子大小,箱子大小必须超过最长染色体长度。 输出文件为每份包含的染色体ID。 该函数的思路:将所有染色体按照长度从大到小排序。装箱的时候先尽量装大的,直到装不下再换新箱子。]]></content>
</entry>
<entry>
<title><![CDATA[单体型网络(Haplotype Network)构建及展示]]></title>
<url>%2FPopulation-Genetics%2Fhaplotype-network.html</url>
<content type="text"><![CDATA[单体型网络(Haplotype Network)是谱系地理研究的重要手段。通过单体型网络,我们可以推断群体的起源、扩散历史。那么怎样理解单体型网络以及怎样构建单体型网络? 什么是单体型网络?单体型(haplotype)在单体型网络中是指一段遗传连锁的核酸序列。不同的单体型,通过序列中的变异来区分(常用SNP)。一般用来进行单体型网络构建的单体型有:1)线粒体基因组;2)Y染色体;3)叶绿体基因组;4)基因组上一段强连锁的区段。 上图是一个单体型网络的例子,图中一个圆圈表示一个单体型,两个圆圈之间的连线表示这两个单体型相关(一个是由另一个突变而来),连线上面的短竖线表示从一个单体型到与其相连的单体型需要经历的碱基替换数,一个竖线表示一个替换。彩色的圆圈表示我们实际取样到的单体型,圆圈大小表示这种单体型的个数。灰色圆圈表示推断出来可能存在的中间单体型,没有被取样到。一种颜色一般表示一个群体,如按地理划分,品种划分等。图中例子一个单体型只存在于一个群体中,实际情况一个单体型往往在多个群体中出现。此时,一个单体型圆圈中填充多种颜色,以饼图的形式展示。从上图我们可以猜测一种可能的群体历史:A群体和C群体都起源于B群体,A群体从B群体分化出来后,经历过急剧的群体扩张,导致A群体的单体型演化出多个亚型。当然,为了避免过度解读,推断群体历史需要多种证据结合起来。 构建单体型网络的工具比较经典的软件就是Network了,但是该软件只支持Windows系统,用起来也比较复杂。这里推荐PopART,该软件支持Windows,Mac,Linux系统,而且用起来也非常方便,支持多种常用的Network构建方法,关键是该软件支持地图的形式展示单体型分布。下面简单介绍一下该软件的使用方法。PopART的输入文件格式为NEXUS,一般主要用到两个部分DATA和TRAITS。 1234567891011121314151617181920212223242526#NEXUSbegin data;dimensions ntax=4 nchar=30;format datatype=dna missing=N gap=-;matrixseq1 CCACCGTTGCTAAAAATTCATGACACAAGGseq2 CCACAGTTTCTAAAAATTCGTGATACAAGGseq3 CCACAGTTGCTACAAATTCATGATACAAGGseq4 CCACAGGTGCTAAAAATTCATGAAACAAGG;end;BEGIN TRAITS; Dimensions NTRAITS=5; Format labels=yes missing=? separator=Comma; TraitLatitude 53 43.6811 5.4 -25.61 -0; TraitLongitude 16.75 87.3311 26.5 134.355 -76; TraitLabels Europe Asia Africa Australia America; Matrix seq1 10,5,0,6,0 seq2 0,0,5,0,0 seq3 4,0,10,0,0 seq4 0,0,0,4,2 ;END; DATA部分主要纪录单体型信息,比较好理解。TRAITS部分主要纪录单体型来源的群体。如上所示,例子中取了来自5个大洲的样本,一共4种单体型,TRAITS纪录了每种单体型在不同大洲取样的个数,如seq1在Europe有10个,在Asia有5个等等。关键字TraitLatitude和TraitLongitude纪录5个群体取样地点的经纬度,该信息在单体型网络构建中可以不用,当需要用地图展示单体型地理分布时,需要填该信息。NEXUS文件生成后,打开PopART,通过File -> Open输入NEXUS文件,然后通过菜单栏Network选择单体型网络构建算法,如常用的Median Joining Network。选择Median Joining Network后,会提示填写Epsilon参数,该参数用来控制推断中间单体型的细节程度,该值越大,会展示更多推断的中间单体型,一般选择默认的0就好。填好该参数后,点击OK,就生成了我们需要的单体型网络。然后通过菜单栏Edit下的选项,对图中群体的颜色、字体、图例等进行调整。下面介绍一下PopART的单体型地理分布展示。 点击View -> Switch to map view就可以得到如上所示的单体型地理分布图。通过单体型的地理分布直观展示,我们就可以对群体的扩散迁徙途径进行推断。 单体型序列的获得像线粒体、叶绿体、Y染色体等这些在遗传过程中不发生重组的序列,我们直接把检测到的变异替换到参考序列中,就可以用于单体型网络构建。但是通常研究的二倍体基因组数据,由于存在重组,因此不能简单的拿一段序列就进行单体型网络构建,这样的单体型网络就失去了它本身的意义。如要用基因组上面的序列,可以通过以下步骤: 找到基因组上强连锁的区段; 对这段区域中的SNP进行phase; 第一步可以用PLINK,命令如下:1plink --noweb --bfile bed_prefix --blocks no-pheno-req 该命令运行会生成.blocks.det文件,该文件纪录了强连锁区段的起止位置、所包含的SNP。接下来,我们需要对感兴趣的强连锁区域的杂合SNP进行phase,构建单体型,该步可以使用软件BEAGLE。第二步,使用BEAGLE进行phase:1java -Xss5m -Xmx4g -jar beagle.jar gt=prefix.vcf out=phased.vcf chrom=[chr]:[start]-[end]]]></content>
</entry>
<entry>
<title><![CDATA[文献速递 (2017年4月)]]></title>
<url>%2Fpaper-express%2Fpaper-express-201704.html</url>
<content type="text"><![CDATA[The Rice Paradox: Multiple Origins but Single Domestication in Asian RiceMol Biol Evol (2017) 34 (4): 969-979.通过对几种栽培水稻和野生祖先的基因组比较,发现不同栽培稻亚种分别来自不同的野生祖先,但是只经历了一次驯化事件。最先被驯化的是O. sativa ssp. japonica,与O. rufipogon大概在∼13.1–24.1 ka前分歧。japonica与indica和aus的驯化前体存在基因流,导致后两者获得了驯化基因型。 Genome Sequencing Reveals the Origin of the Allotetraploid Arabidopsis suecicaMol Biol Evol (2017) 34 (4): 957-968.对15个异源四倍体拟南芥Arabidopsis suecica进行了重测序。发现其与多个祖先物种共享多态性,排除了单一起源。该物种大概在末次盛冰期(LGM)的东欧或欧亚大陆中部出现。还发现两个自交不亲和基因都没有功能。 Deleterious Variants in Asian Rice and the Potential Cost of DomesticationMol Biol Evol (2017) 34 (4): 908-924.通过与野生种的比较,发现驯化种积累了更多(∼3–4%)的有害SNPs。这些有害SNPs 主要集中在低重组率的区域。在受选择区域,有害SNPs的频率增加和同义SNPs相近。驯化导致水稻从异交向以自交为主转变。 A Working Model of the Deep Relationships of Diverse Modern Human Genetic Lineages Outside of Africa Mol Biol Evol (2017) 34 (4): 889-902.人类走出非洲后,目前的遗传结构是怎样建立的,一直是人类历史研究的主要兴趣点。本文作者提出了一个模型,能够很好的拟合各人群体(东亚,澳大利亚,美国本土,古欧亚大陆西部和北部)的基因型频率数据。 What is adaptation by natural selection? Perspectives of an experimental microbiologistPLoS Genet 13(4): e1006668.微生物对自然选择适应的综述。微生物实验进化学。 Evolutionary history of Tibetans inferred from whole-genome sequencing PLoS Genet 13(4): e1006675. 通过对27个藏族人的全基因组测序,揭示其群体历史和受选择基因。 The time and place of European admixture in Ashkenazi Jewish historyPLoS Genet 13(4): e1006644.推断德系犹太人的历史。用了一些新的推断方法。 RECKONER: read error corrector based on KMCBioinformatics (2017) 33 (7): 1086-1089.对测序的reads质量进行矫正。 SVScore: an impact prediction tool for structural variationBioinformatics (2017) 33 (7): 1083-1085.对SV的影响进行预测。发现高影响的SV在群体中的频率更低,说明它们受到纯化选择。SVscore对预测有害突变的效果比其他软件好。研究者还发现duplication比deletion受到更强的选择。 Fast and accurate phylogeny reconstruction using filtered spaced-word matchesBioinformatics (2017) 33 (7): 971-979.不依赖于比对的系统发育树构建。 Improved VCF normalization for accurate VCF comparisonBioinformatics (2017) 33 (7): 964-970.该工具将VCF文件中所有的变异替换到参考序列中,生成单个样本的基因组序列。再重新call variants,生成标准的格式,便于比较。[这个比较有意思,对于indel,即使同样的变异,samtools和gatk纪录的形式不同,没法比较,通过该工具可能可以解决。] Biomartr: genomic data retrieval with RBioinformatics (2017) 33 (8): 1216-1217.用来从NCBI上面下载数据(参考序列,数据库等)的R包。 GWAlpha: genome-wide estimation of additive effects (alpha) based on trait quantile distribution from pool-sequencing experimentsBioinformatics (2017) 33 (8): 1246-1247.通过混池测序,估计加性效应值。 Human Demographic History Impacts Genetic Risk Prediction across Diverse Populations30107-6)AJHG 100, 635–649, April 6, 2017人类群体历史影响遗传风险预测。在一个群体中预测的疾病相关位点,也许并不适用于另一个群体。 De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffoldsScience 07 Apr 2017: Vol. 356, Issue 6333, pp. 92-95利用Hi-C技术辅助组装,将伊蚊基因组组装到染色体水平。 A chromosome conformation capture ordered sequence of the barley genomeNature 544, 427–433 (27 April 2017)大麦基因组发表 SynthEx: a synthetic-normal-based DNA sequencing tool for copy number alteration detection and tumor heterogeneity profilingGenome Biology 2017基于全基因组或全外显子组测序的拷贝数变异检测工具。其能力和基于芯片的软件相当,胜过其它基于测序的软件。 Ancient genomic changes associated with domestication of the horseScience 28 Apr 2017研究人员对14匹距今2000~4000年的古马进行全基因组测序,揭示马的驯化过程。 Genetic signatures of high-altitude adaptation in TibetansPNAS April 18, 2017 vol. 114 no. 16 4189-4194文章结合了3,008个藏族人7.3 M SNP 芯片数据以及7,287个非藏族东亚人数据,揭示了藏族人适应高原环境基因。 Parallel adaptive evolution of geographically distant herring populations on both sides of the North Atlantic OceanPNAS April 25, 2017 vol. 114 no. 17 E3452-E3461北大西洋鲱鱼的平行进化。 Finding a Needle in a Haystack: Distinguishing Mexican Maize Landraces Using a Small Number of SNPsFront. Genet., 18 April 2017作者通过50个样本(5个不同地方种)的50k芯片数据,筛选出了用于区分不同地方种的SNPs。“we identified 20 landrace-informative SNPs and 14 altitude-informative SNPs.” Full Chloroplast Genome Assembly of 11 Diverse Watermelon AccessionsFront. Genet., 18 April 201711个西瓜全叶绿体基因组序列。 Analytical Biases Associated with GC-Content in Molecular EvolutionFront. Genet., 15 February 2017碱基组成(GC含量)在不同位点或分类群的异质性,会使分子进化分析产生偏好性,如构建系统发育树,检测自然选择或估计密码子使用率。文章对产生偏好的原因以及避开偏好的方法进行了综述。 A genome-wide association study identifies six novel risk loci for primary biliary cholangitisNature Communications 8, Article number: 14828 (2017)全基因组关联分析鉴定6个新的原发胆汁性胆管炎风险位点。 Genome assembly with in vitro proximity ligation data and whole-genome triplication in lettuceNature Communications 8, Article number: 14953 (2017)生菜基因组,2.7 G。用in vitro proximity ligation数据锚定小scaffold。 Reconstructing the genome of the most recent common ancestor of flowering plantsNature Genetics 49, 490–496 (2017)开花植物最近共同祖先基因组构建。 Asymmetric subgenome selection and cis-regulatory divergence during cotton domesticationNature Genetics 49, 579–587 (2017)野生和栽培棉花揭示驯化过程中受选择基因。 Fast, scalable prediction of deleterious noncoding variants from functional and population genomic dataNature Genetics 49, 618–624 (2017)有害非编码突变预测。(是否适合非模式生物?) Single-molecule sequencing and chromatin conformation capture enable de novo reference assembly of the domestic goat genomeNature Genetics 49, 643–650 (2017)通过单分子测序和染色体构像捕获组装山羊基因组。 Scallop genome provides insights into evolution of bilaterian karyotype and developmentNature Ecology & Evolution 1, Article number: 0120 (2017)扇贝基因组。]]></content>
</entry>
<entry>
<title><![CDATA[判断fastq文件质量编码格式及Phred64转Phred33方法]]></title>
<url>%2FQC%2Ffastq-phred-trans.html</url>
<content type="text"><![CDATA[前几天有朋友从网上下载了一批fastq文件,为Phred64格式,分析之前没发现,比对的时候BWA报错了。很多人可能没有接触过老Illumina数据,不知道怎么判断编码格式,也不知道怎么转为Phred33格式,所以简单说明一下怎么判断fastq文件的质量编码方式以及怎么将Phred64编码格式转为Phred33编码格式。 Phred64/33质量编码格式区别fastq文件中,碱基质量是用ASCII字符表示。Phred64编码格式,碱基质量值为字符的十进制ASCII码减去64。同理,Phred33编码格式,碱基质量值为字符的十进制ASCII码减去33。一般碱基的质量值范围为[0, 41],X ten之后,质量值只有(2,7,11,22,27,32,37,42)几个梯度。因此,GATK的BQSR过程对于X ten的数据可能更加重要。Phred质量值Q和出错的概率P的关系为Q = -10*lg(P),如碱基质量值为30,表示出错的概率为0.001,碱基质量值为20,表示出错的概率为0.01。目前主流软件如BWA, GATK等都识别的是Phred33质量编码格式,如果为Phred64格式,则可能会报错,即使不报错,后续的分析也会有问题。因此,下载的数据如果不清楚编码格式,需要先判断,如果为Phred64,则需要转为Phred33格式。 判断fastq文件质量值编码格式格式判断既可以通过肉眼快速判断,也可以使用下面的脚本进行判断。如果文件少,没有编程基础,可以用快速判断的方法。利用程序判断更加准确、快速、可批量处理,因此有编程基础的人,应该尽量使用程序判断。 肉眼快速判断:质量字符有数字[0~9]的为Phred33,有小写字母[a~z]的为Phred64。通过程序:基本思路为将一定数量的reads质量值字符转为ASCII码,然后判断质量值的范围。脚本的使用方法如下,第一个参数为fastq文件,自动判断是否为压缩文件,第二个参数为用于判断的reads数,默认为1000。 1perl CheckFqQualityCode.pl prefix.fq[.gz] [1000] Phred64格式转Phred33格式Phred64格式转Phred33格式的原理很简单,只需在原有ASCII码的基础上减去64再加上33既可。大家可以自己写,也可以使用lh写的seqtk工具,使用命令:1seqtk seq -VQ64 prefix.phred64.fq.gz | gzip > prefix.phred33.fq.gz]]></content>
</entry>
<entry>
<title><![CDATA[GWAS如何确定候选区间和causal gene]]></title>
<url>%2FGWAS%2FGWAS-candidate.html</url>
<content type="text"><![CDATA[随着高通量测序成本的急剧下降,越来越多的GWAS研究通过全基因组重测序获得标记。全基因组重测序的高密度标记,使得通过GWAS研究快速找到causal gene甚至causal mutation成为可能。但是通过GWAS得到一个信号后,怎么确定与这个信号关联的基因呢? 基本的思路就是找与这个信号强连锁的区域,一般来说r2大于0.6的区域视为强连锁的区域。简单粗糙的做法:我们可以通过群体的全基因组LD-decay分析,找到LD decay到r2等于0.6时所对应的距离,将GWAS超过阈值的信号前后各延伸这个距离作为候选区间。但是基因组不同区域的连锁程度差异很大,上面一刀切的做法可能使我们漏掉一些基因,或者多调查许多关联性并不强的基因。而且很多作物的连锁性很强,导致候选基因很多,这样就大大增加了工作难度。下面介绍一个非常简单高效的方法(参考文献)。 找到信号后,向前后延伸一段距离(可以根据全基因组的LD-decay水平大概估计),计算这段区域内所有标记pairwise r2,将r2大于0.6的block作为候选区间。pairwise r2可以用PLINK计算: 123plink --noweb --bfile <bfile_prefix> \ --chr 5 --from-bp 13641890 --to-bp 17641890 \ --matrix --r2 --out <out_prefix> 画图用R,输入文件为plink计算的到的r2矩阵,以及标记的位置: 123456789#!/usr/bin/env Rscriptlibrary(LDheatmap)argv <- commandArgs(TRUE)ldmatrix <- as.matrix(read.table(argv[1],sep=' '))pos <- as.numeric(unlist(read.table(argv[2], head=FALSE)))pdf(argv[3])rgb.palette <- colorRampPalette(rev(c("yellow", "orange", "red")), space = "rgb")LDheatmap(ldmatrix, genetic.distances=pos, color=rgb.palette(100), flip=TRUE)dev.off() 将这个区域内的标记按照其对基因功能的影响程度分为5类: 1) 标记与性状显著关联(-log10P大于阈值),且该标记影响氨基酸编码,或者位于剪接位点; 2) 标记与性状显著关联,且位于基因起始密码子上游2 kb内; 3) 标记与性状显著关联,且位于基因内,除开1)和2)之外的标记 4) 标记与性状显著关联,位于基因间区 5) 标记与性状不显著关联 然后,按照这5类的顺序,依次调查,一般来说,属于1)类的可能性很大,而且基因一般就几个,这样就大大减少了工作难度。]]></content>
</entry>
</search>