-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathsearch.xml
28 lines (18 loc) · 12.5 KB
/
search.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
<?xml version="1.0" encoding="utf-8"?>
<search>
<entry>
<title><![CDATA[文献速递 (2017年4月)]]></title>
<url>%2F%E6%96%87%E7%8C%AE%E5%AF%BC%E8%AF%BB%2Fpaper-express-201704.html</url>
<content type="text"><![CDATA[The Rice Paradox: Multiple Origins but Single Domestication in Asian RiceMol Biol Evol (2017) 34 (4): 969-979.通过对几种栽培水稻和野生祖先的基因组比较,发现不同栽培稻亚种分别来自不同的野生祖先,但是只经历了一次驯化事件。最先被驯化的是O. sativa ssp. japonica,与O. rufipogon大概在∼13.1–24.1 ka前分歧。japonica与indica和aus的驯化前体存在基因流,导致后两者获得了驯化基因型。 Genome Sequencing Reveals the Origin of the Allotetraploid Arabidopsis suecicaMol Biol Evol (2017) 34 (4): 957-968.对15个异源四倍体拟南芥Arabidopsis suecica进行了重测序。发现其与多个祖先物种共享多态性,排除了单一起源。该物种大概在末次盛冰期(LGM)的东欧或欧亚大陆中部出现。还发现两个自交不亲和基因都没有功能。 Deleterious Variants in Asian Rice and the Potential Cost of DomesticationMol Biol Evol (2017) 34 (4): 908-924.通过与野生种的比较,发现驯化种积累了更多(∼3–4%)的有害SNPs。这些有害SNPs 主要集中在低重组率的区域。在受选择区域,有害SNPs的频率增加和同义SNPs相近。驯化导致水稻从异交向以自交为主转变。 A Working Model of the Deep Relationships of Diverse Modern Human Genetic Lineages Outside of Africa Mol Biol Evol (2017) 34 (4): 889-902.人类走出非洲后,目前的遗传结构是怎样建立的,一直是人类历史研究的主要兴趣点。本文作者提出了一个模型,能够很好的拟合各人群体(东亚,澳大利亚,美国本土,古欧亚大陆西部和北部)的基因型频率数据。 What is adaptation by natural selection? Perspectives of an experimental microbiologistPLoS Genet 13(4): e1006668.微生物对自然选择适应的综述。微生物实验进化学。 Evolutionary history of Tibetans inferred from whole-genome sequencing PLoS Genet 13(4): e1006675. 通过对27个藏族人的全基因组测序,揭示其群体历史和受选择基因。 The time and place of European admixture in Ashkenazi Jewish historyPLoS Genet 13(4): e1006644.推断德系犹太人的历史。用了一些新的推断方法。 RECKONER: read error corrector based on KMCBioinformatics (2017) 33 (7): 1086-1089.对测序的reads质量进行矫正。 SVScore: an impact prediction tool for structural variationBioinformatics (2017) 33 (7): 1083-1085.对SV的影响进行预测。发现高影响的SV在群体中的频率更低,说明它们受到纯化选择。SVscore对预测有害突变的效果比其他软件好。研究者还发现duplication比deletion受到更强的选择。 Fast and accurate phylogeny reconstruction using filtered spaced-word matchesBioinformatics (2017) 33 (7): 971-979.不依赖于比对的系统发育树构建。 Improved VCF normalization for accurate VCF comparisonBioinformatics (2017) 33 (7): 964-970.该工具将VCF文件中所有的变异替换到参考序列中,生成单个样本的基因组序列。再重新call variants,生成标准的格式,便于比较。[这个比较有意思,对于indel,即使同样的变异,samtools和gatk纪录的形式不同,没法比较,通过该工具可能可以解决。] Biomartr: genomic data retrieval with RBioinformatics (2017) 33 (8): 1216-1217.用来从NCBI上面下载数据(参考序列,数据库等)的R包。 GWAlpha: genome-wide estimation of additive effects (alpha) based on trait quantile distribution from pool-sequencing experimentsBioinformatics (2017) 33 (8): 1246-1247.通过混池测序,估计加性效应值。 Human Demographic History Impacts Genetic Risk Prediction across Diverse Populations30107-6)AJHG 100, 635–649, April 6, 2017 De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffoldsScience 07 Apr 2017: Vol. 356, Issue 6333, pp. 92-95利用Hi-C技术辅助组装,将伊蚊基因组组装到染色体水平。 A chromosome conformation capture ordered sequence of the barley genomeNature 544, 427–433 (27 April 2017)小麦基因组发表 SynthEx: a synthetic-normal-based DNA sequencing tool for copy number alteration detection and tumor heterogeneity profilingGenome Biology 2017基于全基因组或全外显子组测序的拷贝数变异检测工具。其能力和基于芯片的软件相当,胜过其它基于测序的软件。 Ancient genomic changes associated with domestication of the horseScience 28 Apr 2017研究人员对14匹距今2000~4000年的古马进行全基因组测序,揭示马的驯化过程。 Genetic signatures of high-altitude adaptation in TibetansPNAS April 18, 2017 vol. 114 no. 16 4189-4194文章结合了3,008个藏族人7.3 M SNP 芯片数据以及7,287个非藏族东亚人数据,揭示了藏族人适应高原环境基因。 Parallel adaptive evolution of geographically distant herring populations on both sides of the North Atlantic OceanPNAS April 25, 2017 vol. 114 no. 17 E3452-E3461北大西洋鲱鱼的平行进化。 Finding a Needle in a Haystack: Distinguishing Mexican Maize Landraces Using a Small Number of SNPsFront. Genet., 18 April 2017作者通过50个样本(5个不同地方种)的50k芯片数据,筛选出了用于区分不同地方种的SNPs。“we identified 20 landrace-informative SNPs and 14 altitude-informative SNPs.” Full Chloroplast Genome Assembly of 11 Diverse Watermelon AccessionsFront. Genet., 18 April 201711个西瓜全叶绿体基因组序列。 Analytical Biases Associated with GC-Content in Molecular EvolutionFront. Genet., 15 February 2017碱基组成(GC含量)在不同位点或分类群的异质性,会使分子进化分析产生偏好性,如构建系统发育树,检测自然选择或估计密码子使用率。文章对产生偏好的原因以及避开偏好的方法进行了综述。 A genome-wide association study identifies six novel risk loci for primary biliary cholangitisNature Communications 8, Article number: 14828 (2017)全基因组关联分析鉴定6个新的原发胆汁性胆管炎风险位点。 Genome assembly with in vitro proximity ligation data and whole-genome triplication in lettuceNature Communications 8, Article number: 14953 (2017)生菜基因组,2.7 G。用in vitro proximity ligation数据锚定小scaffold。 Reconstructing the genome of the most recent common ancestor of flowering plantsNature Genetics 49, 490–496 (2017)开花植物最近共同祖先基因组构建。 Asymmetric subgenome selection and cis-regulatory divergence during cotton domesticationNature Genetics 49, 579–587 (2017)野生和栽培棉花揭示驯化过程中受选择基因。 Fast, scalable prediction of deleterious noncoding variants from functional and population genomic dataNature Genetics 49, 618–624 (2017)有害非编码突变预测。(是否适合非模式生物?) Single-molecule sequencing and chromatin conformation capture enable de novo reference assembly of the domestic goat genomeNature Genetics 49, 643–650 (2017)通过单分子测序和染色体构像捕获组装山羊基因组。 Scallop genome provides insights into evolution of bilaterian karyotype and developmentNature Ecology & Evolution 1, Article number: 0120 (2017)扇贝基因组。]]></content>
</entry>
<entry>
<title><![CDATA[判断fastq文件质量编码格式及Phred64转Phred33方法]]></title>
<url>%2FQC%2Ffastq-phred-trans.html</url>
<content type="text"><![CDATA[前几天有朋友从网上下载了一批fastq文件,为Phred64格式,分析之前没发现,比对的时候BWA报错了。很多人可能没有接触过老Illumina数据,不知道怎么判断编码格式,也不知道怎么转为Phred33格式,所以简单说明一下怎么判断fastq文件的质量编码方式以及怎么将Phred64编码格式转为Phred33编码格式。 Phred64/33质量编码格式区别fastq文件中,碱基质量是用ASCII字符表示。Phred64编码格式,碱基质量值为字符的十进制ASCII码减去64。同理,Phred33编码格式,碱基质量值为字符的十进制ASCII码减去33。一般碱基的质量值范围为[0, 41],X ten之后,质量值只有(2,7,11,22,27,32,37,42)几个梯度。因此,GATK的BQSR过程对于X ten的数据可能更加重要。Phred质量值Q和出错的概率P的关系为Q = -10*lg(P),如碱基质量值为30,表示出错的概率为0.001,碱基质量值为20,表示出错的概率为0.01。目前主流软件如BWA, GATK等都识别的是Phred33质量编码格式,如果为Phred64格式,则可能会报错,即使不报错,后续的分析也会有问题。因此,下载的数据如果不清楚编码格式,需要先判断,如果为Phred64,则需要转为Phred33格式。 判断fastq文件质量值编码格式格式判断既可以通过肉眼快速判断,也可以使用下面的脚本进行判断。如果文件少,没有编程基础,可以用快速判断的方法。利用程序判断更加准确、快速、可批量处理,因此有编程基础的人,应该尽量使用程序判断。 肉眼快速判断:质量字符有数字[0~9]的为Phred33,有小写字母[a~z]的为Phred64。通过程序:基本思路为将一定数量的reads质量值字符转为ASCII码,然后判断质量值的范围。脚本的使用方法如下,第一个参数为fastq文件,自动判断是否为压缩文件,第二个参数为用于判断的reads数,默认为1000。 1perl CheckFqQualityCode.pl prefix.fq[.gz] [1000] Phred64格式转Phred33格式Phred64格式转Phred33格式的原理很简单,只需在原有ASCII码的基础上减去64再加上33既可。大家可以自己写,也可以使用lh写的seqtk工具,使用命令:1seqtk seq -VQ64 prefix.phred64.fq.gz | gzip > prefix.phred33.fq.gz]]></content>
</entry>
<entry>
<title><![CDATA[GWAS如何确定候选区间和causal gene]]></title>
<url>%2FGWAS%2FGWAS%E5%A6%82%E4%BD%95%E7%A1%AE%E5%AE%9A%E5%80%99%E9%80%89%E5%8C%BA%E9%97%B4%E5%92%8Ccausal-gene.html</url>
<content type="text"><![CDATA[随着高通量测序成本的急剧下降,越来越多的GWAS研究通过全基因组重测序获得标记。全基因组重测序的高密度标记,使得通过GWAS研究快速找到causal gene甚至causal mutation成为可能。但是通过GWAS得到一个信号后,怎么确定与这个信号关联的基因呢? 基本的思路就是找与这个信号强连锁的区域,一般来说r2大于0.6的区域视为强连锁的区域。简单粗糙的做法:我们可以通过群体的全基因组LD-decay分析,找到LD decay到r2等于0.6时所对应的距离,将GWAS超过阈值的信号前后各延伸这个距离作为候选区间。但是基因组不同区域的连锁程度差异很大,上面一刀切的做法可能使我们漏掉一些基因,或者多调查许多关联性并不强的基因。而且很多作物的连锁性很强,导致候选基因很多,这样就大大增加了工作难度。下面介绍一个非常简单高效的方法(参考文献)。 找到信号后,向前后延伸一段距离(可以根据全基因组的LD-decay水平大概估计),计算这段区域内所有标记pairwise r2,将r2大于0.6的block作为候选区间。pairwise r2可以用PLINK计算: 123plink --noweb --bfile <bfile_prefix> \ --chr 5 --from-bp 13641890 --to-bp 17641890 \ --matrix --r2 --out <out_prefix> 画图用R,输入文件为plink计算的到的r2矩阵,以及标记的位置: 123456789#!/usr/bin/env Rscriptlibrary(LDheatmap)argv <- commandArgs(TRUE)ldmatrix <- as.matrix(read.table(argv[1],sep=' '))pos <- as.numeric(unlist(read.table(argv[2], head=FALSE)))pdf(argv[3])rgb.palette <- colorRampPalette(rev(c("yellow", "orange", "red")), space = "rgb")LDheatmap(ldmatrix, genetic.distances=pos, color=rgb.palette(100), flip=TRUE)dev.off() 将这个区域内的标记按照其对基因功能的影响程度分为5类: 1) 标记与性状显著关联(-log10P大于阈值),且该标记影响氨基酸编码,或者位于剪接位点;2) 标记与性状显著关联,且位于基因起始密码子上游2 kb内;3) 标记与性状显著关联,且位于基因内,除开1)和2)之外的标记4) 标记与性状显著关联,位于基因间区5) 标记与性状不显著关联 然后,按照这5类的顺序,依次调查,一般来说,属于1)类的可能性很大,而且基因一般就几个,这样就大大减少了工作难度。]]></content>
</entry>
</search>