Renamed STAR scripts, bug fixes

anykine · anykine · commit 12c96cb8014b · 2017-07-25T16:47:22.000-07:00
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,5 @@
+# Byte compiled
+*.py[cod]
+__pycache__/
+*$py.class
+
diff --git a/README.md b/README.md
@@ -6,7 +6,7 @@ templates/ - mako template for the qsub script
 
 So far, I have classes that will handle these aligners
 
-* Topha2
+* Tophat2
 * Cufflinks/Cuffquant
 * featureCount (subread)
 * kallisto
@@ -15,3 +15,4 @@ So far, I have classes that will handle these aligners
 * SpliceTrap
 
 
+
diff --git a/bin/make_STAR.py b/bin/make_STAR.py
@@ -0,0 +1,47 @@
+#!/bin/env python
+
+import os, sys
+import json
+import argparse
+sys.path.append("/home/rwang/rtwcode/rnaseq_tools/scripts")
+from star import *
+from index import *
+from sge import *
+
+# Call variants from RNAseq using STAR aligner
+# this is broad/gatk recommended workflow
+
+def makeSTARScripts(basedir, samples, reference):
+	pass
+
+	# assume genome index file already exists (1st pass)
+	# align 
+	STARIndex = Index(reference, "STAR")
+	index = STARIndex.output()
+
+	for samp in samples:
+		read1 = os.path.join(basedir, samp, "00-raw", samp+"_1.fastq.gz")
+		read2 = os.path.join(basedir, samp, "00-raw", samp+"_2.fastq.gz")
+
+		outputdir = os.path.join(basedir, samp, "03-alignSTAR" )
+		if not os.path.exists(outputdir):
+			os.makedirs(outputdir)
+		outFileNamePrefix = os.path.join(outputdir, samp)
+		sa = STARAligner( index, read1, read2, outFileNamePrefix, bamout=True, threads=48, mem='100G')
+		cmdtxt = sa.makeCommand()
+
+		qsub = SGE(samp, "/home/rwang/rtwcode/rnaseq_tools/templates/qsub_tophat.tmpl")
+		args = {'command':cmdtxt, 'jobname': str(samp)+str(reference), 'jobmem':'100G', 'logfilename': "_".join([str(samp), "STAR", str(reference)+".log"])}
+		outscript = os.path.join(basedir,  samp, str(samp) + "_STAR_" + str(reference) + ".sh")
+		print outscript
+		qsub.createJobScript(outscript, **args)
+		
+
+
+if __name__=="__main__":
+	parser = argparse.ArgumentParser()
+	parser.add_argument("configfile", help="config file with options: eg config_tophat2.json")
+	args = parser.parse_args()
+
+	config = json.loads(open(args.configfile).read())
+	makeSTARScripts(config['basedir'], config['samples'], config['reference'])
diff --git a/bin/make_STAR2pass.py b/bin/make_STAR2pass.py
@@ -0,0 +1,69 @@
+#!/bin/env python
+
+import os, sys
+import json
+import argparse
+sys.path.append("/home/rwang/rtwcode/rnaseq_tools/scripts")
+from star import *
+from index import *
+from sge import *
+
+# Call variants from RNAseq using STAR aligner
+# this is broad/gatk recommended workflow
+
+def makeSTARVariantScripts(basedir, samples, reference):
+	pass
+
+	# assume genome index file already exists (1st pass)
+	# align 
+	STARIndex = Index(reference, "STAR")
+	index = STARIndex.output()
+
+	for samp in samples:
+		read1 = os.path.join(basedir, samp, "00-raw", samp+"_1.fastq.gz")
+		read2 = os.path.join(basedir, samp, "00-raw", samp+"_2.fastq.gz")
+
+		# 1st pass alignment
+		outputdir = os.path.join(basedir, samp, "07-variants", "step1align")
+		if not os.path.exists(outputdir):
+			os.makedirs(outputdir)
+		outFileNamePrefix = os.path.join(outputdir, samp)
+		sa = STARAligner( index, read1, read2, outFileNamePrefix, bamout=True, threads=48, mem='100G')
+		cmdtxt = sa.makeCommand()
+
+		#make 2nd index using SJ from 1st pass
+		outputdir2 = os.path.join(basedir, samp, "07-variants", "step2reindex")
+		if not os.path.exists(outputdir2):
+			os.makedirs(outputdir2)
+		hg19fasta = "/home/rwang/indexes/hg19/igenomes/Homo_sapiens/Ensembl/GRCh37/Sequence/WholeGenomeFasta/genome.fa"
+		si = STARIndexCreator(outputdir2, hg19fasta,
+						SJout= os.path.join(outputdir, samp+"SJ.out.tab"),
+						SJoverhang = 75)
+		cmdtxt = cmdtxt + "\n" + si.makeCommand()
+
+		print cmdtxt
+
+		# second alignment
+		outputdir3 = os.path.join(basedir, samp, "07-variants", "step3align2")
+		if not os.path.exists(outputdir3):
+			os.makedirs(outputdir3)
+		outFileNamePrefix2 = os.path.join(outputdir3, samp)
+		sa = STARAligner( outputdir2, read1, read2, outFileNamePrefix2, bamout=True, threads=48, mem='100G')
+
+		cmdtxt = cmdtxt + "\n" + sa.makeCommand()
+
+		qsub = SGE(samp, "/home/rwang/rtwcode/rnaseq_tools/templates/qsub_tophat.tmpl")
+		args = {'command':cmdtxt, 'jobname': str(samp)+str(reference), 'jobmem':'100G', 'logfilename': "_".join([str(samp), "STAR", str(reference)+".log"])}
+		outscript = os.path.join(basedir,  samp, str(samp) + "_STAR2pass_" + str(reference) + ".sh")
+		print outscript
+		qsub.createJobScript(outscript, **args)
+		
+
+
+if __name__=="__main__":
+	parser = argparse.ArgumentParser()
+	parser.add_argument("configfile", help="config file with options: eg config_tophat2.json")
+	args = parser.parse_args()
+
+	config = json.loads(open(args.configfile).read())
+	makeSTARVariantScripts(config['basedir'], config['samples'], config['reference'])
diff --git a/bin/make_STAR2passMendelianSeq.py b/bin/make_STAR2passMendelianSeq.py
@@ -0,0 +1,52 @@
+#!/bin/env python
+
+import os, sys
+import json
+import argparse
+sys.path.append("/home/rwang/rtwcode/rnaseq_tools/scripts")
+from star import *
+from index import *
+from sge import *
+
+# follow macarthur lab 2pass alignment of muscle dystrophy samples
+# this is specifcally for the 2nd pass where we use
+# a merged and filtered index that was generated previously
+
+def makeSTAR2passMendelianSeq(basedir, samples, mergedReference, outdir):
+	pass
+
+	# assume genome index file already exists (1st pass)
+	# align 
+	#STARIndex = Index(reference, "STAR")
+	#index = STARIndex.output()
+
+	index = mergedReference
+	reference = "MendelianSeq"
+
+	for samp in samples:
+		read1 = os.path.join(basedir, samp, "00-raw", samp+"_1.fastq.gz")
+		read2 = os.path.join(basedir, samp, "00-raw", samp+"_2.fastq.gz")
+
+		# 1st pass alignment
+		outputdir = os.path.join(basedir, samp, outdir)
+		if not os.path.exists(outputdir):
+			os.makedirs(outputdir)
+		outFileNamePrefix = os.path.join(outputdir, samp)
+		sa = STARAligner( index, read1, read2, outFileNamePrefix, bamout=True, threads=48, mem='100G')
+		cmdtxt = sa.makeCommand()
+
+		qsub = SGE(samp, "/home/rwang/rtwcode/rnaseq_tools/templates/qsub_tophat.tmpl")
+		args = {'command':cmdtxt, 'jobname': str(samp)+str(reference), 'jobmem':'100G', 'logfilename': "_".join([str(samp), "STAR2passMendelianSeq", str(reference)+".log"])}
+		outscript = os.path.join(basedir,  samp, str(samp) + "_STAR2passMendelianSeq_" + str(reference) + ".sh")
+		print outscript
+		qsub.createJobScript(outscript, **args)
+		
+
+
+if __name__=="__main__":
+	parser = argparse.ArgumentParser()
+	parser.add_argument("configfile", help="config file with options: eg config_STAR2passMendelian.json")
+	args = parser.parse_args()
+
+	config = json.loads(open(args.configfile).read())
+	makeSTAR2passMendelianSeq(config['basedir'], config['samples'], config['mergedReference'], config['outdir'])
diff --git a/bin/make_bamfile_index.py b/bin/make_bamfile_index.py
@@ -0,0 +1,46 @@
+#!/bin/env python
+
+import os, sys
+import json
+import argparse
+sys.path.append("/home/rwang/rtwcode/rnaseq_tools/scripts")
+from samtools import *
+from sge import *
+
+# Index all bam files 
+
+def makeBamfileIndex(basedir, samples ):
+
+	for samp in samples:
+		fullcmdtxt = ""
+		for subdir in ["03-align", "03-alignDMD", "03-alignSTAR"]:
+			if subdir=="03-alignSTAR":
+				bamfilePath = os.path.join(basedir, samp, subdir, samp+"Aligned.sortedByCoord.out.bam")
+				sa = Samtools( "index", bamfilePath)
+				cmdtxt = sa.makeCommand()
+			elif subdir=="03-align": 
+				bamfilePath = os.path.join(basedir, samp, subdir, samp+"_transcriptome.bam")
+				sa = Samtools( "index", bamfilePath)
+				cmdtxt = sa.makeCommand()
+			elif subdir=="03-alignDMD":
+				bamfilePath = os.path.join(basedir, samp, subdir, samp+"_427m.bam")
+				sa = Samtools( "index", bamfilePath)
+				cmdtxt = sa.makeCommand()
+
+			fullcmdtxt = fullcmdtxt +  cmdtxt + "\n"
+		print fullcmdtxt
+
+		qsub = SGE(samp, "/home/rwang/rtwcode/rnaseq_tools/templates/qsub_tophat.tmpl")
+		args = {'command':fullcmdtxt, 'jobname': str(samp)+"index", 'jobmem':'10G', 'logfilename': "_".join([str(samp), "index.log"])}
+		outscript = os.path.join(basedir,  samp, str(samp) + "_bamindex.sh")
+		print outscript
+		qsub.createJobScript(outscript, **args)
+		
+
+if __name__=="__main__":
+	parser = argparse.ArgumentParser()
+	parser.add_argument("configfile", help="config file with options: eg config_tophat2.json")
+	args = parser.parse_args()
+
+	config = json.loads(open(args.configfile).read())
+	makeBamfileIndex(config['basedir'], config['samples'])
diff --git a/bin/make_fastqc.py b/bin/make_fastqc.py
@@ -0,0 +1,40 @@
+#!/bin/env python
+
+import os, sys
+import json
+import argparse
+sys.path.append("/home/rwang/rtwcode/rnaseq_tools/scripts")
+from fastqc import *
+from sge import *
+
+
+def makeFastQCscripts(basedir, samples):
+
+	for samp in samples:
+		read1 = os.path.join(basedir, samp, "00-raw", samp+"_1.fastq.gz")
+		read2 = os.path.join(basedir, samp, "00-raw", samp+"_2.fastq.gz")
+
+		outputdir = os.path.join(basedir, samp, "02-FastQC" )
+		if not os.path.exists(outputdir):
+			os.makedirs(outputdir)
+		
+		outFileNamePrefix = os.path.join(outputdir, samp)
+		fileList = " ".join([read1, read2]) # read1.gz read2.gz
+		FastQC_obj = FastQC( outputdir, fileList=fileList)
+		cmdtxt = FastQC_obj.makeCommand()
+
+		qsub = SGE(samp, "/home/rwang/rtwcode/rnaseq_tools/templates/qsub_tophat.tmpl")
+		args = {'command':cmdtxt, 'jobname': str(samp)+"FastQC", 'jobmem':'4G', 'logfilename': "_".join([str(samp), "FastQC.log"])}
+		outscript = os.path.join(basedir,  samp, str(samp) + "_FastQC" + ".sh")
+		print outscript
+		qsub.createJobScript(outscript, **args)
+		
+
+
+if __name__=="__main__":
+	parser = argparse.ArgumentParser()
+	parser.add_argument("configfile", help="config file with options: eg config_tophat2.json")
+	args = parser.parse_args()
+
+	config = json.loads(open(args.configfile).read())
+	makeFastQCscripts(config['basedir'], config['samples'] )
diff --git a/bin/make_featureCount.py b/bin/make_featureCount.py
@@ -20,13 +20,19 @@
 # basedir
 # reference (hg19, dmd transcript)
 
-def makeFeatureCountScripts( samples, basedir, annot):
+def makeFeatureCountScripts( samples, basedir, annot, bamtype='tophat2'):
 	
 	#ANNOT='/home/rwang/scratch1/rnaseq/datasets/gencode/release24/gencode.v24lift37.basic.annotation.gtf'
 	ANNOT='/home/rwang/indexes/hg19/igenomes/Homo_sapiens/Ensembl/GRCh37/Annotation/Genes/genes.gtf'
 	
 	for samp in samples:
-		bamfile = os.path.join(basedir, samp, "03-align", samp+"_transcriptome.bam")
+		if bamtype=="tophat2":
+			bamfile = os.path.join(basedir, samp, "03-align", samp+"_transcriptome.bam")
+		elif bamtype=="STAR":
+			bamfile = os.path.join(basedir, samp, "03-alignSTAR", samp+"Aligned.sortedByCoord.out.bam")
+		else: 
+			sys.exit("bamtype paramter must be 'tophat' or 'STAR'")
+
 		outputdir = os.path.join(basedir, samp, "05-featureCount")
 		if not os.path.exists(outputdir):
 			os.makedirs(outputdir)
@@ -63,6 +69,11 @@ def makeFeatureCountScripts( samples, basedir, annot):
 	config = json.loads(open(args.configfile).read())
 	# test if samples, basedir, reference are specified in JSON file
 	if all(k in config for k in ('samples', 'basedir', 'annotation')) :
-		print config['samples']
-		makeFeatureCountScripts(config['samples'], config['basedir'], annot=config['annotation'])
+		if 'bamtype' in config.keys():
+			bamtype=config['bamtype']
+		else:
+			bamtype='STAR'
+		print "samples are " + " ".join(config['samples'])
+		print "bamtype is " + str(bamtype)
+		makeFeatureCountScripts(config['samples'], config['basedir'], annot=config['annotation'], bamtype=bamtype)
 
diff --git a/bin/make_splicetrap.py b/bin/make_splicetrap.py
@@ -19,20 +19,30 @@
 # basedir
 # reference (hg19, dmd transcript)
 
-def makeSpliceTrapScripts(basedir, samples, reference, readsize, cutoff, outputFilePrefix ):
+def makeSpliceTrapScripts(basedir, samples, reference, readsize, cutoff ):
 	
 	#transcriptIndex = '/share/apps/richard/kallisto/kallisto_linux-v0.42.5/index/ensembl_GRCh37_transcripts_index'
 	transcriptIndex = reference
 	numThreads = 4
 	for samp in samples:
-			# hack to decompress fastq.gz on the fly
+		# hack to decompress fastq.gz on the fly, does not work
 		#read1 = "<(gunzip -c " + os.path.join(basedir, samp, "00-raw", samp + "_1.fastq.gz") + ")"
 		#read2 = "<(gunzip -c " + os.path.join(basedir, samp, "00-raw", samp + "_2.fastq.gz") + ")"
+
+		# need to check if fastq is GZIPPED and uncompress first if so
 		read1 = os.path.join(basedir, samp, "00-raw", samp + "_1.fastq") 
 		read2 = os.path.join(basedir, samp, "00-raw", samp + "_2.fastq") 
+
+		if not os.path.isfile(read1):
+			read1gz = os.path.join(basedir, samp, "00-raw", samp + "_1.fastq.gz") 
+			read2gz = os.path.join(basedir, samp, "00-raw", samp + "_2.fastq.gz") 
+			cmdtxt =  "gunzip -c " + read1gz + " > " + os.path.join(basedir, samp, "00-raw", samp + "_1.fastq") + "\n"
+			cmdtxt += "gunzip -c " + read2gz + " > " + os.path.join(basedir, samp, "00-raw", samp + "_2.fastq") + "\n"
+
 		outputdir = os.path.join(basedir, samp, "05-splicetrap")
 		if not os.path.exists(outputdir):
 			os.makedirs(outputdir)
+		outputFilePrefix = samp
 
 		nameOfJob = samp + "splicetrap"
 		sj = SpliceTrap(readsize,
@@ -45,19 +55,21 @@ def makeSpliceTrapScripts(basedir, samples, reference, readsize, cutoff, outputF
 						nameOfJob,
 						reference
 			)
-		cmdtxt = sj.makeCommand()
+		cmdtxt += sj.makeCommand()
+	
 		print cmdtxt
 
 		qsub = SGE(samp, "/home/rwang/rtwcode/rnaseq_tools/templates/qsub_tophat.tmpl")
 		args = {'command':cmdtxt, 'jobname': str(samp)+"splicetrap", 'jobmem':'20G', 'logfilename': "_".join([str(samp), "splicetrap.log"])}
 		outscript = os.path.join(basedir,  samp, str(samp) + "_splicetrap" + ".sh")
 		print outscript
 		qsub.createJobScript(outscript, **args)
+		cmdtxt = ""
 
 # generate all tophat scripts: 
 
 #samples = [ "DDX7", "DDX8", "DDX9", "SH790"]
 #basedir='/home/rwang/scratch1/rnaseq/human/Feb12/'
 config = json.loads(open("config_splicetrap.json").read())
-makeSpliceTrapScripts(config['basedir'], config['samples'], config['reference'], config['readsize'], config['cutoff'], config['outputFilePrefix'] )
+makeSpliceTrapScripts(config['basedir'], config['samples'], config['reference'], config['readsize'], config['cutoff']  )
 
diff --git a/bin/rename_tophat_bams.py b/bin/rename_tophat_bams.py
@@ -10,9 +10,11 @@
 
 def renameTophatBamToSample(samples, basedir, reference):
 	for samp in samples:
+		# Tophat
 		if reference in ("hg19", "mm9"):
 			bamfile = os.path.join(basedir, samp, "03-align", "accepted_hits.bam")
 			newbamfile=os.path.join(basedir, samp, "03-align", samp + "_transcriptome.bam")
+		# align dmd
 		elif reference in ("dmd427m"):
 			bamfile = os.path.join(basedir, samp, "03-alignDMD", "accepted_hits.bam")
 			newbamfile=os.path.join(basedir, samp, "03-alignDMD", samp + "_427m.bam")
diff --git a/scripts/fastqc.py b/scripts/fastqc.py
diff --git a/scripts/kallisto.py b/scripts/kallisto.py
diff --git a/scripts/samtools.py b/scripts/samtools.py
diff --git a/scripts/star.py b/scripts/star.py