meme_fimo: fimo_wrapper.py annotate

annotate fimo_wrapper.py @ 6:4df8e9f58a53 draft default tip

Uploaded

author	greg
date	Wed, 06 Jul 2016 10:25:06 -0400
parents	e85346ab5054
children

rev	line source
0 09098f34f445 Uploaded greg parents: diff changeset	1 #!/usr/bin/env python
09098f34f445 Uploaded greg parents: diff changeset	2 import argparse
09098f34f445 Uploaded greg parents: diff changeset	3 import os
09098f34f445 Uploaded greg parents: diff changeset	4 import shutil
09098f34f445 Uploaded greg parents: diff changeset	5 import string
09098f34f445 Uploaded greg parents: diff changeset	6 import subprocess
09098f34f445 Uploaded greg parents: diff changeset	7 import sys
09098f34f445 Uploaded greg parents: diff changeset	8 import tempfile
09098f34f445 Uploaded greg parents: diff changeset	9
09098f34f445 Uploaded greg parents: diff changeset	10 BUFFSIZE = 1048576
09098f34f445 Uploaded greg parents: diff changeset	11 # Translation table for reverse Complement, with ambiguity codes.
09098f34f445 Uploaded greg parents: diff changeset	12 DNA_COMPLEMENT = string.maketrans("ACGTRYKMBDHVacgtrykmbdhv", "TGCAYRMKVHDBtgcayrmkvhdb")
09098f34f445 Uploaded greg parents: diff changeset	13
09098f34f445 Uploaded greg parents: diff changeset	14
09098f34f445 Uploaded greg parents: diff changeset	15 def get_stderr(tmp_stderr):
09098f34f445 Uploaded greg parents: diff changeset	16 tmp_stderr.seek(0)
09098f34f445 Uploaded greg parents: diff changeset	17 stderr = ''
09098f34f445 Uploaded greg parents: diff changeset	18 try:
09098f34f445 Uploaded greg parents: diff changeset	19 while True:
09098f34f445 Uploaded greg parents: diff changeset	20 stderr += tmp_stderr.read(BUFFSIZE)
09098f34f445 Uploaded greg parents: diff changeset	21 if not stderr or len(stderr) % BUFFSIZE != 0:
09098f34f445 Uploaded greg parents: diff changeset	22 break
09098f34f445 Uploaded greg parents: diff changeset	23 except OverflowError:
09098f34f445 Uploaded greg parents: diff changeset	24 pass
09098f34f445 Uploaded greg parents: diff changeset	25 return stderr
09098f34f445 Uploaded greg parents: diff changeset	26
09098f34f445 Uploaded greg parents: diff changeset	27
09098f34f445 Uploaded greg parents: diff changeset	28 def reverse(sequence):
09098f34f445 Uploaded greg parents: diff changeset	29 # Reverse sequence string.
09098f34f445 Uploaded greg parents: diff changeset	30 return sequence[::-1]
09098f34f445 Uploaded greg parents: diff changeset	31
09098f34f445 Uploaded greg parents: diff changeset	32
09098f34f445 Uploaded greg parents: diff changeset	33 def dna_complement(sequence):
09098f34f445 Uploaded greg parents: diff changeset	34 # Complement DNA sequence string.
09098f34f445 Uploaded greg parents: diff changeset	35 return sequence.translate(DNA_COMPLEMENT)
09098f34f445 Uploaded greg parents: diff changeset	36
09098f34f445 Uploaded greg parents: diff changeset	37
09098f34f445 Uploaded greg parents: diff changeset	38 def dna_reverse_complement(sequence):
09098f34f445 Uploaded greg parents: diff changeset	39 # Returns the reverse complement of the sequence.
09098f34f445 Uploaded greg parents: diff changeset	40 sequence = reverse(sequence)
09098f34f445 Uploaded greg parents: diff changeset	41 return dna_complement(sequence)
09098f34f445 Uploaded greg parents: diff changeset	42
09098f34f445 Uploaded greg parents: diff changeset	43
09098f34f445 Uploaded greg parents: diff changeset	44 def stop_err(msg):
09098f34f445 Uploaded greg parents: diff changeset	45 sys.stderr.write(msg)
09098f34f445 Uploaded greg parents: diff changeset	46 sys.exit(1)
09098f34f445 Uploaded greg parents: diff changeset	47
09098f34f445 Uploaded greg parents: diff changeset	48 parser = argparse.ArgumentParser()
09098f34f445 Uploaded greg parents: diff changeset	49 parser.add_argument('--input_motifs', dest='input_motifs', help='MEME output formatted files for input to fimo')
09098f34f445 Uploaded greg parents: diff changeset	50 parser.add_argument('--input_fasta', dest='input_fasta', help='Fassta sequence file')
09098f34f445 Uploaded greg parents: diff changeset	51 parser.add_argument('--options_type', dest='options_type', help='Basic or Advance options')
09098f34f445 Uploaded greg parents: diff changeset	52 parser.add_argument('--input_psp', dest='input_psp', default=None, help='File containing position specific priors')
09098f34f445 Uploaded greg parents: diff changeset	53 parser.add_argument('--input_prior_dist', dest='input_prior_dist', default=None, help='File containing binned distribution of priors')
09098f34f445 Uploaded greg parents: diff changeset	54 parser.add_argument('--alpha', dest='alpha', type=float, default=1.0, help='The alpha parameter for calculating position specific priors')
09098f34f445 Uploaded greg parents: diff changeset	55 parser.add_argument('--bgfile', dest='bgfile', default=None, help='Background file type, used only if not "default"')
09098f34f445 Uploaded greg parents: diff changeset	56 parser.add_argument('--max_strand', action='store_true', help='If matches on both strands at a given position satisfy the output threshold, only report the match for the strand with the higher score')
09098f34f445 Uploaded greg parents: diff changeset	57 parser.add_argument('--max_stored_scores', dest='max_stored_scores', type=int, help='Maximum score count to store')
09098f34f445 Uploaded greg parents: diff changeset	58 parser.add_argument('--motif', dest='motifs', action='append', default=[], help='Specify motif by id')
6 4df8e9f58a53 Uploaded greg parents: 5 diff changeset	59 parser.add_argument('--output_separate_motifs', dest='output_separate_motifs', default='no', help='Output one dataset per motif')
0 09098f34f445 Uploaded greg parents: diff changeset	60 parser.add_argument('--motif_pseudo', dest='motif_pseudo', type=float, default=0.1, help='Pseudocount to add to counts in motif matrix')
09098f34f445 Uploaded greg parents: diff changeset	61 parser.add_argument('--no_qvalue', action='store_true', help='Do not compute a q-value for each p-value')
09098f34f445 Uploaded greg parents: diff changeset	62 parser.add_argument('--norc', action='store_true', help='Do not score the reverse complement DNA strand')
09098f34f445 Uploaded greg parents: diff changeset	63 parser.add_argument('--output_path', dest='output_path', help='Output files directory')
6 4df8e9f58a53 Uploaded greg parents: 5 diff changeset	64 parser.add_argument('--parse_genomic_coord', dest='parse_genomic_coord', default='no', help='Check each sequence header for UCSC style genomic coordinates')
4df8e9f58a53 Uploaded greg parents: 5 diff changeset	65 parser.add_argument('--remove_duplicate_coords', dest='remove_duplicate_coords', default='no', help='Remove duplicate entries in unique GFF coordinates')
0 09098f34f445 Uploaded greg parents: diff changeset	66 parser.add_argument('--qv_thresh', action='store_true', help='Use q-values for the output threshold')
09098f34f445 Uploaded greg parents: diff changeset	67 parser.add_argument('--thresh', dest='thresh', type=float, help='p-value threshold')
09098f34f445 Uploaded greg parents: diff changeset	68 parser.add_argument('--gff_output', dest='gff_output', help='Gff output file')
09098f34f445 Uploaded greg parents: diff changeset	69 parser.add_argument('--html_output', dest='html_output', help='HTML output file')
09098f34f445 Uploaded greg parents: diff changeset	70 parser.add_argument('--interval_output', dest='interval_output', help='Interval output file')
09098f34f445 Uploaded greg parents: diff changeset	71 parser.add_argument('--txt_output', dest='txt_output', help='Text output file')
09098f34f445 Uploaded greg parents: diff changeset	72 parser.add_argument('--xml_output', dest='xml_output', help='XML output file')
09098f34f445 Uploaded greg parents: diff changeset	73 args = parser.parse_args()
09098f34f445 Uploaded greg parents: diff changeset	74
09098f34f445 Uploaded greg parents: diff changeset	75 fimo_cmd_list = ['fimo']
09098f34f445 Uploaded greg parents: diff changeset	76 if args.options_type == 'advanced':
09098f34f445 Uploaded greg parents: diff changeset	77 fimo_cmd_list.append('--alpha %4f' % args.alpha)
09098f34f445 Uploaded greg parents: diff changeset	78 if args.bgfile is not None:
09098f34f445 Uploaded greg parents: diff changeset	79 fimo_cmd_list.append('--bgfile "%s"' % args.bgfile)
09098f34f445 Uploaded greg parents: diff changeset	80 if args.max_strand:
09098f34f445 Uploaded greg parents: diff changeset	81 fimo_cmd_list.append('--max-strand')
09098f34f445 Uploaded greg parents: diff changeset	82 fimo_cmd_list.append('--max-stored-scores %d' % args.max_stored_scores)
09098f34f445 Uploaded greg parents: diff changeset	83 if len(args.motifs) > 0:
09098f34f445 Uploaded greg parents: diff changeset	84 for motif in args.motifs:
09098f34f445 Uploaded greg parents: diff changeset	85 fimo_cmd_list.append('--motif "%s"' % motif)
09098f34f445 Uploaded greg parents: diff changeset	86 fimo_cmd_list.append('--motif-pseudo %4f' % args.motif_pseudo)
09098f34f445 Uploaded greg parents: diff changeset	87 if args.no_qvalue:
09098f34f445 Uploaded greg parents: diff changeset	88 fimo_cmd_list.append('--no-qvalue')
09098f34f445 Uploaded greg parents: diff changeset	89 if args.norc:
09098f34f445 Uploaded greg parents: diff changeset	90 fimo_cmd_list.append('--norc')
5 e85346ab5054 Uploaded greg parents: 3 diff changeset	91 if args.parse_genomic_coord == 'yes':
0 09098f34f445 Uploaded greg parents: diff changeset	92 fimo_cmd_list.append('--parse-genomic-coord')
09098f34f445 Uploaded greg parents: diff changeset	93 if args.qv_thresh:
09098f34f445 Uploaded greg parents: diff changeset	94 fimo_cmd_list.append('--qv-thresh')
09098f34f445 Uploaded greg parents: diff changeset	95 fimo_cmd_list.append('--thresh %4f' % args.thresh)
09098f34f445 Uploaded greg parents: diff changeset	96 if args.input_psp is not None:
09098f34f445 Uploaded greg parents: diff changeset	97 fimo_cmd_list.append('--psp "%s"' % args.input_psp)
09098f34f445 Uploaded greg parents: diff changeset	98 if args.input_prior_dist is not None:
09098f34f445 Uploaded greg parents: diff changeset	99 fimo_cmd_list.append('--prior-dist "%s"' % args.input_prior_dist)
09098f34f445 Uploaded greg parents: diff changeset	100 fimo_cmd_list.append('--o "%s"' % (args.output_path))
09098f34f445 Uploaded greg parents: diff changeset	101 fimo_cmd_list.append('--verbosity 1')
09098f34f445 Uploaded greg parents: diff changeset	102 fimo_cmd_list.append(args.input_motifs)
09098f34f445 Uploaded greg parents: diff changeset	103 fimo_cmd_list.append(args.input_fasta)
09098f34f445 Uploaded greg parents: diff changeset	104
09098f34f445 Uploaded greg parents: diff changeset	105 fimo_cmd = ' '.join(fimo_cmd_list)
09098f34f445 Uploaded greg parents: diff changeset	106
09098f34f445 Uploaded greg parents: diff changeset	107 try:
09098f34f445 Uploaded greg parents: diff changeset	108 tmp_stderr = tempfile.NamedTemporaryFile()
09098f34f445 Uploaded greg parents: diff changeset	109 proc = subprocess.Popen(args=fimo_cmd, shell=True, stderr=tmp_stderr)
09098f34f445 Uploaded greg parents: diff changeset	110 returncode = proc.wait()
09098f34f445 Uploaded greg parents: diff changeset	111 if returncode != 0:
09098f34f445 Uploaded greg parents: diff changeset	112 stderr = get_stderr(tmp_stderr)
09098f34f445 Uploaded greg parents: diff changeset	113 stop_err(stderr)
09098f34f445 Uploaded greg parents: diff changeset	114 except Exception, e:
09098f34f445 Uploaded greg parents: diff changeset	115 stop_err('Error running FIMO:\n%s' % str(e))
09098f34f445 Uploaded greg parents: diff changeset	116
09098f34f445 Uploaded greg parents: diff changeset	117 shutil.move(os.path.join(args.output_path, 'fimo.txt'), args.txt_output)
09098f34f445 Uploaded greg parents: diff changeset	118
09098f34f445 Uploaded greg parents: diff changeset	119 gff_file = os.path.join(args.output_path, 'fimo.gff')
09098f34f445 Uploaded greg parents: diff changeset	120 if args.remove_duplicate_coords == 'yes':
09098f34f445 Uploaded greg parents: diff changeset	121 tmp_stderr = tempfile.NamedTemporaryFile()
2 97fb2d36c482 Uploaded greg parents: 1 diff changeset	122 # Identify and eliminating identical motif occurrences. These
97fb2d36c482 Uploaded greg parents: 1 diff changeset	123 # are identical if the combination of chrom, start, end and
97fb2d36c482 Uploaded greg parents: 1 diff changeset	124 # motif id are identical.
97fb2d36c482 Uploaded greg parents: 1 diff changeset	125 cmd = 'sort -k1,1 -k4,4n -k5,5n -k9.1,9.6 -u -o %s %s' % (gff_file, gff_file)
0 09098f34f445 Uploaded greg parents: diff changeset	126 proc = subprocess.Popen(args=cmd, stderr=tmp_stderr, shell=True)
09098f34f445 Uploaded greg parents: diff changeset	127 returncode = proc.wait()
09098f34f445 Uploaded greg parents: diff changeset	128 if returncode != 0:
09098f34f445 Uploaded greg parents: diff changeset	129 stderr = get_stderr(tmp_stderr)
09098f34f445 Uploaded greg parents: diff changeset	130 stop_err(stderr)
2 97fb2d36c482 Uploaded greg parents: 1 diff changeset	131 # Sort GFF output by a combination of chrom, score, start.
3 ce656b846c8e Uploaded greg parents: 2 diff changeset	132 cmd = 'sort -k1,1 -k4,4n -k6,6n -o %s %s' % (gff_file, gff_file)
0 09098f34f445 Uploaded greg parents: diff changeset	133 proc = subprocess.Popen(args=cmd, stderr=tmp_stderr, shell=True)
09098f34f445 Uploaded greg parents: diff changeset	134 returncode = proc.wait()
09098f34f445 Uploaded greg parents: diff changeset	135 if returncode != 0:
09098f34f445 Uploaded greg parents: diff changeset	136 stderr = get_stderr(tmp_stderr)
09098f34f445 Uploaded greg parents: diff changeset	137 stop_err(stderr)
09098f34f445 Uploaded greg parents: diff changeset	138 if args.output_separate_motifs == 'yes':
09098f34f445 Uploaded greg parents: diff changeset	139 # Create the collection output directory.
09098f34f445 Uploaded greg parents: diff changeset	140 collection_path = (os.path.join(os.getcwd(), 'output'))
09098f34f445 Uploaded greg parents: diff changeset	141 # Keep track of motif occurrences.
09098f34f445 Uploaded greg parents: diff changeset	142 header_line = None
09098f34f445 Uploaded greg parents: diff changeset	143 motif_ids = []
09098f34f445 Uploaded greg parents: diff changeset	144 file_handles = []
09098f34f445 Uploaded greg parents: diff changeset	145 for line in open(gff_file, 'r'):
09098f34f445 Uploaded greg parents: diff changeset	146 if line.startswith('#'):
09098f34f445 Uploaded greg parents: diff changeset	147 if header_line is None:
09098f34f445 Uploaded greg parents: diff changeset	148 header_line = line
09098f34f445 Uploaded greg parents: diff changeset	149 continue
09098f34f445 Uploaded greg parents: diff changeset	150 items = line.split('\t')
09098f34f445 Uploaded greg parents: diff changeset	151 attribute = items[8]
09098f34f445 Uploaded greg parents: diff changeset	152 attributes = attribute.split(';')
09098f34f445 Uploaded greg parents: diff changeset	153 name = attributes[0]
09098f34f445 Uploaded greg parents: diff changeset	154 motif_id = name.split('=')[1]
09098f34f445 Uploaded greg parents: diff changeset	155 file_name = os.path.join(collection_path, 'MOTIF%s.gff' % motif_id)
09098f34f445 Uploaded greg parents: diff changeset	156 if motif_id in motif_ids:
09098f34f445 Uploaded greg parents: diff changeset	157 i = motif_ids.index(motif_id)
09098f34f445 Uploaded greg parents: diff changeset	158 fh = file_handles[i]
09098f34f445 Uploaded greg parents: diff changeset	159 fh.write(line)
09098f34f445 Uploaded greg parents: diff changeset	160 else:
09098f34f445 Uploaded greg parents: diff changeset	161 fh = open(file_name, 'wb')
09098f34f445 Uploaded greg parents: diff changeset	162 if header_line is not None:
09098f34f445 Uploaded greg parents: diff changeset	163 fh.write(header_line)
09098f34f445 Uploaded greg parents: diff changeset	164 fh.write(line)
09098f34f445 Uploaded greg parents: diff changeset	165 motif_ids.append(motif_id)
09098f34f445 Uploaded greg parents: diff changeset	166 file_handles.append(fh)
09098f34f445 Uploaded greg parents: diff changeset	167 for file_handle in file_handles:
09098f34f445 Uploaded greg parents: diff changeset	168 file_handle.close()
09098f34f445 Uploaded greg parents: diff changeset	169 else:
09098f34f445 Uploaded greg parents: diff changeset	170 shutil.move(gff_file, args.gff_output)
09098f34f445 Uploaded greg parents: diff changeset	171 shutil.move(os.path.join(args.output_path, 'fimo.xml'), args.xml_output)
09098f34f445 Uploaded greg parents: diff changeset	172 shutil.move(os.path.join(args.output_path, 'fimo.html'), args.html_output)
09098f34f445 Uploaded greg parents: diff changeset	173
09098f34f445 Uploaded greg parents: diff changeset	174 out_file = open(args.interval_output, 'wb')
09098f34f445 Uploaded greg parents: diff changeset	175 out_file.write("#%s\n" % "\t".join(("chr", "start", "end", "pattern name", "score", "strand", "matched sequence", "p-value", "q-value")))
09098f34f445 Uploaded greg parents: diff changeset	176 for line in open(args.txt_output):
09098f34f445 Uploaded greg parents: diff changeset	177 if line.startswith('#'):
09098f34f445 Uploaded greg parents: diff changeset	178 continue
09098f34f445 Uploaded greg parents: diff changeset	179 fields = line.rstrip("\n\r").split("\t")
09098f34f445 Uploaded greg parents: diff changeset	180 start, end = int(fields[2]), int(fields[3])
09098f34f445 Uploaded greg parents: diff changeset	181 sequence = fields[7]
09098f34f445 Uploaded greg parents: diff changeset	182 if start > end:
09098f34f445 Uploaded greg parents: diff changeset	183 # Flip start and end and set strand.
09098f34f445 Uploaded greg parents: diff changeset	184 start, end = end, start
09098f34f445 Uploaded greg parents: diff changeset	185 strand = "-"
09098f34f445 Uploaded greg parents: diff changeset	186 # We want sequences relative to strand; FIMO always provides + stranded sequence.
09098f34f445 Uploaded greg parents: diff changeset	187 sequence = dna_reverse_complement(sequence)
09098f34f445 Uploaded greg parents: diff changeset	188 else:
09098f34f445 Uploaded greg parents: diff changeset	189 strand = "+"
09098f34f445 Uploaded greg parents: diff changeset	190 # Make 0-based start position.
09098f34f445 Uploaded greg parents: diff changeset	191 start -= 1
09098f34f445 Uploaded greg parents: diff changeset	192 out_file.write("%s\n" % "\t".join([fields[1], str(start), str(end), fields[0], fields[4], strand, sequence, fields[5], fields[6]]))
09098f34f445 Uploaded greg parents: diff changeset	193 out_file.close()

Mercurial > repos > greg > meme_fimo

annotate fimo_wrapper.py @ 6:4df8e9f58a53 draft default tip