genetrack: genetrack_util.py annotate

annotate genetrack_util.py @ 6:fa85ca6c9cf8 draft

Uploaded

author	greg
date	Sat, 21 Nov 2015 08:57:37 -0500
parents	a952b6740fb9
children	a7da50a23270

rev	line source
0 0368815ae4d5 Uploaded greg parents: diff changeset	1 import bisect
0368815ae4d5 Uploaded greg parents: diff changeset	2 import math
0368815ae4d5 Uploaded greg parents: diff changeset	3 import numpy
0368815ae4d5 Uploaded greg parents: diff changeset	4 import re
0368815ae4d5 Uploaded greg parents: diff changeset	5 import subprocess
0368815ae4d5 Uploaded greg parents: diff changeset	6 import sys
0368815ae4d5 Uploaded greg parents: diff changeset	7 import tempfile
0368815ae4d5 Uploaded greg parents: diff changeset	8
4 a952b6740fb9 Uploaded greg parents: 0 diff changeset	9 GFF_EXT = 'gff'
a952b6740fb9 Uploaded greg parents: 0 diff changeset	10 SCIDX_EXT = 'scidx'
a952b6740fb9 Uploaded greg parents: 0 diff changeset	11
0 0368815ae4d5 Uploaded greg parents: diff changeset	12 ROMAN = ['0', 'I', 'II', 'III', 'IV', 'V', 'VI', 'VII', 'VIII', 'IX', 'X',
0368815ae4d5 Uploaded greg parents: diff changeset	13 'XI', 'XII', 'XIII', 'XIV', 'XV', 'XVI', 'XVII', 'XVIII', 'XIX', 'XX',
0368815ae4d5 Uploaded greg parents: diff changeset	14 'XXI', 'XXII', 'XXIII', 'XXIV', 'XXV', 'XXVI', 'XXVII', 'XXVIII', 'XXIX',
0368815ae4d5 Uploaded greg parents: diff changeset	15 'XXX']
0368815ae4d5 Uploaded greg parents: diff changeset	16
0368815ae4d5 Uploaded greg parents: diff changeset	17
0368815ae4d5 Uploaded greg parents: diff changeset	18 def noop(data):
0368815ae4d5 Uploaded greg parents: diff changeset	19 return data
0368815ae4d5 Uploaded greg parents: diff changeset	20
0368815ae4d5 Uploaded greg parents: diff changeset	21
0368815ae4d5 Uploaded greg parents: diff changeset	22 def zeropad_to_numeric(data):
0368815ae4d5 Uploaded greg parents: diff changeset	23 return re.sub(r'chr0(\d)', r'chr\1', data)
0368815ae4d5 Uploaded greg parents: diff changeset	24
0368815ae4d5 Uploaded greg parents: diff changeset	25
0368815ae4d5 Uploaded greg parents: diff changeset	26 def numeric_to_zeropad(data):
0368815ae4d5 Uploaded greg parents: diff changeset	27 return re.sub(r'chr(\d([^\d]\|$))', r'chr0\1', data)
0368815ae4d5 Uploaded greg parents: diff changeset	28
0368815ae4d5 Uploaded greg parents: diff changeset	29
0368815ae4d5 Uploaded greg parents: diff changeset	30 def roman_to_numeric(data):
0368815ae4d5 Uploaded greg parents: diff changeset	31 def convert(match):
0368815ae4d5 Uploaded greg parents: diff changeset	32 """
0368815ae4d5 Uploaded greg parents: diff changeset	33 Converts a single roman numeral to a number
0368815ae4d5 Uploaded greg parents: diff changeset	34 """
0368815ae4d5 Uploaded greg parents: diff changeset	35 numeral = match.group(1)
0368815ae4d5 Uploaded greg parents: diff changeset	36 numeral = numeral.upper()
0368815ae4d5 Uploaded greg parents: diff changeset	37 if numeral not in ROMAN:
0368815ae4d5 Uploaded greg parents: diff changeset	38 # Unable to convert detected Roman numeral
0368815ae4d5 Uploaded greg parents: diff changeset	39 return match.group(0)
0368815ae4d5 Uploaded greg parents: diff changeset	40 return 'chr'+str(ROMAN.index(numeral))+(match.group(2) or '')
0368815ae4d5 Uploaded greg parents: diff changeset	41 r = re.compile('chr([IVX]+)([^IVX]\|$)', flags=re.IGNORECASE)
0368815ae4d5 Uploaded greg parents: diff changeset	42 data = r.sub(convert, data)
0368815ae4d5 Uploaded greg parents: diff changeset	43 return data
0368815ae4d5 Uploaded greg parents: diff changeset	44
0368815ae4d5 Uploaded greg parents: diff changeset	45
0368815ae4d5 Uploaded greg parents: diff changeset	46 def numeric_to_roman(data):
0368815ae4d5 Uploaded greg parents: diff changeset	47 def convert(match):
0368815ae4d5 Uploaded greg parents: diff changeset	48 """
0368815ae4d5 Uploaded greg parents: diff changeset	49 Converts a number to a roman numeral
0368815ae4d5 Uploaded greg parents: diff changeset	50 """
0368815ae4d5 Uploaded greg parents: diff changeset	51 number = int(match.group(1))
0368815ae4d5 Uploaded greg parents: diff changeset	52 if number >= len(ROMAN):
0368815ae4d5 Uploaded greg parents: diff changeset	53 # Number is out of range to convert to a Roman numeral
0368815ae4d5 Uploaded greg parents: diff changeset	54 return match.group(0)
0368815ae4d5 Uploaded greg parents: diff changeset	55 return 'chr'+ROMAN[number]+(match.group(2) or '')
0368815ae4d5 Uploaded greg parents: diff changeset	56 r = re.compile('chr(\d+)([^\d]\|$)')
0368815ae4d5 Uploaded greg parents: diff changeset	57 data = r.sub(convert, data)
0368815ae4d5 Uploaded greg parents: diff changeset	58 return data
0368815ae4d5 Uploaded greg parents: diff changeset	59
0368815ae4d5 Uploaded greg parents: diff changeset	60 FORMATS = ['zeropad', 'numeric', 'roman']
0368815ae4d5 Uploaded greg parents: diff changeset	61 IN_CONVERT = {'zeropad': zeropad_to_numeric, 'roman': roman_to_numeric, 'numeric': noop}
0368815ae4d5 Uploaded greg parents: diff changeset	62 OUT_CONVERT = {'zeropad': numeric_to_zeropad, 'roman': numeric_to_roman, 'numeric': noop}
0368815ae4d5 Uploaded greg parents: diff changeset	63
0368815ae4d5 Uploaded greg parents: diff changeset	64
0368815ae4d5 Uploaded greg parents: diff changeset	65 def conversion_functions(in_fmt, out_fmt):
0368815ae4d5 Uploaded greg parents: diff changeset	66 """
0368815ae4d5 Uploaded greg parents: diff changeset	67 Returns the proper list of functions to apply to perform a conversion
0368815ae4d5 Uploaded greg parents: diff changeset	68 """
0368815ae4d5 Uploaded greg parents: diff changeset	69 return [IN_CONVERT[in_fmt], OUT_CONVERT[out_fmt]]
0368815ae4d5 Uploaded greg parents: diff changeset	70
0368815ae4d5 Uploaded greg parents: diff changeset	71
0368815ae4d5 Uploaded greg parents: diff changeset	72 def autodetect_format(data):
0368815ae4d5 Uploaded greg parents: diff changeset	73 if re.search('chr0\d', data):
0368815ae4d5 Uploaded greg parents: diff changeset	74 fmt = 'zeropad'
0368815ae4d5 Uploaded greg parents: diff changeset	75 elif re.search('chr[IVXivx]', data):
0368815ae4d5 Uploaded greg parents: diff changeset	76 fmt = 'roman'
0368815ae4d5 Uploaded greg parents: diff changeset	77 else:
0368815ae4d5 Uploaded greg parents: diff changeset	78 fmt = 'numeric'
0368815ae4d5 Uploaded greg parents: diff changeset	79 return fmt
0368815ae4d5 Uploaded greg parents: diff changeset	80
0368815ae4d5 Uploaded greg parents: diff changeset	81
0368815ae4d5 Uploaded greg parents: diff changeset	82 def convert_data(data, in_fmt, out_fmt):
0368815ae4d5 Uploaded greg parents: diff changeset	83 if in_fmt == 'autodetect':
0368815ae4d5 Uploaded greg parents: diff changeset	84 in_fmt = autodetect_format(data)
0368815ae4d5 Uploaded greg parents: diff changeset	85 for fn in conversion_functions(in_fmt, out_fmt):
0368815ae4d5 Uploaded greg parents: diff changeset	86 data = fn(data)
0368815ae4d5 Uploaded greg parents: diff changeset	87 return data
0368815ae4d5 Uploaded greg parents: diff changeset	88
0368815ae4d5 Uploaded greg parents: diff changeset	89
0368815ae4d5 Uploaded greg parents: diff changeset	90 class ChromosomeManager(object):
0368815ae4d5 Uploaded greg parents: diff changeset	91 """
0368815ae4d5 Uploaded greg parents: diff changeset	92 Manages a CSV reader of an index file to only load one chrom at a time
0368815ae4d5 Uploaded greg parents: diff changeset	93 """
0368815ae4d5 Uploaded greg parents: diff changeset	94
0368815ae4d5 Uploaded greg parents: diff changeset	95 def __init__(self, reader):
0368815ae4d5 Uploaded greg parents: diff changeset	96 self.done = False
0368815ae4d5 Uploaded greg parents: diff changeset	97 self.reader = reader
0368815ae4d5 Uploaded greg parents: diff changeset	98 self.processed_chromosomes = []
0368815ae4d5 Uploaded greg parents: diff changeset	99 self.current_index = 0
0368815ae4d5 Uploaded greg parents: diff changeset	100 self.next_valid()
0368815ae4d5 Uploaded greg parents: diff changeset	101
0368815ae4d5 Uploaded greg parents: diff changeset	102 def next(self):
0368815ae4d5 Uploaded greg parents: diff changeset	103 self.line = self.reader.next()
0368815ae4d5 Uploaded greg parents: diff changeset	104
0368815ae4d5 Uploaded greg parents: diff changeset	105 def is_valid(self, line):
0368815ae4d5 Uploaded greg parents: diff changeset	106 if len(line) not in [4, 5, 9]:
0368815ae4d5 Uploaded greg parents: diff changeset	107 return False
0368815ae4d5 Uploaded greg parents: diff changeset	108 try:
0368815ae4d5 Uploaded greg parents: diff changeset	109 [int(i) for i in line[1:]]
4 a952b6740fb9 Uploaded greg parents: 0 diff changeset	110 self.format = SCIDX_EXT
0 0368815ae4d5 Uploaded greg parents: diff changeset	111 return True
0368815ae4d5 Uploaded greg parents: diff changeset	112 except ValueError:
0368815ae4d5 Uploaded greg parents: diff changeset	113 try:
0368815ae4d5 Uploaded greg parents: diff changeset	114 if len(line) < 6:
0368815ae4d5 Uploaded greg parents: diff changeset	115 return False
0368815ae4d5 Uploaded greg parents: diff changeset	116 [int(line[4]), int(line[5])]
4 a952b6740fb9 Uploaded greg parents: 0 diff changeset	117 self.format = GFF_EXT
0 0368815ae4d5 Uploaded greg parents: diff changeset	118 return True
0368815ae4d5 Uploaded greg parents: diff changeset	119 except ValueError:
0368815ae4d5 Uploaded greg parents: diff changeset	120 return False
0368815ae4d5 Uploaded greg parents: diff changeset	121
0368815ae4d5 Uploaded greg parents: diff changeset	122 def next_valid(self):
0368815ae4d5 Uploaded greg parents: diff changeset	123 """
0368815ae4d5 Uploaded greg parents: diff changeset	124 Advance to the next valid line in the reader
0368815ae4d5 Uploaded greg parents: diff changeset	125 """
0368815ae4d5 Uploaded greg parents: diff changeset	126 self.line = self.reader.next()
0368815ae4d5 Uploaded greg parents: diff changeset	127 s = 0
0368815ae4d5 Uploaded greg parents: diff changeset	128 while not self.is_valid(self.line):
0368815ae4d5 Uploaded greg parents: diff changeset	129 self.line = self.reader.next()
0368815ae4d5 Uploaded greg parents: diff changeset	130 s += 1
0368815ae4d5 Uploaded greg parents: diff changeset	131 if s > 0:
0368815ae4d5 Uploaded greg parents: diff changeset	132 # Skip initial line(s) of file
0368815ae4d5 Uploaded greg parents: diff changeset	133 pass
0368815ae4d5 Uploaded greg parents: diff changeset	134
0368815ae4d5 Uploaded greg parents: diff changeset	135 def parse_line(self, line):
4 a952b6740fb9 Uploaded greg parents: 0 diff changeset	136 if self.format == SCIDX_EXT:
0 0368815ae4d5 Uploaded greg parents: diff changeset	137 return [int(line[1]), int(line[2]), int(line[3])]
0368815ae4d5 Uploaded greg parents: diff changeset	138 else:
0368815ae4d5 Uploaded greg parents: diff changeset	139 return [int(line[3]), line[6], line[5]]
0368815ae4d5 Uploaded greg parents: diff changeset	140
0368815ae4d5 Uploaded greg parents: diff changeset	141 def chromosome_name(self):
0368815ae4d5 Uploaded greg parents: diff changeset	142 """
0368815ae4d5 Uploaded greg parents: diff changeset	143 Return the name of the chromosome about to be loaded
0368815ae4d5 Uploaded greg parents: diff changeset	144 """
0368815ae4d5 Uploaded greg parents: diff changeset	145 return self.line[0]
0368815ae4d5 Uploaded greg parents: diff changeset	146
0368815ae4d5 Uploaded greg parents: diff changeset	147 def load_chromosome(self, collect_data=True):
0368815ae4d5 Uploaded greg parents: diff changeset	148 """
0368815ae4d5 Uploaded greg parents: diff changeset	149 Load the current chromosome into an array and return it
0368815ae4d5 Uploaded greg parents: diff changeset	150 """
0368815ae4d5 Uploaded greg parents: diff changeset	151 cname = self.chromosome_name()
0368815ae4d5 Uploaded greg parents: diff changeset	152 if cname in self.processed_chromosomes:
0368815ae4d5 Uploaded greg parents: diff changeset	153 stop_err('File is not grouped by chromosome')
0368815ae4d5 Uploaded greg parents: diff changeset	154 self.data = []
0368815ae4d5 Uploaded greg parents: diff changeset	155 while self.line[0] == cname:
0368815ae4d5 Uploaded greg parents: diff changeset	156 if collect_data:
0368815ae4d5 Uploaded greg parents: diff changeset	157 read = self.parse_line(self.line)
0368815ae4d5 Uploaded greg parents: diff changeset	158 if read[0] < self.current_index:
0368815ae4d5 Uploaded greg parents: diff changeset	159 msg = 'Reads in chromosome %s are not sorted by index. (At index %d)' % (cname, self.current_index)
0368815ae4d5 Uploaded greg parents: diff changeset	160 stop_err(msg)
0368815ae4d5 Uploaded greg parents: diff changeset	161 self.current_index = read[0]
0368815ae4d5 Uploaded greg parents: diff changeset	162 self.add_read(read)
0368815ae4d5 Uploaded greg parents: diff changeset	163 try:
0368815ae4d5 Uploaded greg parents: diff changeset	164 self.next()
0368815ae4d5 Uploaded greg parents: diff changeset	165 except StopIteration:
0368815ae4d5 Uploaded greg parents: diff changeset	166 self.done = True
0368815ae4d5 Uploaded greg parents: diff changeset	167 break
0368815ae4d5 Uploaded greg parents: diff changeset	168 self.processed_chromosomes.append(cname)
0368815ae4d5 Uploaded greg parents: diff changeset	169 self.current_index = 0
0368815ae4d5 Uploaded greg parents: diff changeset	170 data = self.data
0368815ae4d5 Uploaded greg parents: diff changeset	171 # Don't retain reference anymore to save memory
0368815ae4d5 Uploaded greg parents: diff changeset	172 del self.data
0368815ae4d5 Uploaded greg parents: diff changeset	173 return data
0368815ae4d5 Uploaded greg parents: diff changeset	174
0368815ae4d5 Uploaded greg parents: diff changeset	175 def add_read(self, read):
4 a952b6740fb9 Uploaded greg parents: 0 diff changeset	176 if self.format == SCIDX_EXT:
0 0368815ae4d5 Uploaded greg parents: diff changeset	177 self.data.append(read)
0368815ae4d5 Uploaded greg parents: diff changeset	178 else:
0368815ae4d5 Uploaded greg parents: diff changeset	179 index, strand, value = read
0368815ae4d5 Uploaded greg parents: diff changeset	180 if value == '' or value == '.':
0368815ae4d5 Uploaded greg parents: diff changeset	181 value = 1
0368815ae4d5 Uploaded greg parents: diff changeset	182 else:
0368815ae4d5 Uploaded greg parents: diff changeset	183 value = int(value)
0368815ae4d5 Uploaded greg parents: diff changeset	184 if not self.data:
0368815ae4d5 Uploaded greg parents: diff changeset	185 self.data.append([index, 0, 0])
0368815ae4d5 Uploaded greg parents: diff changeset	186 current_read = self.data[-1]
0368815ae4d5 Uploaded greg parents: diff changeset	187 if self.data[-1][0] == index:
0368815ae4d5 Uploaded greg parents: diff changeset	188 current_read = self.data[-1]
0368815ae4d5 Uploaded greg parents: diff changeset	189 elif self.data[-1][0] < index:
0368815ae4d5 Uploaded greg parents: diff changeset	190 self.data.append([index, 0, 0])
0368815ae4d5 Uploaded greg parents: diff changeset	191 current_read = self.data[-1]
0368815ae4d5 Uploaded greg parents: diff changeset	192 else:
0368815ae4d5 Uploaded greg parents: diff changeset	193 msg = 'Reads in chromosome %s are not sorted by index. (At index %d)' % (self.chromosome_name(), index)
0368815ae4d5 Uploaded greg parents: diff changeset	194 stop_err(msg)
0368815ae4d5 Uploaded greg parents: diff changeset	195 if strand == '+':
0368815ae4d5 Uploaded greg parents: diff changeset	196 current_read[1] += value
0368815ae4d5 Uploaded greg parents: diff changeset	197 elif strand == '-':
0368815ae4d5 Uploaded greg parents: diff changeset	198 current_read[2] += value
0368815ae4d5 Uploaded greg parents: diff changeset	199 else:
0368815ae4d5 Uploaded greg parents: diff changeset	200 msg = 'Strand "%s" at chromosome "%s" index %d is not valid.' % (strand, self.chromosome_name(), index)
0368815ae4d5 Uploaded greg parents: diff changeset	201 stop_err(msg)
0368815ae4d5 Uploaded greg parents: diff changeset	202
0368815ae4d5 Uploaded greg parents: diff changeset	203 def skip_chromosome(self):
0368815ae4d5 Uploaded greg parents: diff changeset	204 """
0368815ae4d5 Uploaded greg parents: diff changeset	205 Skip the current chromosome, discarding data
0368815ae4d5 Uploaded greg parents: diff changeset	206 """
0368815ae4d5 Uploaded greg parents: diff changeset	207 self.load_chromosome(collect_data=False)
0368815ae4d5 Uploaded greg parents: diff changeset	208
0368815ae4d5 Uploaded greg parents: diff changeset	209
0368815ae4d5 Uploaded greg parents: diff changeset	210 class Peak(object):
0368815ae4d5 Uploaded greg parents: diff changeset	211 def __init__(self, index, pos_width, neg_width):
0368815ae4d5 Uploaded greg parents: diff changeset	212 self.index = index
0368815ae4d5 Uploaded greg parents: diff changeset	213 self.start = index - neg_width
0368815ae4d5 Uploaded greg parents: diff changeset	214 self.end = index + pos_width
0368815ae4d5 Uploaded greg parents: diff changeset	215 self.value = 0
0368815ae4d5 Uploaded greg parents: diff changeset	216 self.deleted = False
0368815ae4d5 Uploaded greg parents: diff changeset	217 self.safe = False
0368815ae4d5 Uploaded greg parents: diff changeset	218
0368815ae4d5 Uploaded greg parents: diff changeset	219 def __repr__(self):
0368815ae4d5 Uploaded greg parents: diff changeset	220 return '[%d] %d' % (self.index, self.value)
0368815ae4d5 Uploaded greg parents: diff changeset	221
0368815ae4d5 Uploaded greg parents: diff changeset	222
0368815ae4d5 Uploaded greg parents: diff changeset	223 def gff_row(cname, start, end, score, source, type='.', strand='.', phase='.', attrs={}):
0368815ae4d5 Uploaded greg parents: diff changeset	224 return (cname, source, type, start, end, score, strand, phase, gff_attrs(attrs))
0368815ae4d5 Uploaded greg parents: diff changeset	225
0368815ae4d5 Uploaded greg parents: diff changeset	226
0368815ae4d5 Uploaded greg parents: diff changeset	227 def gff_attrs(d):
0368815ae4d5 Uploaded greg parents: diff changeset	228 if not d:
0368815ae4d5 Uploaded greg parents: diff changeset	229 return '.'
0368815ae4d5 Uploaded greg parents: diff changeset	230 return ';'.join('%s=%s' % item for item in d.items())
0368815ae4d5 Uploaded greg parents: diff changeset	231
0368815ae4d5 Uploaded greg parents: diff changeset	232
0368815ae4d5 Uploaded greg parents: diff changeset	233 def stop_err(msg):
0368815ae4d5 Uploaded greg parents: diff changeset	234 sys.stderr.write(msg)
0368815ae4d5 Uploaded greg parents: diff changeset	235 sys.exit(1)
0368815ae4d5 Uploaded greg parents: diff changeset	236
0368815ae4d5 Uploaded greg parents: diff changeset	237
0368815ae4d5 Uploaded greg parents: diff changeset	238 def is_int(i):
0368815ae4d5 Uploaded greg parents: diff changeset	239 try:
0368815ae4d5 Uploaded greg parents: diff changeset	240 int(i)
0368815ae4d5 Uploaded greg parents: diff changeset	241 return True
0368815ae4d5 Uploaded greg parents: diff changeset	242 except ValueError:
0368815ae4d5 Uploaded greg parents: diff changeset	243 return False
0368815ae4d5 Uploaded greg parents: diff changeset	244
0368815ae4d5 Uploaded greg parents: diff changeset	245
0368815ae4d5 Uploaded greg parents: diff changeset	246 def make_keys(data):
0368815ae4d5 Uploaded greg parents: diff changeset	247 return [read[0] for read in data]
0368815ae4d5 Uploaded greg parents: diff changeset	248
0368815ae4d5 Uploaded greg parents: diff changeset	249
0368815ae4d5 Uploaded greg parents: diff changeset	250 def make_peak_keys(peaks):
0368815ae4d5 Uploaded greg parents: diff changeset	251 return [peak.index for peak in peaks]
0368815ae4d5 Uploaded greg parents: diff changeset	252
0368815ae4d5 Uploaded greg parents: diff changeset	253
0368815ae4d5 Uploaded greg parents: diff changeset	254 def get_window(data, start, end, keys):
0368815ae4d5 Uploaded greg parents: diff changeset	255 """
0368815ae4d5 Uploaded greg parents: diff changeset	256 Returns all reads from the data set with index between the two indexes
0368815ae4d5 Uploaded greg parents: diff changeset	257 """
0368815ae4d5 Uploaded greg parents: diff changeset	258 start_index = bisect.bisect_left(keys, start)
0368815ae4d5 Uploaded greg parents: diff changeset	259 end_index = bisect.bisect_right(keys, end)
0368815ae4d5 Uploaded greg parents: diff changeset	260 return data[start_index:end_index]
0368815ae4d5 Uploaded greg parents: diff changeset	261
0368815ae4d5 Uploaded greg parents: diff changeset	262
0368815ae4d5 Uploaded greg parents: diff changeset	263 def get_index(value, keys):
0368815ae4d5 Uploaded greg parents: diff changeset	264 """
0368815ae4d5 Uploaded greg parents: diff changeset	265 Returns the index of the value in the keys using bisect
0368815ae4d5 Uploaded greg parents: diff changeset	266 """
0368815ae4d5 Uploaded greg parents: diff changeset	267 return bisect.bisect_left(keys, value)
0368815ae4d5 Uploaded greg parents: diff changeset	268
0368815ae4d5 Uploaded greg parents: diff changeset	269
0368815ae4d5 Uploaded greg parents: diff changeset	270 def get_range(data):
0368815ae4d5 Uploaded greg parents: diff changeset	271 lo = min([item[0] for item in data])
0368815ae4d5 Uploaded greg parents: diff changeset	272 hi = max([item[0] for item in data])
0368815ae4d5 Uploaded greg parents: diff changeset	273 return lo, hi
0368815ae4d5 Uploaded greg parents: diff changeset	274
0368815ae4d5 Uploaded greg parents: diff changeset	275
0368815ae4d5 Uploaded greg parents: diff changeset	276 def get_chunks(lo, hi, size, overlap=500):
0368815ae4d5 Uploaded greg parents: diff changeset	277 """
0368815ae4d5 Uploaded greg parents: diff changeset	278 Divides a range into chunks of maximum size size. Returns a list of
0368815ae4d5 Uploaded greg parents: diff changeset	279 2-tuples (slice_range, process_range), each a 2-tuple (start, end).
0368815ae4d5 Uploaded greg parents: diff changeset	280 process_range has zero overlap and should be given to process_chromosome
0368815ae4d5 Uploaded greg parents: diff changeset	281 as-is, and slice_range is overlapped and should be used to slice the
0368815ae4d5 Uploaded greg parents: diff changeset	282 data (using get_window) to be given to process_chromosome.
0368815ae4d5 Uploaded greg parents: diff changeset	283 """
0368815ae4d5 Uploaded greg parents: diff changeset	284 chunks = []
0368815ae4d5 Uploaded greg parents: diff changeset	285 for start_index in range(lo, hi, size):
0368815ae4d5 Uploaded greg parents: diff changeset	286 process_start = start_index
0368815ae4d5 Uploaded greg parents: diff changeset	287 # Don't go over upper bound
0368815ae4d5 Uploaded greg parents: diff changeset	288 process_end = min(start_index + size, hi)
0368815ae4d5 Uploaded greg parents: diff changeset	289 # Don't go under lower bound
0368815ae4d5 Uploaded greg parents: diff changeset	290 slice_start = max(process_start - overlap, lo)
0368815ae4d5 Uploaded greg parents: diff changeset	291 # Don't go over upper bound
0368815ae4d5 Uploaded greg parents: diff changeset	292 slice_end = min(process_end + overlap, hi)
0368815ae4d5 Uploaded greg parents: diff changeset	293 chunks.append(((slice_start, slice_end), (process_start, process_end)))
0368815ae4d5 Uploaded greg parents: diff changeset	294 return chunks
0368815ae4d5 Uploaded greg parents: diff changeset	295
0368815ae4d5 Uploaded greg parents: diff changeset	296
0368815ae4d5 Uploaded greg parents: diff changeset	297 def allocate_array(data, width):
0368815ae4d5 Uploaded greg parents: diff changeset	298 """
0368815ae4d5 Uploaded greg parents: diff changeset	299 Allocates a new array with the dimensions required to fit all reads in
0368815ae4d5 Uploaded greg parents: diff changeset	300 the argument. The new array is totally empty. Returns the array and the
0368815ae4d5 Uploaded greg parents: diff changeset	301 shift (number to add to a read index to get the position in the array it
0368815ae4d5 Uploaded greg parents: diff changeset	302 should be at).
0368815ae4d5 Uploaded greg parents: diff changeset	303 """
0368815ae4d5 Uploaded greg parents: diff changeset	304 lo, hi = get_range(data)
0368815ae4d5 Uploaded greg parents: diff changeset	305 rng = hi - lo
0368815ae4d5 Uploaded greg parents: diff changeset	306 shift = width - lo
0368815ae4d5 Uploaded greg parents: diff changeset	307 return numpy.zeros(rng+width*2, numpy.float), shift
0368815ae4d5 Uploaded greg parents: diff changeset	308
0368815ae4d5 Uploaded greg parents: diff changeset	309
0368815ae4d5 Uploaded greg parents: diff changeset	310 def normal_array(width, sigma, normalize=True):
0368815ae4d5 Uploaded greg parents: diff changeset	311 """
0368815ae4d5 Uploaded greg parents: diff changeset	312 Returns an array of the normal distribution of the specified width
0368815ae4d5 Uploaded greg parents: diff changeset	313 """
0368815ae4d5 Uploaded greg parents: diff changeset	314 sigma2 = float(sigma)**2
0368815ae4d5 Uploaded greg parents: diff changeset	315
0368815ae4d5 Uploaded greg parents: diff changeset	316 def normal_func(x):
0368815ae4d5 Uploaded greg parents: diff changeset	317 return math.exp(-x * x / (2 * sigma2))
0368815ae4d5 Uploaded greg parents: diff changeset	318
0368815ae4d5 Uploaded greg parents: diff changeset	319 # width is the half of the distribution
0368815ae4d5 Uploaded greg parents: diff changeset	320 values = map(normal_func, range(-width, width))
0368815ae4d5 Uploaded greg parents: diff changeset	321 values = numpy.array(values, numpy.float)
0368815ae4d5 Uploaded greg parents: diff changeset	322 # normalization
0368815ae4d5 Uploaded greg parents: diff changeset	323 if normalize:
0368815ae4d5 Uploaded greg parents: diff changeset	324 values = 1.0/math.sqrt(2 * numpy.pi * sigma2) * values
0368815ae4d5 Uploaded greg parents: diff changeset	325 return values
0368815ae4d5 Uploaded greg parents: diff changeset	326
0368815ae4d5 Uploaded greg parents: diff changeset	327
0368815ae4d5 Uploaded greg parents: diff changeset	328 def call_peaks(array, shift, data, keys, direction, down_width, up_width, exclusion):
0368815ae4d5 Uploaded greg parents: diff changeset	329 peaks = []
0368815ae4d5 Uploaded greg parents: diff changeset	330
0368815ae4d5 Uploaded greg parents: diff changeset	331 def find_peaks():
0368815ae4d5 Uploaded greg parents: diff changeset	332 # Go through the array and call each peak
0368815ae4d5 Uploaded greg parents: diff changeset	333 results = (array > numpy.roll(array, 1)) & (array > numpy.roll(array, -1))
0368815ae4d5 Uploaded greg parents: diff changeset	334 indexes = numpy.where(results)
0368815ae4d5 Uploaded greg parents: diff changeset	335 for index in indexes[0]:
0368815ae4d5 Uploaded greg parents: diff changeset	336 pos = down_width or exclusion // 2
0368815ae4d5 Uploaded greg parents: diff changeset	337 neg = up_width or exclusion // 2
0368815ae4d5 Uploaded greg parents: diff changeset	338 # Reverse strand
0368815ae4d5 Uploaded greg parents: diff changeset	339 if direction == 2:
0368815ae4d5 Uploaded greg parents: diff changeset	340 # Swap positive and negative widths
0368815ae4d5 Uploaded greg parents: diff changeset	341 pos, neg = neg, pos
0368815ae4d5 Uploaded greg parents: diff changeset	342 peaks.append(Peak(int(index)-shift, pos, neg))
0368815ae4d5 Uploaded greg parents: diff changeset	343 find_peaks()
0368815ae4d5 Uploaded greg parents: diff changeset	344
0368815ae4d5 Uploaded greg parents: diff changeset	345 def calculate_reads():
0368815ae4d5 Uploaded greg parents: diff changeset	346 # Calculate the number of reads in each peak
0368815ae4d5 Uploaded greg parents: diff changeset	347 for peak in peaks:
0368815ae4d5 Uploaded greg parents: diff changeset	348 reads = get_window(data, peak.start, peak.end, keys)
0368815ae4d5 Uploaded greg parents: diff changeset	349 peak.value = sum([read[direction] for read in reads])
0368815ae4d5 Uploaded greg parents: diff changeset	350 # Flat list of indexes with frequency
0368815ae4d5 Uploaded greg parents: diff changeset	351 indexes = [r for read in reads for r in [read[0]] * read[direction]]
0368815ae4d5 Uploaded greg parents: diff changeset	352 peak.stddev = numpy.std(indexes)
0368815ae4d5 Uploaded greg parents: diff changeset	353 calculate_reads()
0368815ae4d5 Uploaded greg parents: diff changeset	354
0368815ae4d5 Uploaded greg parents: diff changeset	355 def perform_exclusion():
0368815ae4d5 Uploaded greg parents: diff changeset	356 # Process the exclusion zone
0368815ae4d5 Uploaded greg parents: diff changeset	357 peak_keys = make_peak_keys(peaks)
0368815ae4d5 Uploaded greg parents: diff changeset	358 peaks_by_value = peaks[:]
0368815ae4d5 Uploaded greg parents: diff changeset	359 peaks_by_value.sort(key=lambda peak: -peak.value)
0368815ae4d5 Uploaded greg parents: diff changeset	360 for peak in peaks_by_value:
0368815ae4d5 Uploaded greg parents: diff changeset	361 peak.safe = True
0368815ae4d5 Uploaded greg parents: diff changeset	362 window = get_window(peaks,
0368815ae4d5 Uploaded greg parents: diff changeset	363 peak.index-exclusion//2,
0368815ae4d5 Uploaded greg parents: diff changeset	364 peak.index+exclusion//2,
0368815ae4d5 Uploaded greg parents: diff changeset	365 peak_keys)
0368815ae4d5 Uploaded greg parents: diff changeset	366 for excluded in window:
0368815ae4d5 Uploaded greg parents: diff changeset	367 if excluded.safe:
0368815ae4d5 Uploaded greg parents: diff changeset	368 continue
0368815ae4d5 Uploaded greg parents: diff changeset	369 i = get_index(excluded.index, peak_keys)
0368815ae4d5 Uploaded greg parents: diff changeset	370 del peak_keys[i]
0368815ae4d5 Uploaded greg parents: diff changeset	371 del peaks[i]
0368815ae4d5 Uploaded greg parents: diff changeset	372 perform_exclusion()
0368815ae4d5 Uploaded greg parents: diff changeset	373 return peaks
0368815ae4d5 Uploaded greg parents: diff changeset	374
0368815ae4d5 Uploaded greg parents: diff changeset	375
0368815ae4d5 Uploaded greg parents: diff changeset	376 def process_chromosome(cname, data, writer, process_bounds, width, sigma, down_width, up_width, exclusion, filter):
0368815ae4d5 Uploaded greg parents: diff changeset	377 """
0368815ae4d5 Uploaded greg parents: diff changeset	378 Process a chromosome. Takes the chromosome name, list of reads, a CSV
0368815ae4d5 Uploaded greg parents: diff changeset	379 writer to write processes results to, the bounds (2-tuple) to write
0368815ae4d5 Uploaded greg parents: diff changeset	380 results in, and options.
0368815ae4d5 Uploaded greg parents: diff changeset	381 """
0368815ae4d5 Uploaded greg parents: diff changeset	382 if not data:
0368815ae4d5 Uploaded greg parents: diff changeset	383 return
0368815ae4d5 Uploaded greg parents: diff changeset	384 keys = make_keys(data)
0368815ae4d5 Uploaded greg parents: diff changeset	385 # Create the arrays that hold the sum of the normals
0368815ae4d5 Uploaded greg parents: diff changeset	386 forward_array, forward_shift = allocate_array(data, width)
0368815ae4d5 Uploaded greg parents: diff changeset	387 reverse_array, reverse_shift = allocate_array(data, width)
0368815ae4d5 Uploaded greg parents: diff changeset	388 normal = normal_array(width, sigma)
0368815ae4d5 Uploaded greg parents: diff changeset	389
0368815ae4d5 Uploaded greg parents: diff changeset	390 def populate_array():
0368815ae4d5 Uploaded greg parents: diff changeset	391 # Add each read's normal to the array
0368815ae4d5 Uploaded greg parents: diff changeset	392 for read in data:
0368815ae4d5 Uploaded greg parents: diff changeset	393 index, forward, reverse = read
0368815ae4d5 Uploaded greg parents: diff changeset	394 # Add the normals to the appropriate regions
0368815ae4d5 Uploaded greg parents: diff changeset	395 if forward:
0368815ae4d5 Uploaded greg parents: diff changeset	396 forward_array[index+forward_shift-width:index+forward_shift+width] += normal * forward
0368815ae4d5 Uploaded greg parents: diff changeset	397 if reverse:
0368815ae4d5 Uploaded greg parents: diff changeset	398 reverse_array[index+reverse_shift-width:index+reverse_shift+width] += normal * reverse
0368815ae4d5 Uploaded greg parents: diff changeset	399 populate_array()
0368815ae4d5 Uploaded greg parents: diff changeset	400 forward_peaks = call_peaks(forward_array, forward_shift, data, keys, 1, down_width, up_width, exclusion)
0368815ae4d5 Uploaded greg parents: diff changeset	401 reverse_peaks = call_peaks(reverse_array, reverse_shift, data, keys, 2, down_width, up_width, exclusion)
0368815ae4d5 Uploaded greg parents: diff changeset	402 # Convert chromosome name in preparation for writing output
0368815ae4d5 Uploaded greg parents: diff changeset	403 cname = convert_data(cname, 'zeropad', 'numeric')
0368815ae4d5 Uploaded greg parents: diff changeset	404
0368815ae4d5 Uploaded greg parents: diff changeset	405 def write(cname, strand, peak):
0368815ae4d5 Uploaded greg parents: diff changeset	406 start = max(peak.start, 1)
0368815ae4d5 Uploaded greg parents: diff changeset	407 end = peak.end
0368815ae4d5 Uploaded greg parents: diff changeset	408 value = peak.value
0368815ae4d5 Uploaded greg parents: diff changeset	409 stddev = peak.stddev
0368815ae4d5 Uploaded greg parents: diff changeset	410 if value > filter:
0368815ae4d5 Uploaded greg parents: diff changeset	411 # This version of genetrack outputs only gff files.
0368815ae4d5 Uploaded greg parents: diff changeset	412 writer.writerow(gff_row(cname=cname,
0368815ae4d5 Uploaded greg parents: diff changeset	413 source='genetrack',
0368815ae4d5 Uploaded greg parents: diff changeset	414 start=start,
0368815ae4d5 Uploaded greg parents: diff changeset	415 end=end,
0368815ae4d5 Uploaded greg parents: diff changeset	416 score=value,
0368815ae4d5 Uploaded greg parents: diff changeset	417 strand=strand,
0368815ae4d5 Uploaded greg parents: diff changeset	418 attrs={'stddev': stddev}))
0368815ae4d5 Uploaded greg parents: diff changeset	419
0368815ae4d5 Uploaded greg parents: diff changeset	420 for peak in forward_peaks:
0368815ae4d5 Uploaded greg parents: diff changeset	421 if process_bounds[0] < peak.index < process_bounds[1]:
0368815ae4d5 Uploaded greg parents: diff changeset	422 write(cname, '+', peak)
0368815ae4d5 Uploaded greg parents: diff changeset	423 for peak in reverse_peaks:
0368815ae4d5 Uploaded greg parents: diff changeset	424 if process_bounds[0] < peak.index < process_bounds[1]:
0368815ae4d5 Uploaded greg parents: diff changeset	425 write(cname, '-', peak)
0368815ae4d5 Uploaded greg parents: diff changeset	426
0368815ae4d5 Uploaded greg parents: diff changeset	427
0368815ae4d5 Uploaded greg parents: diff changeset	428 def sort_chromosome_reads_by_index( input_path ):
0368815ae4d5 Uploaded greg parents: diff changeset	429 """
0368815ae4d5 Uploaded greg parents: diff changeset	430 Return a gff file with chromosome reads sorted by index.
0368815ae4d5 Uploaded greg parents: diff changeset	431 """
0368815ae4d5 Uploaded greg parents: diff changeset	432 # Will this sort produce different results across platforms?
0368815ae4d5 Uploaded greg parents: diff changeset	433 output_path = tempfile.NamedTemporaryFile( delete=False ).name
0368815ae4d5 Uploaded greg parents: diff changeset	434 command = 'sort -k 1,1 -k 4,4n "%s" > "%s"' % (input_path, output_path)
0368815ae4d5 Uploaded greg parents: diff changeset	435 p = subprocess.Popen(command, shell=True)
0368815ae4d5 Uploaded greg parents: diff changeset	436 p.wait()
0368815ae4d5 Uploaded greg parents: diff changeset	437 return output_path

Mercurial > repos > greg > genetrack

annotate genetrack_util.py @ 6:fa85ca6c9cf8 draft