genetrack: genetrack.py comparison

comparison genetrack.py @ 10:1a9f1a4fa36c draft

Uploaded

author	greg
date	Wed, 02 Dec 2015 16:14:58 -0500
parents	551630d1fae3
children	6ad44f393892

comparison

equal deleted inserted replaced

-:e10c1ddd440e
+:1a9f1a4fa36c
 import optparse
 import csv
 import os
 import genetrack_util
+CHUNK_SIZE = 10000000
 if __name__ == '__main__':
 parser = optparse.OptionParser()
 parser.add_option('-t', '--input_format', dest='input_format', type='string', help='Input format')
 parser.add_option('-i', '--input', dest='inputs', type='string', action='append', nargs=2, help='Input datasets')
 parser.add_option('-s', '--sigma', dest='sigma', type='int', default=5, help='Sigma.')
 parser.add_option('-e', '--exclusion', dest='exclusion', type='int', default=20, help='Exclusion zone.')
 parser.add_option('-u', '--up_width', dest='up_width', type='int', default=10, help='Upstream width of called peaks.')
 parser.add_option('-d', '--down_width', dest='down_width', type='int', default=10, help='Downstream width of called peaks.')
 parser.add_option('-f', '--filter', dest='filter', type='int', default=3, help='Absolute read filter.')
-parser.add_option('-c', '--chunk_size', dest='chunk_size', type='int', default=10, help='Size, in millions of base pairs.')
 options, args = parser.parse_args()
 os.mkdir('output')
 for (dataset_path, hid) in options.inputs:
 if options.input_format == 'gff':
 str(options.filter),
 str(hid))
 output_path = os.path.join('output', output_name)
 reader = csv.reader(open(input_path, 'rU'), delimiter='\t')
 writer = csv.writer(open(output_path, 'wt'), delimiter='\t')
-chunk_size = options.chunk_size * 10 ** 6
 width = options.sigma * 5
 manager = genetrack_util.ChromosomeManager(reader)
 while not manager.done:
 cname = manager.chromosome_name()
 # Should we process this chromosome?
 data = manager.load_chromosome()
 if not data:
 continue
 keys = genetrack_util.make_keys(data)
 lo, hi = genetrack_util.get_range(data)
-for chunk in genetrack_util.get_chunks(lo, hi, size=chunk_size, overlap=width):
+for chunk in genetrack_util.get_chunks(lo, hi, size=CHUNK_SIZE, overlap=width):
 (slice_start, slice_end), process_bounds = chunk
 window = genetrack_util.get_window(data, slice_start, slice_end, keys)
 genetrack_util.process_chromosome(cname,
 window,
 writer,

Mercurial > repos > greg > genetrack

comparison genetrack.py @ 10:1a9f1a4fa36c draft