genetrack: genetrack.py annotate

annotate genetrack.py @ 2:fcc2f5992551 draft

Uploaded

author	greg
date	Wed, 18 Nov 2015 08:12:26 -0500
parents	0368815ae4d5
children	551630d1fae3

rev	line source
0 0368815ae4d5 Uploaded greg parents: diff changeset	1 """
0368815ae4d5 Uploaded greg parents: diff changeset	2 genetrack.py
0368815ae4d5 Uploaded greg parents: diff changeset	3
0368815ae4d5 Uploaded greg parents: diff changeset	4 Input: either ssccidx or gff format of reads
0368815ae4d5 Uploaded greg parents: diff changeset	5 .ssccidx format: tab-separated chromosome (chr##), index, + reads, - reads
0368815ae4d5 Uploaded greg parents: diff changeset	6 .gff format: standard gff, score interpreted as number of reads
0368815ae4d5 Uploaded greg parents: diff changeset	7
0368815ae4d5 Uploaded greg parents: diff changeset	8 Output: Called peaks in either gff or txt format
0368815ae4d5 Uploaded greg parents: diff changeset	9 .txt format: tab-separated chromosome, strand, start, end, read count
0368815ae4d5 Uploaded greg parents: diff changeset	10 .gff format: standard gff, score is read count
0368815ae4d5 Uploaded greg parents: diff changeset	11 """
2 fcc2f5992551 Uploaded greg parents: 0 diff changeset	12 import optparse
0 0368815ae4d5 Uploaded greg parents: diff changeset	13 import csv
0368815ae4d5 Uploaded greg parents: diff changeset	14 import os
0368815ae4d5 Uploaded greg parents: diff changeset	15 import genetrack_util
0368815ae4d5 Uploaded greg parents: diff changeset	16
0368815ae4d5 Uploaded greg parents: diff changeset	17
0368815ae4d5 Uploaded greg parents: diff changeset	18 if __name__ == '__main__':
2 fcc2f5992551 Uploaded greg parents: 0 diff changeset	19 parser = optparse.OptionParser()
fcc2f5992551 Uploaded greg parents: 0 diff changeset	20 parser.add_option('-t', '--input_format', dest='input_format', type='string', help='Input format')
fcc2f5992551 Uploaded greg parents: 0 diff changeset	21 parser.add_option('-i', '--input', dest='inputs', type='string', action='append', nargs=2, help='Input datasets')
fcc2f5992551 Uploaded greg parents: 0 diff changeset	22 parser.add_option('-s', '--sigma', dest='sigma', type='int', default=5, help='Sigma.')
fcc2f5992551 Uploaded greg parents: 0 diff changeset	23 parser.add_option('-e', '--exclusion', dest='exclusion', type='int', default=20, help='Exclusion zone.')
fcc2f5992551 Uploaded greg parents: 0 diff changeset	24 parser.add_option('-u', '--up_width', dest='up_width', type='int', default=10, help='Upstream width of called peaks.')
fcc2f5992551 Uploaded greg parents: 0 diff changeset	25 parser.add_option('-d', '--down_width', dest='down_width', type='int', default=10, help='Downstream width of called peaks.')
fcc2f5992551 Uploaded greg parents: 0 diff changeset	26 parser.add_option('-f', '--filter', dest='filter', type='int', default=3, help='Absolute read filter.')
fcc2f5992551 Uploaded greg parents: 0 diff changeset	27 parser.add_option('-c', '--chunk_size', dest='chunk_size', type='int', default=10, help='Size, in millions of base pairs.')
fcc2f5992551 Uploaded greg parents: 0 diff changeset	28 options, args = parser.parse_args()
0 0368815ae4d5 Uploaded greg parents: diff changeset	29
0368815ae4d5 Uploaded greg parents: diff changeset	30 os.mkdir('output')
2 fcc2f5992551 Uploaded greg parents: 0 diff changeset	31 for (dataset_path, hid) in options.inputs:
fcc2f5992551 Uploaded greg parents: 0 diff changeset	32 if options.input_format == 'gff':
0 0368815ae4d5 Uploaded greg parents: diff changeset	33 # Make sure the reads for each chromosome are sorted by index.
0368815ae4d5 Uploaded greg parents: diff changeset	34 input_path = genetrack_util.sort_chromosome_reads_by_index(dataset_path)
0368815ae4d5 Uploaded greg parents: diff changeset	35 else:
0368815ae4d5 Uploaded greg parents: diff changeset	36 # We're processing ssccidx data.
0368815ae4d5 Uploaded greg parents: diff changeset	37 input_path = dataset_path
2 fcc2f5992551 Uploaded greg parents: 0 diff changeset	38 output_name = 's%se%su%sd%sF%s_on_data_%s' % (str(options.sigma),
fcc2f5992551 Uploaded greg parents: 0 diff changeset	39 str(options.exclusion),
fcc2f5992551 Uploaded greg parents: 0 diff changeset	40 str(options.up_width),
fcc2f5992551 Uploaded greg parents: 0 diff changeset	41 str(options.down_width),
fcc2f5992551 Uploaded greg parents: 0 diff changeset	42 str(options.filter),
0 0368815ae4d5 Uploaded greg parents: diff changeset	43 str(hid))
0368815ae4d5 Uploaded greg parents: diff changeset	44 output_path = os.path.join('output', output_name)
0368815ae4d5 Uploaded greg parents: diff changeset	45 reader = csv.reader(open(input_path, 'rU'), delimiter='\t')
0368815ae4d5 Uploaded greg parents: diff changeset	46 writer = csv.writer(open(output_path, 'wt'), delimiter='\t')
2 fcc2f5992551 Uploaded greg parents: 0 diff changeset	47 chunk_size = options.chunk_size * 10 ** 6
fcc2f5992551 Uploaded greg parents: 0 diff changeset	48 width = options.sigma * 5
0 0368815ae4d5 Uploaded greg parents: diff changeset	49 manager = genetrack_util.ChromosomeManager(reader)
0368815ae4d5 Uploaded greg parents: diff changeset	50 while not manager.done:
0368815ae4d5 Uploaded greg parents: diff changeset	51 cname = manager.chromosome_name()
0368815ae4d5 Uploaded greg parents: diff changeset	52 # Should we process this chromosome?
0368815ae4d5 Uploaded greg parents: diff changeset	53 data = manager.load_chromosome()
0368815ae4d5 Uploaded greg parents: diff changeset	54 if not data:
0368815ae4d5 Uploaded greg parents: diff changeset	55 continue
0368815ae4d5 Uploaded greg parents: diff changeset	56 keys = genetrack_util.make_keys(data)
0368815ae4d5 Uploaded greg parents: diff changeset	57 lo, hi = genetrack_util.get_range(data)
0368815ae4d5 Uploaded greg parents: diff changeset	58 for chunk in genetrack_util.get_chunks(lo, hi, size=chunk_size, overlap=width):
0368815ae4d5 Uploaded greg parents: diff changeset	59 (slice_start, slice_end), process_bounds = chunk
0368815ae4d5 Uploaded greg parents: diff changeset	60 window = genetrack_util.get_window(data, slice_start, slice_end, keys)
0368815ae4d5 Uploaded greg parents: diff changeset	61 genetrack_util.process_chromosome(cname,
0368815ae4d5 Uploaded greg parents: diff changeset	62 window,
0368815ae4d5 Uploaded greg parents: diff changeset	63 writer,
0368815ae4d5 Uploaded greg parents: diff changeset	64 process_bounds,
2 fcc2f5992551 Uploaded greg parents: 0 diff changeset	65 width,
fcc2f5992551 Uploaded greg parents: 0 diff changeset	66 options.sigma,
fcc2f5992551 Uploaded greg parents: 0 diff changeset	67 options.up_width,
fcc2f5992551 Uploaded greg parents: 0 diff changeset	68 options.down_width,
fcc2f5992551 Uploaded greg parents: 0 diff changeset	69 options.exclusion,
fcc2f5992551 Uploaded greg parents: 0 diff changeset	70 options.filter)

Mercurial > repos > greg > genetrack

annotate genetrack.py @ 2:fcc2f5992551 draft