retrieve_ensembl_bed: bedutil.py comparison

comparison bedutil.py @ 1:c3d600729b6f draft

planemo upload for repository https://github.com/galaxyproteomics/tools-galaxyp/tree/master/tools/proteogenomics/retrieve_ensembl_bed commit 88cf1e923a8c9e5bc6953ad412d15a7c70f054d1

author	galaxyp
date	Mon, 22 Jan 2018 13:13:26 -0500
parents	887e111c0919
children

comparison

equal deleted inserted replaced

-:887e111c0919
+:c3d600729b6f
 #
 #  James E Johnson
 #
 #------------------------------------------------------------------------------
 """
+from __future__ import print_function
 import sys
 from Bio.Seq import reverse_complement, translate
 bed_entry.second_gene_name = fields[18]
 bed_entry.gene_type = fields[19]
 return bed_entry
+def as_int_list(obj):
+if obj is None:
+return None
+if isinstance(obj, list):
+return [int(x) for x in obj]
+elif isinstance(obj, str):
+return [int(x) for x in obj.split(',')]
+else:  # python2 unicode?
+return [int(x) for x in str(obj).split(',')]
 class BedEntry(object):
 def __init__(self, chrom=None, chromStart=None, chromEnd=None,
 name=None, score=None, strand=None,
 thickStart=None, thickEnd=None, itemRgb=None,
 blockCount=None, blockSizes=None, blockStarts=None):
 self.strand = '-' if str(strand).startswith('-') else '+'
 self.thickStart = int(thickStart) if thickStart else self.chromStart
 self.thickEnd = int(thickEnd) if thickEnd else self.chromEnd
 self.itemRgb = str(itemRgb) if itemRgb is not None else r'100,100,100'
 self.blockCount = int(blockCount)
-if isinstance(blockSizes, str) or isinstance(blockSizes, unicode):
+self.blockSizes = as_int_list(blockSizes)
-self.blockSizes = [int(x) for x in blockSizes.split(',')]
+self.blockStarts = as_int_list(blockStarts)
-elif isinstance(blockSizes, list):
-self.blockSizes = [int(x) for x in blockSizes]
-else:
-self.blockSizes = blockSizes
-if isinstance(blockStarts, str) or isinstance(blockSizes, unicode):
-self.blockStarts = [int(x) for x in blockStarts.split(',')]
-elif isinstance(blockStarts, list):
-self.blockStarts = [int(x) for x in blockStarts]
-else:
-self.blockStarts = blockStarts
 self.second_name = None
 self.cds_start_status = None
 self.cds_end_status = None
 self.exon_frames = None
 self.biotype = None
 return self.set_cds(min(cds_pos) + basepairs, max(cds_pos))
 else:
 return self.set_cds(min(cds_pos), max(cds_pos) + basepairs)
 return None
+def get_cds_bed(self):
+cds_pos = [self.cdna_offset_of_pos(self.thickStart),
+self.cdna_offset_of_pos(self.thickEnd)]
+return self.trim(min(cds_pos), max(cds_pos))
 def get_cigar(self):
 cigar = ''
 r = range(self.blockCount)
 xl = None
 for x in r:
 translations.append(translation)
 return translations
 def pos_of_cdna_offet(self, offset):
 if offset is not None and 0 <= offset < sum(self.blockSizes):
-r = range(self.blockCount)
+r = list(range(self.blockCount))
 rev = self.strand == '-'
 if rev:
 r.reverse()
 nlen = 0
 for x in r:
 return None
 def cdna_offset_of_pos(self, pos):
 if not self.chromStart <= pos < self.chromEnd:
 return -1
-r = range(self.blockCount)
+r = list(range(self.blockCount))
 rev = self.strand == '-'
 if rev:
 r.reverse()
 nlen = 0
 for x in r:
 nlen += self.blockSizes[x]
 def apply_variant(self, pos, ref, alt):
 pos = int(pos)
 if not ref or not alt:
-print >> sys.stderr, "variant requires ref and alt sequences"
+print("variant requires ref and alt sequences", file=sys.stderr)
 return
 if not self.chromStart <= pos <= self.chromEnd:
-print >> sys.stderr, "variant not in entry %s: %s %d < %d < %d"\
+print("variant not in entry %s: %s %d < %d < %d" %
-% (self.name, self.strand, self.chromStart, pos, self.chromEnd)
+(self.name, self.strand,
-print >> sys.stderr, "%s" % str(self)
+self.chromStart, pos, self.chromEnd),
+file=sys.stderr)
+print("%s" % str(self), file=sys.stderr)
 return
 if len(ref) != len(alt):
-print >> sys.stderr, "variant only works for snp: %s  %s"\
+print("variant only works for snp: %s  %s" % (ref, alt),
-% (ref, alt)
+file=sys.stderr)
 return
 if not self.seq:
-print >> sys.stderr, "variant entry %s has no seq" % self.name
+print("variant entry %s has no seq" % self.name, file=sys.stderr)
 return
 """
 if self.strand  == '-':
 ref = reverse_complement(ref)
 alt = reverse_complement(alt)
 for i in range(len(ref)):
 # offset = self.cdna_offset_of_pos(pos+i)
 if offset is not None:
 bases[offset+i] = alt[i]
 else:
-print >> sys.stderr,\
+print("variant offset %s: %s %d < %d < %d" %
-"variant offset %s: %s %d < %d < %d"\
+(self.name, self.strand, self.chromStart,
-% (self.name, self.strand, self.chromStart,
+pos+1, self.chromEnd), file=sys.stderr)
-pos+1, self.chromEnd)
+print("%s" % str(self), file=sys.stderr)
-print >> sys.stderr, "%s" % str(self)
 self.seq = ''.join(bases)
 self.variants.append("g.%d%s>%s" % (pos+1, ref, alt))
 def get_variant_bed(self, pos, ref, alt):
 pos = int(pos)
 if not ref or not alt:
-print >> sys.stderr, "variant requires ref and alt sequences"
+print("variant requires ref and alt sequences", file=sys.stderr)
 return None
 if not self.chromStart <= pos <= self.chromEnd:
-print >> sys.stderr,\
+print("variant not in entry %s: %s %d < %d < %d" %
-"variant not in entry %s: %s %d < %d < %d"\
+(self.name, self.strand,
-% (self.name, self.strand, self.chromStart, pos, self.chromEnd)
+self.chromStart, pos, self.chromEnd),
-print >> sys.stderr, "%s" % str(self)
+file=sys.stderr)
+print("%s" % str(self), file=sys.stderr)
 return None
 if not self.seq:
-print >> sys.stderr, "variant entry %s has no seq" % self.name
+print("variant entry %s has no seq" % self.name, file=sys.stderr)
 return None
 tbed = BedEntry(chrom=self.chrom,
 chromStart=self.chromStart, chromEnd=self.chromEnd,
 name=self.name, score=self.score, strand=self.strand,
 thickStart=self.chromStart, thickEnd=self.chromEnd,
 # (start, end)
 def get_subrange(self, tstart, tstop, debug=False):
 chromStart = self.chromStart
 chromEnd = self.chromEnd
 if debug:
-print >> sys.stderr, "%s" % (str(self))
+print("%s" % (str(self)), file=sys.stderr)
-r = range(self.blockCount)
+r = list(range(self.blockCount))
 if self.strand == '-':
 r.reverse()
 bStart = 0
 bEnd = 0
 for x in r:
 (tstop - bStart)
 else:
 chromStart = self.chromStart + self.blockStarts[x] +\
 self.blockSizes[x] - (tstop - bStart)
 if debug:
-print >> sys.stderr,\
+print("%3d %s\t%d\t%d\t%d\t%d\t%d\t%d" %
-"%3d %s\t%d\t%d\t%d\t%d\t%d\t%d"\
+(x, self.strand, bStart, bEnd,
-% (x, self.strand, bStart, bEnd,
+tstart, tstop, chromStart, chromEnd), file=sys.stderr)
-tstart, tstop, chromStart, chromEnd)
 bStart += self.blockSizes[x]
 return(chromStart, chromEnd)
 # get the blocks for sub range
 def get_blocks(self, chromStart, chromEnd):
 if self.strand == '-':
 exon_sizes.reverse()
 splice_sites = [sum(exon_sizes[:x]) / 3
 for x in range(1, len(exon_sizes))]
 if debug:
-print >> sys.stderr, "splice_sites: %s" % splice_sites
+print("splice_sites: %s" % splice_sites, file=sys.stderr)
 junc = splice_sites[0] if len(splice_sites) > 0 else exon_sizes[0]
 if seq:
 for i in range(3):
 translation = self.get_translation(sequence=seq[i:])
 if translation:
 tstart = 0
 tstop = len(translation)
 offset = (block_sum - i) % 3
 if debug:
-print >> sys.stderr,\
+print("frame: %d\ttstart: %d  tstop: %d  " +
-"frame: %d\ttstart: %d  tstop: %d  offset: %d\t%s"\
+"offset: %d\t%s" %
-% (i, tstart, tstop, offset, translation)
+(i, tstart, tstop, offset, translation),
+file=sys.stderr)
 if not untrimmed:
 tstart = translation.rfind('*', 0, junc) + 1
 stop = translation.find('*', junc)
 tstop = stop if stop >= 0 else len(translation)
 offset = (block_sum - i) % 3
 trimmed = translation[tstart:tstop]
 if debug:
-print >> sys.stderr,\
+print("frame: %d\ttstart: %d  tstop: %d  " +
-"frame: %d\ttstart: %d  tstop: %d  offset: %d\t%s"\
+"offset: %d\t%s" %
-% (i, tstart, tstop, offset, trimmed)
+(i, tstart, tstop, offset, trimmed),
+file=sys.stderr)
 if filtering and tstart > ignore:
 continue
 # get genomic locations for start and end
 if self.strand == '+':
 chromStart = self.chromStart + i + (tstart * 3)
 (tblockCount, tblockSizes, tblockStarts) =\
 self.get_blocks(chromStart, chromEnd)
 translations[i] = (chromStart, chromEnd, trimmed,
 tblockCount, tblockSizes, tblockStarts)
 if debug:
-print >> sys.stderr,\
+print("tblockCount: %d tblockStarts: %s " +
-"tblockCount: %d tblockStarts: %s tblockSizes: %s"\
+"tblockSizes: %s" %
-% (tblockCount, tblockStarts, tblockSizes)
+(tblockCount, tblockStarts, tblockSizes),
+file=sys.stderr)
 return translations
 def get_seq_id(self, seqtype='unk:unk', reference='', frame=None):
 # Ensembl fasta ID format
 # >ID SEQTYPE:STATUS LOCATION GENE TRANSCRIPT

Mercurial > repos > galaxyp > retrieve_ensembl_bed

comparison bedutil.py @ 1:c3d600729b6f draft