fetch_fasta_from_ncbi: retrieve_fasta_from

comparison retrieve_fasta_from_NCBI.py @ 5:4ff395248db4 draft

planemo upload for repository https://bitbucket.org/drosofff/gedtools/

author	drosofff
date	Sat, 30 May 2015 17:57:09 -0400
parents	e9df554f7725
children	cd7de2d6c716

comparison

equal deleted inserted replaced

-:aa61d63b7e31
+:4ff395248db4
 response = urllib2.urlopen(req)
 serverResponse = True
 except urllib2.HTTPError as e:
 serverResponse = False
 self.logger.info("urlopen error:%s, %s" % (e.code, e.read() ) )
-fasta = response.read()
+try:
+fasta = response.read()
+except httplib.IncompleteRead as e:
+fasta = e.partial
 if "Resource temporarily unavailable" in fasta:
 return '' # to reiterate the failed download
 if self.dbname != "pubmed":
 assert fasta.startswith(">"), fasta
 fasta = self.sanitiser(self.dbname, fasta) #
 time.sleep(1)
 return fasta
 def sanitiser(self, db, fastaseq):
-		if db not in "nuccore protein" : return fastaseq
+if db not in "nuccore protein" : return fastaseq
-		regex = re.compile(r"[ACDEFGHIKLMNPQRSTVWYBZ]{49,}")
+regex = re.compile(r"[ACDEFGHIKLMNPQRSTVWYBZ]{49,}")
-		sane_seqlist = []
+sane_seqlist = []
-		seqlist = fastaseq.split("\n\n")
+seqlist = fastaseq.split("\n\n")
-		for seq in seqlist[:-1]:
+for seq in seqlist[:-1]:
-			fastalines = seq.split("\n")
+fastalines = seq.split("\n")
-			if len(fastalines) < 2:
+if len(fastalines) < 2:
-				self.logger.info("Empty sequence for %s" % ("|".join(fastalines[0].split("|")[:4]) ) )
+self.logger.info("Empty sequence for %s" % ("|".join(fastalines[0].split("|")[:4]) ) )
-				self.logger.info("%s download is skipped" % ("|".join(fastalines[0].split("|")[:4]) ) )
+self.logger.info("%s download is skipped" % ("|".join(fastalines[0].split("|")[:4]) ) )
-				continue
+continue
-			if db == "nuccore":
+if db == "nuccore":
-				badnuc = 0
+badnuc = 0
-				for nucleotide in fastalines[1]:
+for nucleotide in fastalines[1]:
-					if nucleotide not in "ATGC":
+if nucleotide not in "ATGC":
-						badnuc += 1
+badnuc += 1
-				if float(badnuc)/len(fastalines[1]) > 0.4:
+if float(badnuc)/len(fastalines[1]) > 0.4:
-					self.logger.info("%s ambiguous nucleotides in %s or download interrupted at this offset | %s" % ( float(badnuc)/len(fastalines[1]), "|".join(fastalines[0].split("|")[:4]), fastalines[1]) )
+self.logger.info("%s ambiguous nucleotides in %s or download interrupted at this offset | %s" % ( float(badnuc)/len(fastalines[1]), "|".join(fastalines[0].split("|")[:4]), fastalines[1]) )
-					self.logger.info("%s download is skipped" % (fastalines[0].split("|")[:4]) )
+self.logger.info("%s download is skipped" % (fastalines[0].split("|")[:4]) )
-					continue
+continue
-				fastalines[0] = fastalines[0].replace(" ","_")[:100] # remove spaces and trim the header to 100 chars
+fastalines[0] = fastalines[0].replace(" ","_")[:100] # remove spaces and trim the header to 100 chars
-				cleanseq = "\n".join(fastalines)
+cleanseq = "\n".join(fastalines)
-				sane_seqlist.append(cleanseq)
+sane_seqlist.append(cleanseq)
-			elif db == "protein":
+elif db == "protein":
-				fastalines[0] = fastalines[0][0:100]
+fastalines[0] = fastalines[0][0:100]
-				fastalines[0] = fastalines[0].replace(" ", "_")
+fastalines[0] = fastalines[0].replace(" ", "_")
-				fastalines[0] = fastalines[0].replace("[", "_")
+fastalines[0] = fastalines[0].replace("[", "_")
-				fastalines[0] = fastalines[0].replace("]", "_")
+fastalines[0] = fastalines[0].replace("]", "_")
-				fastalines[0] = fastalines[0].replace("=", "_")
+fastalines[0] = fastalines[0].replace("=", "_")
-				fastalines[0] = fastalines[0].rstrip("_") # because blast makedb doesn't like it
+fastalines[0] = fastalines[0].rstrip("_") # because blast makedb doesn't like it
-				fastalines[0] = re.sub(regex, "_", fastalines[0])
+fastalines[0] = re.sub(regex, "_", fastalines[0])
-				cleanseq = "\n".join(fastalines)
+cleanseq = "\n".join(fastalines)
-				sane_seqlist.append(cleanseq)
+sane_seqlist.append(cleanseq)
-		self.logger.info("clean sequences appended: %d" % (len(sane_seqlist) ) )
+self.logger.info("clean sequences appended: %d" % (len(sane_seqlist) ) )
-		return "\n".join(sane_seqlist)
+return "\n".join(sane_seqlist)
 def get_sequences(self):
 """
 Total number of records from the input set to be retrieved, up to a maximum
 of 10,000. Optionally, for a large set the value of retstart can be iterated

Mercurial > repos > drosofff > fetch_fasta_from_ncbi

comparison retrieve_fasta_from_NCBI.py @ 5:4ff395248db4 draft