uniprotxml_downloader: uniprotxml_downloader.py comparison

comparison uniprotxml_downloader.py @ 6:c4a0f3badafe draft default tip

planemo upload for repository https://github.com/galaxyproteomics/tools-galaxyp/tree/master/tools/uniprotxml_downloader commit 91705a9789b30878a55d1044c654e39a7726cf60

author	galaxyp
date	Wed, 11 Dec 2024 13:34:46 +0000
parents	7be8e30d536f
children

comparison

equal deleted inserted replaced

-:7be8e30d536f
+:c4a0f3badafe
 import re
 import sys
 from urllib import parse
 import requests
-from requests.adapters import HTTPAdapter
+from requests.adapters import HTTPAdapter, Retry
-from requests.packages.urllib3.util.retry import Retry
-DEFAULT_TIMEOUT = 5  # seconds
-retry_strategy = Retry(
-total=5,
-backoff_factor=2,
-status_forcelist=[429, 500, 502, 503, 504],
-allowed_methods=["HEAD", "GET", "OPTIONS", "POST"]
-)
-class TimeoutHTTPAdapter(HTTPAdapter):
-def __init__(self, *args, **kwargs):
-self.timeout = DEFAULT_TIMEOUT
-if "timeout" in kwargs:
-self.timeout = kwargs["timeout"]
-del kwargs["timeout"]
-super().__init__(*args, **kwargs)
-def send(self, request, **kwargs):
-timeout = kwargs.get("timeout")
-if timeout is None:
-kwargs["timeout"] = self.timeout
-return super().send(request, **kwargs)
 def __main__():
 # Parse Command Line
 parser = optparse.OptionParser()
 parser.add_option('-i', '--input', dest='input', default=None, help='Tabular file containing a column of search search_ids')
 parser.add_option('-c', '--column', dest='column', type='int', default=0, help='The column (zero-based) in the tabular file that contains search search_ids')
 parser.add_option('-s', '--search-id', dest='search_id', action='append', default=[], help='ID to search in Uniprot')
 parser.add_option('-r', '--reviewed', dest='reviewed', help='Only uniprot reviewed entries')
-parser.add_option('-f', '--format', dest='format', choices=['xml', 'fasta'], default='xml', help='output format')
+parser.add_option('-f', '--format', dest='format', choices=['xml', 'fasta', 'tsv'], default='xml', help='output format')
 parser.add_option('-k', '--field', dest='field', choices=['taxonomy_name', 'taxonomy_id', 'accession'], default='taxonomy_name', help='query field')
 parser.add_option('-o', '--output', dest='output', help='file path for the downloaded uniprot xml')
+parser.add_option('--output_columns', dest='output_columns', help='Columns to include in output (tsv)')
 parser.add_option('-d', '--debug', dest='debug', action='store_true', default=False, help='Turn on wrapper debugging to stderr')
 (options, args) = parser.parse_args()
 search_ids = set(options.search_id)
 if options.input:
 with open(options.input, 'r') as inputFile:
 dest_path = options.output
 else:
 dest_path = "uniprot_%s.xml" % '_'.join(search_ids)
 reviewed = " reviewed:%s" % options.reviewed if options.reviewed else ''
 try:
-url = 'https://rest.uniprot.org/uniprotkb/stream'
+re_next_link = re.compile(r'<(.+)>; rel="next"')
-query = "%s%s" % (search_query, reviewed)
+retries = Retry(total=5, backoff_factor=0.25, status_forcelist=[500, 502, 503, 504])
-params = {'query': query, 'format': options.format}
+session = requests.Session()
-if options.debug:
+session.mount("https://", HTTPAdapter(max_retries=retries))
-print("%s ? %s" % (url, params), file=sys.stderr)
-data = parse.urlencode(params)
-print(f"Retrieving: {url}?{data}")
-adapter = TimeoutHTTPAdapter(max_retries=retry_strategy)
-http = requests.Session()
+def get_next_link(headers):
-http.mount("https://", adapter)
+if "Link" in headers:
-response = http.get(url, params=params)
+match = re_next_link.match(headers["Link"])
-http.close()
+if match:
+return match.group(1)
-if response.status_code != 200:
+def get_batch(batch_url):
-exit(f"Request failed with status code {response.status_code}:\n{response.text}")
+while batch_url:
+response = session.get(batch_url)
+response.raise_for_status()
+total = response.headers["x-total-results"]
+release = response.headers["x-uniprot-release"]
+yield response, total, release
+batch_url = get_next_link(response.headers)
+params = {'size': 500, 'format': options.format, 'query': search_query + reviewed}
+if options.output_columns:
+params['fields'] = options.output_columns
+url = f'https://rest.uniprot.org/uniprotkb/search?{parse.urlencode(params)}'
+print(f"Downloading from:{url}")
 with open(dest_path, 'w') as fh:
-fh.write(response.text)
+for batch, total, release in get_batch(url):
+fh.write(batch.text)
 if options.format == 'xml':
 with open(dest_path, 'r') as contents:
 while True:
 line = contents.readline()
 if re.match(pattern, line):
 break
 else:
 print("failed: Not a uniprot xml file", file=sys.stderr)
 exit(1)
-print("Search IDs:%s" % search_ids, file=sys.stdout)
+print(f"Search IDs:{search_ids}")
-if 'X-UniProt-Release' in response.headers:
+print(f"UniProt-Release:{release}")
-print("UniProt-Release:%s" % response.headers['X-UniProt-Release'], file=sys.stdout)
+print(f"Entries:{total}")
-if 'X-Total-Results' in response.headers:
-print("Entries:%s" % response.headers['X-Total-Results'], file=sys.stdout)
 except Exception as e:
 exit("%s" % e)
 if __name__ == "__main__":

Mercurial > repos > galaxyp > uniprotxml_downloader

comparison uniprotxml_downloader.py @ 6:c4a0f3badafe draft default tip