uniprot_rest_interface: uniprot.py comparison

comparison uniprot.py @ 7:b1cc2c5bde0e draft

"planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/tools/uniprot_rest_interface commit ddbed5f0b0879b4a001d2da6a521b0c9a39c1e7b"

author	bgruening
date	Thu, 22 Apr 2021 17:31:48 +0000
parents	6e9fabe16b0c
children	d2ad6e2c55d1

comparison

equal deleted inserted replaced

-:f806bb47aff6
+:b1cc2c5bde0e
 Based on work from Jan Rudolph: https://github.com/jdrudolph/uniprot
 available services:
 map
 retrieve
+rewitten using inspiration form: https://findwork.dev/blog/advanced-usage-python-requests-timeouts-retries-hooks/
 """
 import argparse
 import sys
 import requests
+from requests.adapters import HTTPAdapter
-url = 'https://www.uniprot.org/'
+from requests.packages.urllib3.util.retry import Retry
-def _retrieve(query, format='txt'):
+DEFAULT_TIMEOUT = 5  # seconds
-"""_retrieve is not meant for use with the python interface, use `retrieve`
+URL = 'https://www.uniprot.org/'
-instead"""
-tool = 'uploadlists/'
-query = list(set(query.split('\n')))
+retry_strategy = Retry(
-queries = [query[i:i+100] for i in range(0, len(query), 100)]
+total=5,
+backoff_factor=2,
-data = {
+status_forcelist=[429, 500, 502, 503, 504],
-'format': format,
+allowed_methods=["HEAD", "GET", "OPTIONS", "POST"]
-'from': 'ACC+ID',
+)
-'to': 'ACC'
-}
-responses = [requests.post(url + tool, data=data, files={'file': ' '.join(_)}) for _ in queries]
-page = ''.join(response.text for response in responses)
-return page
-def _map(query, f, t, format='tab'):
+class TimeoutHTTPAdapter(HTTPAdapter):
+def __init__(self, *args, **kwargs):
+self.timeout = DEFAULT_TIMEOUT
+if "timeout" in kwargs:
+self.timeout = kwargs["timeout"]
+del kwargs["timeout"]
+super().__init__(*args, **kwargs)
+def send(self, request, **kwargs):
+timeout = kwargs.get("timeout")
+if timeout is None:
+kwargs["timeout"] = self.timeout
+return super().send(request, **kwargs)
+def _map(query, f, t, format='tab', chunk_size=100):
 """ _map is not meant for use with the python interface, use `map` instead
 """
 tool = 'uploadlists/'
+data = {'format': format, 'from': f, 'to': t}
-data = {
+req = []
-'from': f,
+for i in range(0, len(query), chunk_size):
-'to': t,
+q = query[i:i + chunk_size]
-'format': format,
+req.append(dict([("url", URL + tool),
-'query': query
+('data', data),
-}
+("files", {'file': ' '.join(q)})]))
-response = requests.post(url + tool, data=data)
+return req
+response = requests.post(URL + tool, data=data)
+response.raise_for_status()
 page = response.text
+if "The service is temporarily unavailable" in page:
+exit("The UNIPROT service is temporarily unavailable. Please try again later.")
 return page
 if __name__ == '__main__':
 parser = argparse.ArgumentParser(description='retrieve uniprot mapping')
 retrieve.add_argument('out', nargs='?', type=argparse.FileType('w'),
 default=sys.stdout, help='output file (default: stdout)')
 retrieve.add_argument('-f', '--format', help='specify output format', default='txt')
 args = parser.parse_args()
-query = args.inp.read()
+# get the IDs from the file as sorted list
+# (sorted is convenient for testing)
+query = set()
+for line in args.inp:
+query.add(line.strip())
+query = sorted(query)
 if args.tool == 'map':
-args.out.write(_map(query, args.f, args.t, args.format))
+pload = _map(query, args.f, args.t, chunk_size=100)
+elif args.tool == 'retrieve':
+pload = _map(query, 'ACC+ID', 'ACC', args.format, chunk_size=100)
-elif args.tool == 'retrieve':
+adapter = TimeoutHTTPAdapter(max_retries=retry_strategy)
-args.out.write(_retrieve(query, format=args.format))
+http = requests.Session()
+http.mount("https://", adapter)
+for i, p in enumerate(pload):
+response = http.post(**p)
+args.out.write(response.text)
+http.close()

Mercurial > repos > bgruening > uniprot_rest_interface

comparison uniprot.py @ 7:b1cc2c5bde0e draft