data_manager_rsync_g2: data_manager/data_manager

annotate data_manager/data_manager_rsync.py @ 0:fc28d0b1e074 draft default tip

Uploaded

author	blankenberg
date	Fri, 20 Feb 2015 14:43:39 -0500
parents
children

rev	line source
0 fc28d0b1e074 Uploaded blankenberg parents: diff changeset	1 #!/usr/bin/env python
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	2 #Dan Blankenberg
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	3
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	4 import sys
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	5 import os
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	6 import tempfile
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	7 import shutil
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	8 import optparse
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	9 import urllib2
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	10 import subprocess
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	11 import datetime
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	12 from os.path import basename
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	13 from json import loads, dumps
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	14 from xml.etree.ElementTree import tostring
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	15
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	16 import logging
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	17 _log_name = __name__
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	18 if _log_name == '__builtin__':
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	19 _log_name = 'toolshed.installed.g2.rsync.data.manager'
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	20 log = logging.getLogger( _log_name )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	21
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	22 # Get the Data from the Galaxy Project rsync server
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	23 RSYNC_CMD = 'rsync'
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	24 RSYNC_SERVER = "rsync://datacache.g2.bx.psu.edu/"
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	25 LOCATION_DIR = "location"
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	26 INDEX_DIR = "indexes"
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	27
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	28 # Pull the Tool Data Table files from github
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	29 # FIXME: These files should be accessible from the rsync server directly.
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	30 TOOL_DATA_TABLE_CONF_XML_URLS = { 'main':"https://raw.githubusercontent.com/galaxyproject/usegalaxy-playbook/master/files/galaxy/usegalaxy.org/config/tool_data_table_conf.xml",
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	31 'test':"https://raw.githubusercontent.com/galaxyproject/usegalaxy-playbook/master/files/galaxy/test.galaxyproject.org/config/tool_data_table_conf.xml" }
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	32
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	33 # Replace data table source entries with local temporary location
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	34 GALAXY_DATA_CANONICAL_PATH = "/galaxy/data/"
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	35 TOOL_DATA_TABLE_CONF_XML_REPLACE_SOURCE = '<file path="%slocation/' % ( GALAXY_DATA_CANONICAL_PATH )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	36 TOOL_DATA_TABLE_CONF_XML_REPLACE_TARGET = '<file path="%s/'
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	37
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	38 # Some basic Caching, so we don't have to reload and download everything every time
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	39 CACHE_TIME = datetime.timedelta( minutes=10 )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	40 TOOL_DATA_TABLES_LOADED_BY_URL = {}
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	41
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	42 # Entries will not be selected by default
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	43 DEFAULT_SELECTED = False
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	44
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	45 # Exclude data managers without 'path' column or that are in the manual exclude list
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	46 PATH_COLUMN_NAMES = ['path']
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	47 EXCLUDE_DATA_TABLES = []
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	48 # TODO: Make additional handler actions available for tables that can't fit into the the basic
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	49 # "take the value of path" as a dir and copy contents.
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	50 # e.g. mafs. Although this maf table is goofy and doesn't have path defined in <table> def,
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	51 # but it does exit in the .loc.
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	52
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	53 # --- These methods are called by/within the Galaxy Application
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	54
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	55 def exec_before_job( app, inp_data, out_data, param_dict, tool=None, **kwd ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	56 # Look for any data tables that haven't been defined for this data manager before and dynamically add them to Galaxy
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	57 param_dict = dict( **param_dict )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	58 param_dict['data_table_entries'] = param_dict.get( 'data_table_entries', [] )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	59 if not isinstance( param_dict['data_table_entries'], list ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	60 param_dict['data_table_entries'] = [param_dict['data_table_entries']]
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	61 param_dict['data_table_entries'] = ",".join( param_dict['data_table_entries'] )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	62 if tool:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	63 tool_shed_repository = tool.tool_shed_repository
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	64 else:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	65 tool_shed_repository = None
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	66 tdtm = None
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	67 data_manager = app.data_managers.get_manager( tool.data_manager_id, None )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	68 data_table_entries = get_data_table_entries( param_dict )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	69 data_tables = load_data_tables_from_url( data_table_class=app.tool_data_tables.__class__ ).get( 'data_tables' )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	70 for data_table_name, entries in data_table_entries.iteritems():
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	71 #get data table managed by this data Manager
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	72 has_data_table = app.tool_data_tables.get_tables().get( data_table_name )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	73 if has_data_table:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	74 has_data_table = bool( has_data_table.get_filename_for_source( data_manager, None ) )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	75 if not has_data_table:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	76 if tdtm is None:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	77 from tool_shed.tools import data_table_manager
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	78 tdtm = data_table_manager.ToolDataTableManager( app )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	79 target_dir, tool_path, relative_target_dir = tdtm.get_target_install_dir( tool_shed_repository )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	80 #Dynamically add this data table
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	81 log.debug( "Attempting to dynamically create a missing Tool Data Table named %s." % data_table_name )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	82 data_table = data_tables[data_table_name]
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	83 repo_info = tdtm.generate_repository_info_elem_from_repository( tool_shed_repository, parent_elem=None )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	84 if repo_info is not None:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	85 repo_info = tostring( repo_info )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	86 tmp_file = tempfile.NamedTemporaryFile()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	87 tmp_file.write( get_new_xml_definition( app, data_table, data_manager, repo_info, target_dir ) )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	88 tmp_file.flush()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	89 app.tool_data_tables.add_new_entries_from_config_file( tmp_file.name, None, app.config.shed_tool_data_table_config, persist=True )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	90 tmp_file.close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	91
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	92 def galaxy_code_get_available_data_tables( trans ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	93 #list of data tables
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	94 found_tables = get_available_tables( trans )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	95 rval = map( lambda x: ( ( x, x, DEFAULT_SELECTED ) ), found_tables )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	96 return rval
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	97
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	98 def galaxy_code_get_available_data_tables_entries( trans, dbkey, data_table_names ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	99 #available entries, optionally filtered by dbkey and table names
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	100 if dbkey in [ None, '', '?' ]:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	101 dbkey = None
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	102 if data_table_names in [ None, '', '?' ]:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	103 data_table_names = None
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	104 found_tables = get_available_tables_for_dbkey( trans, dbkey, data_table_names )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	105 dbkey_text = '(%s) ' % ( dbkey ) if dbkey else ''
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	106 rval = map( lambda x: ( "%s%s" % ( dbkey_text, x[0] ), dumps( dict( name=x[0].split( ': ' )[0], entry=x[1] ) ).encode( 'base64' ).rstrip(), DEFAULT_SELECTED ), found_tables.items() )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	107 return rval
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	108
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	109 # --- End Galaxy called Methods ---
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	110
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	111
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	112 def rsync_urljoin( base, url ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	113 # urlparse.urljoin doesn't work correctly for our use-case
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	114 # probably because it doesn't recognize the rsync scheme
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	115 base = base.rstrip( '/' )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	116 url = url.lstrip( '/' )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	117 return "%s/%s" % ( base, url )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	118
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	119 def rsync_list_dir( server, dir=None, skip_names=[] ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	120 #drwxr-xr-x 50 2014/05/16 20:58:11 .
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	121 if dir:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	122 dir = rsync_urljoin( server, dir )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	123 else:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	124 dir = server
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	125 rsync_response = tempfile.NamedTemporaryFile()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	126 rsync_stderr = tempfile.NamedTemporaryFile()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	127 rsync_cmd = [ RSYNC_CMD, '--list-only', dir ]
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	128 return_code = subprocess.call( rsync_cmd, stdout=rsync_response, stderr=rsync_stderr )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	129 rsync_response.flush()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	130 rsync_response.seek(0)
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	131 rsync_stderr.flush()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	132 rsync_stderr.seek(0)
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	133 if return_code:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	134 msg = "stdout:\n%s\nstderr:\n%s" % ( rsync_response.read(), rsync_stderr.read() )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	135 rsync_response.close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	136 rsync_stderr.close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	137 raise Exception( 'Failed to execute rsync command (%s), returncode=%s. Rsync_output:\n%s' % ( rsync_cmd, return_code, msg ) )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	138 rsync_stderr.close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	139 rval = {}
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	140 for line in rsync_response:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	141 perms, line = line.split( None, 1 )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	142 line = line.strip()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	143 size, line = line.split( None, 1 )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	144 line = line.strip()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	145 date, line = line.split( None, 1 )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	146 line = line.strip()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	147 time, line = line.split( None, 1 )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	148 name = line.strip()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	149 if name in skip_names:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	150 continue
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	151 size = line.strip()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	152 rval[ name ] = dict( name=name, permissions=perms, bytes=size, date=date, time=time )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	153 rsync_response.close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	154 return rval
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	155
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	156 def rsync_sync_to_dir( source, target ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	157 rsync_response = tempfile.NamedTemporaryFile()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	158 rsync_stderr = tempfile.NamedTemporaryFile()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	159 rsync_cmd = [ RSYNC_CMD, '-avzP', source, target ]
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	160 return_code = subprocess.call( rsync_cmd, stdout=rsync_response, stderr=rsync_stderr )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	161 rsync_response.flush()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	162 rsync_response.seek(0)
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	163 rsync_stderr.flush()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	164 rsync_stderr.seek(0)
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	165 if return_code:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	166 msg = "stdout:\n%s\nstderr:\n%s" % ( rsync_response.read(), rsync_stderr.read() )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	167 rsync_response.close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	168 rsync_stderr.close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	169 raise Exception( 'Failed to execute rsync command (%s), returncode=%s. Rsync_output:\n%s' % ( rsync_cmd, return_code, msg ) )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	170 rsync_response.close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	171 rsync_stderr.close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	172 return return_code
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	173
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	174
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	175 def data_table_needs_refresh( cached_data_table, url ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	176 if cached_data_table is None:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	177 return True, {}
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	178 if datetime.datetime.now() - cached_data_table.get( 'time_loaded' ) > CACHE_TIME:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	179 data_table_text = urllib2.urlopen( url ).read()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	180 if cached_data_table.get( 'data_table_text', None ) != data_table_text:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	181 return True, {'data_table_text':data_table_text}
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	182 loc_file_attrs = rsync_list_dir( RSYNC_SERVER, LOCATION_DIR )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	183 if cached_data_table.get( 'loc_file_attrs', None ) != loc_file_attrs:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	184 return True, {'loc_file_attrs':loc_file_attrs}
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	185 return False, {}
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	186
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	187 def load_data_tables_from_url( url=None, site='main', data_table_class=None ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	188 if not url:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	189 url = TOOL_DATA_TABLE_CONF_XML_URLS.get( site, None )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	190 assert url, ValueError( 'You must provide either a URL or a site=name.' )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	191
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	192 cached_data_table = TOOL_DATA_TABLES_LOADED_BY_URL.get( url, None )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	193 refresh, attribs = data_table_needs_refresh( cached_data_table, url )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	194 if refresh:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	195 data_table_text = attribs.get( 'data_table_text' )or urllib2.urlopen( url ).read()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	196 loc_file_attrs = attribs.get( 'loc_file_attrs' ) or rsync_list_dir( RSYNC_SERVER, LOCATION_DIR )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	197
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	198 tmp_dir = tempfile.mkdtemp( prefix='rsync_g2_' )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	199 tmp_loc_dir = os.path.join( tmp_dir, 'location' )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	200 os.mkdir( tmp_loc_dir )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	201 rsync_sync_to_dir( rsync_urljoin( RSYNC_SERVER, LOCATION_DIR ), os.path.abspath( tmp_loc_dir ) )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	202
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	203
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	204 new_data_table_text = data_table_text.replace( TOOL_DATA_TABLE_CONF_XML_REPLACE_SOURCE, TOOL_DATA_TABLE_CONF_XML_REPLACE_TARGET % ( tmp_loc_dir ) )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	205 data_table_fh = tempfile.NamedTemporaryFile( dir=tmp_dir, prefix='rysnc_data_manager_data_table_conf_' )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	206 data_table_fh.write( new_data_table_text )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	207 data_table_fh.flush()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	208 tmp_data_dir = os.path.join( tmp_dir, 'tool-data' )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	209 os.mkdir( tmp_data_dir )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	210 data_tables = data_table_class( tmp_data_dir, config_filename=data_table_fh.name )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	211 for name, data_table in data_tables.data_tables.items():
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	212 if name in EXCLUDE_DATA_TABLES or not data_table_has_path_column( data_table ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	213 log.debug( 'Removing data table "%s" because it is excluded by name or does not have a defined "path" column.', name )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	214 del data_tables.data_tables[name]
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	215 cached_data_table = { 'data_tables': data_tables, 'tmp_dir': tmp_dir, 'data_table_text': data_table_text, 'tmp_loc_dir': tmp_loc_dir, 'loc_file_attrs': loc_file_attrs, 'time_loaded': datetime.datetime.now() }
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	216 TOOL_DATA_TABLES_LOADED_BY_URL[ url ] = cached_data_table
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	217 #delete the files
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	218 data_table_fh.close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	219 cleanup_before_exit( tmp_dir )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	220 return cached_data_table
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	221
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	222 def data_table_has_path_column( data_table ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	223 col_names = data_table.get_column_name_list()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	224 for name in PATH_COLUMN_NAMES:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	225 if name in col_names:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	226 return True
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	227 return False
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	228
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	229 def get_available_tables( trans ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	230 #list of data tables
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	231 data_tables = load_data_tables_from_url( data_table_class=trans.app.tool_data_tables.__class__ )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	232 return data_tables.get( 'data_tables' ).get_tables().keys()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	233
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	234 def get_new_xml_definition( app, data_table, data_manager, repo_info=None, location_file_dir=None ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	235 sub_dict = { 'table_name': data_table.name, 'comment_char': '', 'columns': '', 'file_path': '' }
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	236 sub_dict.update( data_manager.get_tool_shed_repository_info_dict() )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	237 if data_table.comment_char:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	238 sub_dict['comment_char'] = 'comment_char="%s"' % ( data_table.comment_char )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	239 for i, name in enumerate( data_table.get_column_name_list() ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	240 if name is not None:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	241 sub_dict['columns'] = "%s\n%s" % ( sub_dict['columns'], '<column name="%s" index="%s" />' % ( name, i ) )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	242 location_file_dir = location_file_dir or app.config.galaxy_data_manager_data_path
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	243 for filename in data_table.filenames.keys():
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	244 sub_dict['file_path'] = basename( filename )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	245 sub_dict['file_path'] = os.path.join( location_file_dir, sub_dict['file_path'] ) #os.path.abspath?
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	246 if not os.path.exists( sub_dict['file_path'] ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	247 # Create empty file
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	248 open( sub_dict['file_path'], 'wb+' ).close()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	249 break
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	250 sub_dict[ 'repo_info' ] = repo_info or ''
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	251 return """
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	252 <tables><table name="%(table_name)s" %(comment_char)s>
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	253 %(columns)s
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	254 <file path="%(file_path)s" />
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	255 %(repo_info)s
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	256 </table></tables>
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	257 """ % sub_dict
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	258
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	259 def get_available_tables_for_dbkey( trans, dbkey, data_table_names ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	260 my_data_tables = trans.app.tool_data_tables.get_tables()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	261 data_tables = load_data_tables_from_url( data_table_class=trans.app.tool_data_tables.__class__ )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	262 rval = {}
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	263 for name, data_table in data_tables.get( 'data_tables' ).get_tables().iteritems():
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	264 if ( not data_table_names or name in data_table_names ): #name in my_data_tables.keys() and
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	265 #TODO: check that columns are similiar
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	266 if not dbkey:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	267 entry_getter = data_table.get_named_fields_list()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	268 else:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	269 entry_getter = data_table.get_entries( 'dbkey', dbkey, None, default=[] )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	270 for entry in entry_getter:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	271 name = "%s: %s" % ( data_table.name, dumps( entry ) )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	272 rval[name] = entry
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	273 return rval
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	274
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	275 def split_path_all( path ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	276 rval = []
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	277 path = path.rstrip( '/' )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	278 while True:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	279 head, tail = os.path.split( path )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	280 if tail:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	281 rval.append( tail )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	282 path = head
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	283 elif head:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	284 rval.append( head )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	285 break
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	286 else:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	287 break
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	288 rval.reverse()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	289 return rval
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	290
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	291 def get_data_for_path( path, data_root_dir ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	292 # We list dir with a /, but copy data without
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	293 # listing with / gives a . entry when its a dir
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	294 # cloning without the / will copy that whole directory into the target,
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	295 # instead of just that target's contents
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	296 if path.startswith( GALAXY_DATA_CANONICAL_PATH ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	297 path = path[ len( GALAXY_DATA_CANONICAL_PATH ):]
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	298 make_path = path
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	299 rsync_source = rsync_urljoin( rsync_urljoin( RSYNC_SERVER, INDEX_DIR ), path )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	300 if rsync_source.endswith( '/' ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	301 rsync_source = rsync_source[:-1]
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	302 try:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	303 dir_list = rsync_list_dir( rsync_source + "/" )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	304 except Exception, e:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	305 dir_list = None
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	306 while not dir_list or '.' not in dir_list:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	307 head, tail = os.path.split( make_path )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	308 if not head:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	309 head = tail
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	310 make_path = head
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	311 rsync_source = rsync_urljoin( rsync_urljoin( RSYNC_SERVER, INDEX_DIR ), head ) #if we error here, likely due to a connection issue
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	312 if rsync_source.endswith( '/' ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	313 rsync_source = rsync_source[:-1]
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	314 dir_list = rsync_list_dir( rsync_source + "/" )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	315 split_path = split_path_all( make_path )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	316 target_path = data_root_dir
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	317 for p in split_path[:-1]:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	318 target_path = os.path.join( target_path, p )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	319 if not os.path.exists( target_path ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	320 os.mkdir( target_path )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	321 rsync_sync_to_dir( rsync_source, target_path )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	322 return path
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	323
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	324 def get_data_and_munge_path( data_table_name, data_table_entry, data_root_dir ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	325 path_cols = []
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	326 for key, value in data_table_entry.iteritems():
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	327 if key in PATH_COLUMN_NAMES:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	328 path_cols.append( ( key, value ) )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	329 found_data = False
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	330 if path_cols:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	331 for col_name, value in path_cols:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	332 #GALAXY_DATA_CANONICAL_PATH
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	333 if value.startswith( GALAXY_DATA_CANONICAL_PATH ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	334 data_table_entry[col_name] = get_data_for_path( value, data_root_dir )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	335 found_data = True
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	336 else:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	337 print 'unable to determine location of rsync data for', data_table_name, data_table_entry
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	338 return data_table_entry
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	339
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	340 def fulfill_data_table_entries( data_table_entries, data_manager_dict, data_root_dir ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	341 for data_table_name, entries in data_table_entries.iteritems():
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	342 for entry in entries:
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	343 entry = get_data_and_munge_path( data_table_name, entry, data_root_dir )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	344 _add_data_table_entry( data_manager_dict, data_table_name, entry )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	345 return data_manager_dict
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	346
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	347 def _add_data_table_entry( data_manager_dict, data_table_name, data_table_entry ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	348 data_manager_dict['data_tables'] = data_manager_dict.get( 'data_tables', {} )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	349 data_manager_dict['data_tables'][data_table_name] = data_manager_dict['data_tables'].get( data_table_name, [] )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	350 data_manager_dict['data_tables'][data_table_name].append( data_table_entry )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	351 return data_manager_dict
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	352
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	353 def cleanup_before_exit( tmp_dir ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	354 if tmp_dir and os.path.exists( tmp_dir ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	355 shutil.rmtree( tmp_dir )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	356
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	357 def get_data_table_entries( params ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	358 rval = {}
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	359 data_table_entries = params.get( 'data_table_entries', None )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	360 if data_table_entries :
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	361 for entry_text in data_table_entries.split( ',' ):
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	362 entry_text = entry_text.strip().decode( 'base64' )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	363 entry_dict = loads( entry_text )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	364 data_table_name = entry_dict['name']
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	365 data_table_entry = entry_dict['entry']
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	366 rval[ data_table_name ] = rval.get( data_table_name, [] )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	367 rval[ data_table_name ].append( data_table_entry )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	368 return rval
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	369
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	370 def main():
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	371 #Parse Command Line
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	372 parser = optparse.OptionParser()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	373 (options, args) = parser.parse_args()
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	374
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	375 filename = args[0]
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	376
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	377 params = loads( open( filename ).read() )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	378 target_directory = params[ 'output_data' ][0]['extra_files_path']
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	379 os.mkdir( target_directory )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	380 data_manager_dict = {}
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	381
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	382 data_table_entries = get_data_table_entries( params['param_dict'] )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	383
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	384 # Populate the data Tables
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	385 data_manager_dict = fulfill_data_table_entries( data_table_entries, data_manager_dict, target_directory )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	386
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	387 #save info to json file
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	388 open( filename, 'wb' ).write( dumps( data_manager_dict ) )
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	389
fc28d0b1e074 Uploaded blankenberg parents: diff changeset	390 if __name__ == "__main__": main()

Mercurial > repos > blankenberg > data_manager_rsync_g2

annotate data_manager/data_manager_rsync.py @ 0:fc28d0b1e074 draft default tip