molecule_datatypes: molecules.py annotate

annotate molecules.py @ 0:7cb4c02f61e6

Uploaded

author	bgruening
date	Tue, 26 Mar 2013 13:14:13 -0400
parents
children	e533de975501

rev	line source
0 7cb4c02f61e6 Uploaded bgruening parents: diff changeset	1 # -- coding: utf-8 --
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	2
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	3 from galaxy.datatypes import data
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	4 import logging
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	5 from galaxy.datatypes.sniff import get_headers, get_test_fname
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	6 from galaxy.datatypes.data import get_file_peek
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	7 from galaxy.datatypes.tabular import Tabular
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	8 from galaxy.datatypes.binary import Binary
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	9 import subprocess
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	10 import os
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	11 #import pybel
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	12 #import openbabel
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	13 #openbabel.obErrorLog.StopLogging()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	14
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	15 from galaxy.datatypes.metadata import MetadataElement
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	16 from galaxy.datatypes import metadata
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	17
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	18 log = logging.getLogger(__name__)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	19
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	20 def count_special_lines( word, filename, invert = False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	21 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	22 searching for special 'words' using the grep tool
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	23 grep is used to speed up the searching and counting
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	24 The number of hits is returned.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	25 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	26 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	27 cmd = ["grep", "-c"]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	28 if invert:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	29 cmd.append('-v')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	30 cmd.extend([word, filename])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	31 out = subprocess.Popen(cmd, stdout=subprocess.PIPE)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	32 return int(out.communicate()[0].split()[0])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	33 except:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	34 pass
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	35 return 0
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	36
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	37 def count_lines( filename, non_empty = False):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	38 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	39 counting the number of lines from the 'filename' file
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	40 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	41 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	42 if non_empty:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	43 out = subprocess.Popen(['grep', '-cve', '^\s*$', filename], stdout=subprocess.PIPE)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	44 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	45 out = subprocess.Popen(['wc', '-l', filename], stdout=subprocess.PIPE)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	46 return int(out.communicate()[0].split()[0])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	47 except:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	48 pass
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	49 return 0
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	50
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	51
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	52 class GenericMolFile( data.Text ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	53 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	54 abstract class for most of the molecule files
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	55 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	56 MetadataElement( name="number_of_molecules", default=0, desc="Number of molecules", readonly=True, visible=True, optional=True, no_value=0 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	57
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	58 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	59 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	60 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	61 if (dataset.metadata.number_of_molecules == 1):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	62 dataset.blurb = "1 molecule"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	63 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	64 dataset.blurb = "%s molecules" % dataset.metadata.number_of_molecules
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	65 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	66 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	67 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	68 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	69
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	70 def get_mime(self):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	71 return 'text/plain'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	72
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	73
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	74
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	75 class SDF( GenericMolFile ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	76 file_ext = "sdf"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	77 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	78 if count_special_lines("^\$\$\$\$", filename) > 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	79 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	80 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	81 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	82
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	83 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	84 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	85 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	86 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	87 dataset.metadata.number_of_molecules = count_special_lines("^\$\$\$\$", dataset.file_name)#self.count_data_lines(dataset.file_name)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	88
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	89 def split( cls, input_datasets, subdir_generator_function, split_params):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	90 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	91 Split the input files by molecule records.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	92 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	93 if split_params is None:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	94 return None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	95
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	96 if len(input_datasets) > 1:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	97 raise Exception("SD-file splitting does not support multiple files")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	98 input_files = [ds.file_name for ds in input_datasets]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	99
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	100 chunk_size = None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	101 if split_params['split_mode'] == 'number_of_parts':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	102 raise Exception('Split mode "%s" is currently not implemented for SD-files.' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	103 elif split_params['split_mode'] == 'to_size':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	104 chunk_size = int(split_params['split_size'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	105 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	106 raise Exception('Unsupported split mode %s' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	107
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	108 def _read_sdf_records( filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	109 lines = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	110 with open(filename) as handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	111 for line in handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	112 lines.append( line )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	113 if line.startswith("$$$$"):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	114 yield lines
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	115 lines = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	116
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	117 def _write_part_sdf_file( accumulated_lines ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	118 part_dir = subdir_generator_function()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	119 part_path = os.path.join(part_dir, os.path.basename(input_files[0]))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	120 part_file = open(part_path, 'w')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	121 part_file.writelines( accumulated_lines )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	122 part_file.close()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	123
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	124 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	125 sdf_records = _read_sdf_records( input_files[0] )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	126 sdf_lines_accumulated = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	127 for counter, sdf_record in enumerate( sdf_records, start = 1):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	128 sdf_lines_accumulated.extend( sdf_record )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	129 if counter % chunk_size == 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	130 _write_part_sdf_file( sdf_lines_accumulated )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	131 sdf_lines_accumulated = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	132 if sdf_lines_accumulated:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	133 _write_part_sdf_file( sdf_lines_accumulated )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	134 except Exception, e:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	135 log.error('Unable to split files: %s' % str(e))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	136 raise
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	137 split = classmethod(split)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	138
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	139
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	140 class MOL2( GenericMolFile ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	141 file_ext = "mol2"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	142 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	143 if count_special_lines("@\<TRIPOS\>MOLECULE", filename) > 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	144 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	145 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	146 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	147
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	148 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	149 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	150 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	151 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	152 dataset.metadata.number_of_molecules = count_special_lines("@<TRIPOS>MOLECULE", dataset.file_name)#self.count_data_lines(dataset)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	153
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	154 def split( cls, input_datasets, subdir_generator_function, split_params):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	155 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	156 Split the input files by molecule records.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	157 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	158 if split_params is None:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	159 return None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	160
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	161 if len(input_datasets) > 1:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	162 raise Exception("MOL2-file splitting does not support multiple files")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	163 input_files = [ds.file_name for ds in input_datasets]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	164
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	165 chunk_size = None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	166 if split_params['split_mode'] == 'number_of_parts':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	167 raise Exception('Split mode "%s" is currently not implemented for MOL2-files.' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	168 elif split_params['split_mode'] == 'to_size':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	169 chunk_size = int(split_params['split_size'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	170 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	171 raise Exception('Unsupported split mode %s' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	172
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	173 def _read_sdf_records( filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	174 lines = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	175 start = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	176 with open(filename) as handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	177 for line in handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	178 if line.startswith("@<TRIPOS>MOLECULE"):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	179 if start:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	180 start = False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	181 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	182 yield lines
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	183 lines = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	184 lines.append( line )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	185
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	186 def _write_part_mol2_file( accumulated_lines ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	187 part_dir = subdir_generator_function()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	188 part_path = os.path.join(part_dir, os.path.basename(input_files[0]))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	189 part_file = open(part_path, 'w')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	190 part_file.writelines( accumulated_lines )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	191 part_file.close()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	192
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	193 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	194 sdf_records = _read_sdf_records( input_files[0] )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	195 sdf_lines_accumulated = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	196 for counter, sdf_record in enumerate( sdf_records, start = 1):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	197 sdf_lines_accumulated.extend( sdf_record )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	198 if counter % chunk_size == 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	199 _write_part_mol2_file( sdf_lines_accumulated )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	200 sdf_lines_accumulated = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	201 if sdf_lines_accumulated:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	202 _write_part_mol2_file( sdf_lines_accumulated )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	203 except Exception, e:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	204 log.error('Unable to split files: %s' % str(e))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	205 raise
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	206 split = classmethod(split)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	207
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	208
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	209
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	210 class FPS( GenericMolFile ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	211 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	212 chemfp fingerprint file: http://code.google.com/p/chem-fingerprints/wiki/FPS
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	213 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	214 file_ext = "fps"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	215 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	216 header = get_headers( filename, sep='\t', count=1 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	217 if header[0][0].strip() == '#FPS1':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	218 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	219 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	220 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	221
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	222 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	223 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	224 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	225 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	226 dataset.metadata.number_of_molecules = count_special_lines('^#', dataset.file_name, invert = True)#self.count_data_lines(dataset)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	227
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	228
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	229 def split( cls, input_datasets, subdir_generator_function, split_params):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	230 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	231 Split the input files by fingerprint records.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	232 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	233 if split_params is None:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	234 return None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	235
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	236 if len(input_datasets) > 1:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	237 raise Exception("FPS-file splitting does not support multiple files")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	238 input_files = [ds.file_name for ds in input_datasets]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	239
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	240 chunk_size = None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	241 if split_params['split_mode'] == 'number_of_parts':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	242 raise Exception('Split mode "%s" is currently not implemented for MOL2-files.' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	243 elif split_params['split_mode'] == 'to_size':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	244 chunk_size = int(split_params['split_size'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	245 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	246 raise Exception('Unsupported split mode %s' % split_params['split_mode'])
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	247
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	248
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	249 def _write_part_fingerprint_file( accumulated_lines ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	250 part_dir = subdir_generator_function()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	251 part_path = os.path.join(part_dir, os.path.basename(input_files[0]))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	252 part_file = open(part_path, 'w')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	253 part_file.writelines( accumulated_lines )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	254 part_file.close()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	255
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	256 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	257 header_lines = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	258 lines_accumulated = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	259 fingerprint_counter = 0
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	260 for line in open( input_files[0] ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	261 if not line.strip():
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	262 continue
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	263 if line.startswith('#'):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	264 header_lines.append( line )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	265 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	266 fingerprint_counter += 1
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	267 lines_accumulated.append( line )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	268 if fingerprint_counter != 0 and fingerprint_counter % chunk_size == 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	269 _write_part_fingerprint_file( header_lines + lines_accumulated )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	270 lines_accumulated = []
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	271 if lines_accumulated:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	272 _write_part_fingerprint_file( header_lines + lines_accumulated )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	273 except Exception, e:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	274 log.error('Unable to split files: %s' % str(e))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	275 raise
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	276 split = classmethod(split)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	277
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	278
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	279 def merge(split_files, output_file):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	280 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	281 Merging fps files requires merging the header manually.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	282 We take the header from the first file.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	283 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	284 if len(split_files) == 1:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	285 #For one file only, use base class method (move/copy)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	286 return data.Text.merge(split_files, output_file)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	287 if not split_files:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	288 raise ValueError("No fps files given, %r, to merge into %s" \
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	289 % (split_files, output_file))
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	290 out = open(output_file, "w")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	291 first = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	292 for filename in split_files:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	293 with open(filename) as handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	294 for line in handle:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	295 if line.startswith('#'):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	296 if first:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	297 out.write(line)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	298 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	299 # line is no header and not a comment, we assume the first header is written to out and we set 'first' to False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	300 first = False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	301 out.write(line)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	302 out.close()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	303 merge = staticmethod(merge)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	304
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	305
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	306
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	307 class OBFS( Binary ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	308 """OpenBabel Fastsearch format (fs)."""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	309 file_ext = 'fs'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	310 composite_type ='basic'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	311 allow_datatype_change = False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	312
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	313 MetadataElement( name="base_name", default='OpenBabel Fastsearch Index',
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	314 readonly=True, visible=True, optional=True,)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	315
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	316 def __init__(self,**kwd):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	317 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	318 A Fastsearch Index consists of a binary file with the fingerprints
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	319 and a pointer the actual molecule file.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	320 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	321 Binary.__init__(self, **kwd)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	322 self.add_composite_file('molecule.fs', is_binary = True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	323 description = 'OpenBabel Fastsearch Index' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	324 self.add_composite_file('molecule.sdf', optional=True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	325 is_binary = False, description = 'Molecule File' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	326 self.add_composite_file('molecule.smi', optional=True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	327 is_binary = False, description = 'Molecule File' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	328 self.add_composite_file('molecule.inchi', optional=True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	329 is_binary = False, description = 'Molecule File' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	330 self.add_composite_file('molecule.mol2', optional=True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	331 is_binary = False, description = 'Molecule File' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	332 self.add_composite_file('molecule.cml', optional=True,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	333 is_binary = False, description = 'Molecule File' )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	334
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	335 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	336 """Set the peek and blurb text."""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	337 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	338 dataset.peek = "OpenBabel Fastsearch Index"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	339 dataset.blurb = "OpenBabel Fastsearch Index"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	340 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	341 dataset.peek = "file does not exist"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	342 dataset.blurb = "file purged from disk"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	343
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	344 def display_peek( self, dataset ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	345 """Create HTML content, used for displaying peek."""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	346 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	347 return dataset.peek
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	348 except:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	349 return "OpenBabel Fastsearch Index"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	350
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	351 def display_data(self, trans, data, preview=False, filename=None,
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	352 to_ext=None, size=None, offset=None, **kwd):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	353 """Apparently an old display method, but still gets called.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	354
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	355 This allows us to format the data shown in the central pane via the "eye" icon.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	356 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	357 return "This is a OpenBabel Fastsearch format. You can speed up your similarity and substructure search with it."
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	358
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	359 def get_mime(self):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	360 """Returns the mime type of the datatype (pretend it is text for peek)"""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	361 return 'text/plain'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	362
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	363 def merge(split_files, output_file, extra_merge_args):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	364 """Merging Fastsearch indices is not supported."""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	365 raise NotImplementedError("Merging Fastsearch indices is not supported.")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	366
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	367 def split( cls, input_datasets, subdir_generator_function, split_params):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	368 """Splitting Fastsearch indices is not supported."""
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	369 if split_params is None:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	370 return None
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	371 raise NotImplementedError("Splitting Fastsearch indices is not possible.")
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	372
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	373
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	374
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	375 class DRF( GenericMolFile ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	376 file_ext = "drf"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	377
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	378 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	379 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	380 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	381 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	382 dataset.metadata.number_of_molecules = count_special_lines('\"ligand id\"', dataset.file_name, invert = True)#self.count_data_lines(dataset)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	383
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	384
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	385 class PHAR( GenericMolFile ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	386 file_ext = "phar"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	387 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	388 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	389 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	390 dataset.blurb = "pharmacophore"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	391 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	392 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	393 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	394
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	395
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	396 class PDB( GenericMolFile ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	397 file_ext = "pdb"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	398 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	399 headers = get_headers( filename, sep=' ', count=300 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	400 h = t = c = s = k = e = False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	401 for line in headers:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	402 section_name = line[0].strip()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	403 if section_name == 'HEADER':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	404 h = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	405 elif section_name == 'TITLE':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	406 t = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	407 elif section_name == 'COMPND':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	408 c = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	409 elif section_name == 'SOURCE':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	410 s = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	411 elif section_name == 'KEYWDS':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	412 k = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	413 elif section_name == 'EXPDTA':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	414 e = True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	415
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	416 if htcsk*e == True:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	417 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	418 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	419 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	420
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	421 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	422 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	423 atom_numbers = count_special_lines("^ATOM", dataset.file_name)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	424 hetatm_numbers = count_special_lines("^HETATM", dataset.file_name)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	425 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	426 dataset.blurb = "%s atoms and %s HET-atoms" % (atom_numbers, hetatm_numbers)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	427 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	428 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	429 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	430
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	431
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	432 class grd( data.Text ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	433 file_ext = "grd"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	434 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	435 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	436 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	437 dataset.blurb = "grids for docking"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	438 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	439 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	440 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	441
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	442
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	443 class grdtgz( Binary ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	444 file_ext = "grd.tgz"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	445 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	446 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	447 dataset.peek = 'binary data'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	448 dataset.blurb = "compressed grids for docking"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	449 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	450 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	451 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	452
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	453
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	454 class InChI( Tabular ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	455 file_ext = "inchi"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	456 column_names = [ 'InChI' ]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	457 MetadataElement( name="columns", default=2, desc="Number of columns", readonly=True, visible=False )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	458 MetadataElement( name="column_types", default=['str'], param=metadata.ColumnTypesParameter, desc="Column types", readonly=True, visible=False )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	459 MetadataElement( name="number_of_molecules", default=0, desc="Number of molecules", readonly=True, visible=True, optional=True, no_value=0 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	460
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	461 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	462 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	463 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	464 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	465 dataset.metadata.number_of_molecules = self.count_data_lines(dataset)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	466
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	467 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	468 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	469 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	470 if (dataset.metadata.number_of_molecules == 1):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	471 dataset.blurb = "1 molecule"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	472 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	473 dataset.blurb = "%s molecules" % dataset.metadata.number_of_molecules
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	474 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	475 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	476 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	477 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	478
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	479 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	480 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	481 InChI files starts with 'InChI='
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	482 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	483 inchi_lines = get_headers( filename, sep=' ', count=10 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	484 for inchi in inchi_lines:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	485 if not inchi[0].startswith('InChI='):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	486 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	487 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	488
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	489
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	490 class SMILES( Tabular ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	491 file_ext = "smi"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	492 column_names = [ 'SMILES', 'TITLE' ]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	493 MetadataElement( name="columns", default=2, desc="Number of columns", readonly=True, visible=False )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	494 MetadataElement( name="column_types", default=['str','str'], param=metadata.ColumnTypesParameter, desc="Column types", readonly=True, visible=False )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	495 MetadataElement( name="number_of_molecules", default=0, desc="Number of molecules", readonly=True, visible=True, optional=True, no_value=0 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	496
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	497 def set_meta( self, dataset, **kwd ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	498 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	499 Set the number of lines of data in dataset.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	500 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	501 dataset.metadata.number_of_molecules = self.count_data_lines(dataset)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	502
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	503 def set_peek( self, dataset, is_multi_byte=False ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	504 if not dataset.dataset.purged:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	505 dataset.peek = get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	506 if (dataset.metadata.number_of_molecules == 1):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	507 dataset.blurb = "1 molecule"
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	508 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	509 dataset.blurb = "%s molecules" % dataset.metadata.number_of_molecules
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	510 dataset.peek = data.get_file_peek( dataset.file_name, is_multi_byte=is_multi_byte )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	511 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	512 dataset.peek = 'file does not exist'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	513 dataset.blurb = 'file purged from disk'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	514
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	515
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	516 '''
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	517 def sniff( self, filename ):
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	518 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	519 Its hard or impossible to sniff a SMILES File. We can
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	520 try to import the first SMILES and check if it is a molecule, but
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	521 currently its not possible to use external libraries from the toolshed
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	522 in datatype definition files. TODO
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	523 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	524 self.molecule_number = count_lines( filename, non_empty = True )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	525 word_count = count_lines( filename )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	526
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	527 if self.molecule_number != word_count:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	528 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	529
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	530 if self.molecule_number > 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	531 # test first 3 SMILES
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	532 smiles_lines = get_headers( filename, sep='\t', count=3 )
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	533 for smiles_line in smiles_lines:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	534 if len(smiles_line) > 2:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	535 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	536 smiles = smiles_line[0]
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	537 try:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	538 # if we have atoms, we have a molecule
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	539 if not len( pybel.readstring('smi', smiles).atoms ) > 0:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	540 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	541 except:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	542 # if convert fails its not a smiles string
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	543 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	544 return True
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	545 else:
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	546 return False
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	547 '''
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	548
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	549
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	550 if __name__ == '__main__':
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	551 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	552 TODO: We need to figure out, how to put example files under /lib/galaxy/datatypes/test/ from a toolshed, so that doctest can work properly.
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	553 """
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	554 inchi = get_test_fname('drugbank_drugs.inchi')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	555 smiles = get_test_fname('drugbank_drugs.smi')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	556 sdf = get_test_fname('drugbank_drugs.sdf')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	557 fps = get_test_fname('50_chemfp_fingerprints_FPS1.fps')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	558 pdb = get_test_fname('2zbz.pdb')
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	559
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	560 print 'SMILES test'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	561 print SMILES().sniff(smiles), 'smi'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	562 print SMILES().sniff(inchi)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	563 print SMILES().sniff(pdb)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	564
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	565 print 'InChI test'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	566 print InChI().sniff(smiles)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	567 print InChI().sniff(sdf)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	568 print InChI().sniff(inchi), 'inchi'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	569
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	570 print 'FPS test'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	571 print FPS().sniff(smiles)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	572 print FPS().sniff(sdf)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	573 f = FPS()
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	574 print f.sniff(fps)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	575
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	576 print 'SDF test'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	577 print SDF().sniff(smiles)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	578 print SDF().sniff(sdf), 'sdf'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	579 print SDF().sniff(fps)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	580
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	581 print 'PDB test'
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	582 print PDB().sniff(smiles)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	583 print PDB().sniff(sdf)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	584 print PDB().sniff(fps)
7cb4c02f61e6 Uploaded bgruening parents: diff changeset	585 print PDB().sniff(pdb), 'pdb'

Mercurial > repos > bgruening > molecule_datatypes

annotate molecules.py @ 0:7cb4c02f61e6