repeatexplorer: seqclust annotate

annotate seqclust @ 3:8f7909cf86df draft

Uploaded

author	petrn
date	Fri, 20 Dec 2019 11:22:25 +0000
parents	94877d063270
children

rev	line source
0 f6ebec6e235e Uploaded petrn parents: diff changeset	1 #!/usr/bin/env python3
f6ebec6e235e Uploaded petrn parents: diff changeset	2 ''' TAndem REpeat ANalyzer '''
f6ebec6e235e Uploaded petrn parents: diff changeset	3 import os
f6ebec6e235e Uploaded petrn parents: diff changeset	4 import sys
f6ebec6e235e Uploaded petrn parents: diff changeset	5 import shutil
f6ebec6e235e Uploaded petrn parents: diff changeset	6 import subprocess
f6ebec6e235e Uploaded petrn parents: diff changeset	7 import argparse
f6ebec6e235e Uploaded petrn parents: diff changeset	8 from argparse import RawTextHelpFormatter
f6ebec6e235e Uploaded petrn parents: diff changeset	9 import logging
f6ebec6e235e Uploaded petrn parents: diff changeset	10 import shlex
f6ebec6e235e Uploaded petrn parents: diff changeset	11 import multiprocessing
f6ebec6e235e Uploaded petrn parents: diff changeset	12 # config must be loaded before seqtools,...
f6ebec6e235e Uploaded petrn parents: diff changeset	13 import config
f6ebec6e235e Uploaded petrn parents: diff changeset	14 import re
f6ebec6e235e Uploaded petrn parents: diff changeset	15 from lib import seqtools, graphtools, utils, assembly_tools
f6ebec6e235e Uploaded petrn parents: diff changeset	16 from lib import r2py
f6ebec6e235e Uploaded petrn parents: diff changeset	17
f6ebec6e235e Uploaded petrn parents: diff changeset	18 REQUIRED_VERSION = (3, 4)
f6ebec6e235e Uploaded petrn parents: diff changeset	19 if sys.version_info < REQUIRED_VERSION:
f6ebec6e235e Uploaded petrn parents: diff changeset	20 raise Exception("\n\npython 3.4 or higher is required!\n")
f6ebec6e235e Uploaded petrn parents: diff changeset	21
f6ebec6e235e Uploaded petrn parents: diff changeset	22 # append path to louvain clustering and other binaries
f6ebec6e235e Uploaded petrn parents: diff changeset	23 os.environ['PATH'] = "{}:{}:{}".format(config.BINARIES, config.LOUVAIN,
f6ebec6e235e Uploaded petrn parents: diff changeset	24 os.environ['PATH'])
f6ebec6e235e Uploaded petrn parents: diff changeset	25
f6ebec6e235e Uploaded petrn parents: diff changeset	26 LOGGER = logging.getLogger(__name__)
f6ebec6e235e Uploaded petrn parents: diff changeset	27
f6ebec6e235e Uploaded petrn parents: diff changeset	28
f6ebec6e235e Uploaded petrn parents: diff changeset	29 def get_version(path, tarean_mode):
2 94877d063270 Uploaded petrn parents: 1 diff changeset	30 # get git version
94877d063270 Uploaded petrn parents: 1 diff changeset	31 branch = "?"
94877d063270 Uploaded petrn parents: 1 diff changeset	32 shorthash = "?"
94877d063270 Uploaded petrn parents: 1 diff changeset	33 revcount = "?"
94877d063270 Uploaded petrn parents: 1 diff changeset	34 tag = "?"
0 f6ebec6e235e Uploaded petrn parents: diff changeset	35 try:
f6ebec6e235e Uploaded petrn parents: diff changeset	36 branch = subprocess.check_output("git rev-parse --abbrev-ref HEAD",
f6ebec6e235e Uploaded petrn parents: diff changeset	37 shell=True,
f6ebec6e235e Uploaded petrn parents: diff changeset	38 cwd=path).decode('ascii').strip()
f6ebec6e235e Uploaded petrn parents: diff changeset	39 shorthash = subprocess.check_output(
f6ebec6e235e Uploaded petrn parents: diff changeset	40 "git log --pretty=format:'%h' -n 1 ",
f6ebec6e235e Uploaded petrn parents: diff changeset	41 shell=True,
f6ebec6e235e Uploaded petrn parents: diff changeset	42 cwd=path).decode('ascii').strip()
f6ebec6e235e Uploaded petrn parents: diff changeset	43 revcount = len(subprocess.check_output(
f6ebec6e235e Uploaded petrn parents: diff changeset	44 "git log --oneline", shell=True,
f6ebec6e235e Uploaded petrn parents: diff changeset	45 cwd=path).decode('ascii').split())
2 94877d063270 Uploaded petrn parents: 1 diff changeset	46 tag = subprocess.check_output("git describe --tags --abbrev=0",
0 f6ebec6e235e Uploaded petrn parents: diff changeset	47 cwd=path,
f6ebec6e235e Uploaded petrn parents: diff changeset	48 shell=True).decode('ascii').strip()
2 94877d063270 Uploaded petrn parents: 1 diff changeset	49 version_info = "{branch}-{tag}-{revcount}({shorthash})".format(
94877d063270 Uploaded petrn parents: 1 diff changeset	50 branch=branch,
94877d063270 Uploaded petrn parents: 1 diff changeset	51 shorthash=shorthash,
94877d063270 Uploaded petrn parents: 1 diff changeset	52 tag=tag,
94877d063270 Uploaded petrn parents: 1 diff changeset	53 revcount=revcount
94877d063270 Uploaded petrn parents: 1 diff changeset	54 )
3 8f7909cf86df Uploaded petrn parents: 2 diff changeset	55 except:
2 94877d063270 Uploaded petrn parents: 1 diff changeset	56 # alernativelly - read it from file
94877d063270 Uploaded petrn parents: 1 diff changeset	57 try:
94877d063270 Uploaded petrn parents: 1 diff changeset	58 with open(path + "/version_info.txt", 'r') as f:
94877d063270 Uploaded petrn parents: 1 diff changeset	59 version_info = f.read()
94877d063270 Uploaded petrn parents: 1 diff changeset	60 except FileNotFoundError:
94877d063270 Uploaded petrn parents: 1 diff changeset	61 version_info = "version of pipeline not available!"
0 f6ebec6e235e Uploaded petrn parents: diff changeset	62
2 94877d063270 Uploaded petrn parents: 1 diff changeset	63 ## get database versions:
94877d063270 Uploaded petrn parents: 1 diff changeset	64 PD = "?"
94877d063270 Uploaded petrn parents: 1 diff changeset	65 PDmd5 = "?"
94877d063270 Uploaded petrn parents: 1 diff changeset	66 DD = "?"
94877d063270 Uploaded petrn parents: 1 diff changeset	67 DDmd5 = "?"
94877d063270 Uploaded petrn parents: 1 diff changeset	68 try:
94877d063270 Uploaded petrn parents: 1 diff changeset	69 PD = os.path.basename(config.PROTEIN_DATABASE)
94877d063270 Uploaded petrn parents: 1 diff changeset	70 PDmd5 = utils.md5checksum(config.PROTEIN_DATABASE + ".psq",
94877d063270 Uploaded petrn parents: 1 diff changeset	71 fail_if_missing=not tarean_mode)
94877d063270 Uploaded petrn parents: 1 diff changeset	72 DD = os.path.basename(config.DNA_DATABASE)
94877d063270 Uploaded petrn parents: 1 diff changeset	73 DDmd5 = utils.md5checksum(config.DNA_DATABASE + ".nsq")
94877d063270 Uploaded petrn parents: 1 diff changeset	74 except:
94877d063270 Uploaded petrn parents: 1 diff changeset	75 ## some problem with databases
94877d063270 Uploaded petrn parents: 1 diff changeset	76 pass
94877d063270 Uploaded petrn parents: 1 diff changeset	77 version_string = (
94877d063270 Uploaded petrn parents: 1 diff changeset	78 "-------------------------------------"
94877d063270 Uploaded petrn parents: 1 diff changeset	79 "-------------------------------------\n"
94877d063270 Uploaded petrn parents: 1 diff changeset	80 "PIPELINE VERSION : "
94877d063270 Uploaded petrn parents: 1 diff changeset	81 "{version_info}\n\n"
94877d063270 Uploaded petrn parents: 1 diff changeset	82 "PROTEIN DATABASE VERSION : {PD}\n"
94877d063270 Uploaded petrn parents: 1 diff changeset	83 " md5 checksum : {PDmd5}\n\n"
94877d063270 Uploaded petrn parents: 1 diff changeset	84 "DNA DATABASE VERSION : {DD}\n"
94877d063270 Uploaded petrn parents: 1 diff changeset	85 " md5 checksum : {DDmd5}\n"
94877d063270 Uploaded petrn parents: 1 diff changeset	86 "-------------------------------------"
94877d063270 Uploaded petrn parents: 1 diff changeset	87 "-------------------------------------\n").format(
0 f6ebec6e235e Uploaded petrn parents: diff changeset	88
2 94877d063270 Uploaded petrn parents: 1 diff changeset	89 version_info=version_info,
94877d063270 Uploaded petrn parents: 1 diff changeset	90 PD=PD,
94877d063270 Uploaded petrn parents: 1 diff changeset	91 PDmd5=PDmd5,
94877d063270 Uploaded petrn parents: 1 diff changeset	92 DD=DD,
94877d063270 Uploaded petrn parents: 1 diff changeset	93 DDmd5=DDmd5
94877d063270 Uploaded petrn parents: 1 diff changeset	94 )
1 2d43ed150abe Uploaded petrn parents: 0 diff changeset	95
0 f6ebec6e235e Uploaded petrn parents: diff changeset	96 LOGGER.info(version_string)
f6ebec6e235e Uploaded petrn parents: diff changeset	97 return version_string
f6ebec6e235e Uploaded petrn parents: diff changeset	98
f6ebec6e235e Uploaded petrn parents: diff changeset	99
f6ebec6e235e Uploaded petrn parents: diff changeset	100 def valid_database(database_file):
f6ebec6e235e Uploaded petrn parents: diff changeset	101 with open(database_file, 'r', encoding='ascii') as f:
f6ebec6e235e Uploaded petrn parents: diff changeset	102 for i in f:
f6ebec6e235e Uploaded petrn parents: diff changeset	103 if i[0] == ">":
f6ebec6e235e Uploaded petrn parents: diff changeset	104 if not re.match(">.+#.+/*", i):
f6ebec6e235e Uploaded petrn parents: diff changeset	105 # TODO - make edits to correct fomating of custom database???
f6ebec6e235e Uploaded petrn parents: diff changeset	106 return False
f6ebec6e235e Uploaded petrn parents: diff changeset	107 return True
f6ebec6e235e Uploaded petrn parents: diff changeset	108
f6ebec6e235e Uploaded petrn parents: diff changeset	109
f6ebec6e235e Uploaded petrn parents: diff changeset	110 def add_databases(databases, custom_databases_dir, dbtype='nucl'):
f6ebec6e235e Uploaded petrn parents: diff changeset	111 '''custom databases are copied to directory tree and blast
f6ebec6e235e Uploaded petrn parents: diff changeset	112 database is created using makeblastdb
f6ebec6e235e Uploaded petrn parents: diff changeset	113 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	114
f6ebec6e235e Uploaded petrn parents: diff changeset	115 databases_ok = []
f6ebec6e235e Uploaded petrn parents: diff changeset	116 print(databases)
f6ebec6e235e Uploaded petrn parents: diff changeset	117 for db_path, db_name in databases:
f6ebec6e235e Uploaded petrn parents: diff changeset	118 db_destination = "{}/{}".format(custom_databases_dir, db_name)
f6ebec6e235e Uploaded petrn parents: diff changeset	119 shutil.copyfile(db_path, db_destination)
f6ebec6e235e Uploaded petrn parents: diff changeset	120 if not valid_database(db_destination):
f6ebec6e235e Uploaded petrn parents: diff changeset	121 raise ValueError((
f6ebec6e235e Uploaded petrn parents: diff changeset	122 "\n------------------------------------------------------------\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	123 "Custom database is not valid!\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	124 "Custom database of repeats are DNA sequences in fasta format.\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	125 "The required format for IDs in a custom library is : \n"
f6ebec6e235e Uploaded petrn parents: diff changeset	126 " '>reapeatname#class/subclass'\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	127 "Reformat the database and try again!\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	128 "-------------------------------------------------------------\n\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	129 ))
f6ebec6e235e Uploaded petrn parents: diff changeset	130
f6ebec6e235e Uploaded petrn parents: diff changeset	131 cmd = "makeblastdb -in {0} -out {0} -dbtype {1}".format(db_destination,
f6ebec6e235e Uploaded petrn parents: diff changeset	132 dbtype)
f6ebec6e235e Uploaded petrn parents: diff changeset	133 print(cmd)
f6ebec6e235e Uploaded petrn parents: diff changeset	134 args = shlex.split(cmd)
f6ebec6e235e Uploaded petrn parents: diff changeset	135 print(args)
f6ebec6e235e Uploaded petrn parents: diff changeset	136 if subprocess.check_call(args, stderr=sys.stdout):
f6ebec6e235e Uploaded petrn parents: diff changeset	137 Warning("makeblastdb on {} failed".format(db_name))
f6ebec6e235e Uploaded petrn parents: diff changeset	138 else:
f6ebec6e235e Uploaded petrn parents: diff changeset	139 databases_ok.append([db_destination, "custom_db_" + db_name])
f6ebec6e235e Uploaded petrn parents: diff changeset	140 if len(databases_ok) == 0:
f6ebec6e235e Uploaded petrn parents: diff changeset	141 return None
f6ebec6e235e Uploaded petrn parents: diff changeset	142 else:
f6ebec6e235e Uploaded petrn parents: diff changeset	143 return databases_ok
f6ebec6e235e Uploaded petrn parents: diff changeset	144
f6ebec6e235e Uploaded petrn parents: diff changeset	145
f6ebec6e235e Uploaded petrn parents: diff changeset	146 def meminfo():
f6ebec6e235e Uploaded petrn parents: diff changeset	147 ''' detect physical memory and memory usage'''
f6ebec6e235e Uploaded petrn parents: diff changeset	148 info = {}
f6ebec6e235e Uploaded petrn parents: diff changeset	149 required_fields = [
f6ebec6e235e Uploaded petrn parents: diff changeset	150 'MemTotal:', 'MemFree:', 'Cached:', 'SwapCached:', 'Buffers:'
f6ebec6e235e Uploaded petrn parents: diff changeset	151 ]
f6ebec6e235e Uploaded petrn parents: diff changeset	152 with open('/proc/meminfo', 'r') as f:
f6ebec6e235e Uploaded petrn parents: diff changeset	153 for i in f:
f6ebec6e235e Uploaded petrn parents: diff changeset	154 a = i.split()
f6ebec6e235e Uploaded petrn parents: diff changeset	155 if a[0] in required_fields:
f6ebec6e235e Uploaded petrn parents: diff changeset	156 info[a[0]] = int(a[1])
f6ebec6e235e Uploaded petrn parents: diff changeset	157 return info
f6ebec6e235e Uploaded petrn parents: diff changeset	158
f6ebec6e235e Uploaded petrn parents: diff changeset	159
f6ebec6e235e Uploaded petrn parents: diff changeset	160 def dict2lists(d):
f6ebec6e235e Uploaded petrn parents: diff changeset	161 ''' convert dict to nested list
f6ebec6e235e Uploaded petrn parents: diff changeset	162 use the funsction to pass dictionary to R function
f6ebec6e235e Uploaded petrn parents: diff changeset	163 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	164 values = list(d.values())
f6ebec6e235e Uploaded petrn parents: diff changeset	165 keys = list(d.keys())
f6ebec6e235e Uploaded petrn parents: diff changeset	166 return [values, keys]
f6ebec6e235e Uploaded petrn parents: diff changeset	167
f6ebec6e235e Uploaded petrn parents: diff changeset	168
f6ebec6e235e Uploaded petrn parents: diff changeset	169 def show_object(obj):
f6ebec6e235e Uploaded petrn parents: diff changeset	170 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	171 helper function for printing all public atributes,
f6ebec6e235e Uploaded petrn parents: diff changeset	172 does not print callebme atributes e.i. methods..
f6ebec6e235e Uploaded petrn parents: diff changeset	173 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	174
f6ebec6e235e Uploaded petrn parents: diff changeset	175 s = "Configuration--------------->\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	176 for i in dir(obj):
f6ebec6e235e Uploaded petrn parents: diff changeset	177 # do not show private
f6ebec6e235e Uploaded petrn parents: diff changeset	178 if i[:2] != "__":
f6ebec6e235e Uploaded petrn parents: diff changeset	179 value = getattr(obj, i)
f6ebec6e235e Uploaded petrn parents: diff changeset	180 if not callable(value):
f6ebec6e235e Uploaded petrn parents: diff changeset	181 s += "{} : {}\n".format(i, value)
f6ebec6e235e Uploaded petrn parents: diff changeset	182 s += "<---------------configuration\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	183 return s
f6ebec6e235e Uploaded petrn parents: diff changeset	184
f6ebec6e235e Uploaded petrn parents: diff changeset	185
f6ebec6e235e Uploaded petrn parents: diff changeset	186 class DataInfo():
f6ebec6e235e Uploaded petrn parents: diff changeset	187 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	188 stores information state of clustering and data
f6ebec6e235e Uploaded petrn parents: diff changeset	189 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	190
f6ebec6e235e Uploaded petrn parents: diff changeset	191 def __init__(self, args, paths):
f6ebec6e235e Uploaded petrn parents: diff changeset	192 LOGGER.info("getting information about input sequences")
f6ebec6e235e Uploaded petrn parents: diff changeset	193 self.args = args
f6ebec6e235e Uploaded petrn parents: diff changeset	194 self.working_directory = args.output_dir
f6ebec6e235e Uploaded petrn parents: diff changeset	195 self.input_sequences = args.sequences.name
f6ebec6e235e Uploaded petrn parents: diff changeset	196 self.number_of_input_sequences = seqtools.SequenceSet.fasta_length(
f6ebec6e235e Uploaded petrn parents: diff changeset	197 self.input_sequences)
f6ebec6e235e Uploaded petrn parents: diff changeset	198 self.paired = args.paired
f6ebec6e235e Uploaded petrn parents: diff changeset	199 self.prefix_length = args.prefix_length
f6ebec6e235e Uploaded petrn parents: diff changeset	200 self.physical_memory = meminfo()['MemTotal:']
f6ebec6e235e Uploaded petrn parents: diff changeset	201 self.edges_max = config.EMAX
f6ebec6e235e Uploaded petrn parents: diff changeset	202 # set max memory
f6ebec6e235e Uploaded petrn parents: diff changeset	203 if args.max_memory:
f6ebec6e235e Uploaded petrn parents: diff changeset	204 self.max_memory = args.max_memory
f6ebec6e235e Uploaded petrn parents: diff changeset	205 else:
f6ebec6e235e Uploaded petrn parents: diff changeset	206 self.max_memory = meminfo()["MemTotal:"]
f6ebec6e235e Uploaded petrn parents: diff changeset	207 # modify initial setup if number of sequences is low
f6ebec6e235e Uploaded petrn parents: diff changeset	208 if args.automatic_filtering:
f6ebec6e235e Uploaded petrn parents: diff changeset	209 config.NUMBER_OF_SEQUENCES_FOR_PRERUN = config.NUMBER_OF_SEQUENCES_FOR_PRERUN_WITH_FILTERING
f6ebec6e235e Uploaded petrn parents: diff changeset	210
f6ebec6e235e Uploaded petrn parents: diff changeset	211 if self.number_of_input_sequences < config.NUMBER_OF_SEQUENCES_FOR_PRERUN:
f6ebec6e235e Uploaded petrn parents: diff changeset	212 config.NUMBER_OF_SEQUENCES_FOR_PRERUN = self.number_of_input_sequences
f6ebec6e235e Uploaded petrn parents: diff changeset	213
f6ebec6e235e Uploaded petrn parents: diff changeset	214 # is number of input sequences sufficient
f6ebec6e235e Uploaded petrn parents: diff changeset	215 if self.number_of_input_sequences < config.MINIMUM_NUMBER_OF_INPUT_SEQUENCES:
f6ebec6e235e Uploaded petrn parents: diff changeset	216 raise WrongInputDataError(
f6ebec6e235e Uploaded petrn parents: diff changeset	217 "provide more sequences for clustering, minumum {} is .required".format(
f6ebec6e235e Uploaded petrn parents: diff changeset	218 config.MINIMUM_NUMBER_OF_INPUT_SEQUENCES))
f6ebec6e235e Uploaded petrn parents: diff changeset	219 # these atribudes will be set later after clustering is done
f6ebec6e235e Uploaded petrn parents: diff changeset	220 self.max_annotated_clusters = None
f6ebec6e235e Uploaded petrn parents: diff changeset	221 self.max_annotated_superclusters = None
f6ebec6e235e Uploaded petrn parents: diff changeset	222 # the atributes will be set after prerun is performed
f6ebec6e235e Uploaded petrn parents: diff changeset	223 self.prerun_ecount = None
f6ebec6e235e Uploaded petrn parents: diff changeset	224 self.prerun_ecount_corrected = None
f6ebec6e235e Uploaded petrn parents: diff changeset	225 self.sample_size = None
f6ebec6e235e Uploaded petrn parents: diff changeset	226 self.max_number_reads_for_clustering = None
f6ebec6e235e Uploaded petrn parents: diff changeset	227 self.mincln = None
f6ebec6e235e Uploaded petrn parents: diff changeset	228 self.number_of_omitted_reads = 0
f6ebec6e235e Uploaded petrn parents: diff changeset	229 LOGGER.info("sampling sequences for prerun analysis")
f6ebec6e235e Uploaded petrn parents: diff changeset	230 sample = seqtools.SequenceSet(
f6ebec6e235e Uploaded petrn parents: diff changeset	231 source=self.input_sequences,
f6ebec6e235e Uploaded petrn parents: diff changeset	232 sample_size=config.NUMBER_OF_SEQUENCES_FOR_PRERUN,
f6ebec6e235e Uploaded petrn parents: diff changeset	233 paired=self.paired,
f6ebec6e235e Uploaded petrn parents: diff changeset	234 filename=paths.sample_db,
f6ebec6e235e Uploaded petrn parents: diff changeset	235 fasta=paths.sample_fasta,
f6ebec6e235e Uploaded petrn parents: diff changeset	236 rename=True)
f6ebec6e235e Uploaded petrn parents: diff changeset	237 sample.makeblastdb(legacy=args.options.legacy_database, lastdb=args.options.lastdb)
f6ebec6e235e Uploaded petrn parents: diff changeset	238 # preliminary clustering
f6ebec6e235e Uploaded petrn parents: diff changeset	239 self.prerun_vcount = len(sample)
f6ebec6e235e Uploaded petrn parents: diff changeset	240 # line count
f6ebec6e235e Uploaded petrn parents: diff changeset	241 self._prerun(sample, paths)
f6ebec6e235e Uploaded petrn parents: diff changeset	242 # adjust size of chunks:
f6ebec6e235e Uploaded petrn parents: diff changeset	243 if self.number_of_reads_for_clustering < config.CHUNK_SIZE * 30:
f6ebec6e235e Uploaded petrn parents: diff changeset	244 config.CHUNK_SIZE = round(self.number_of_reads_for_clustering / 40)
f6ebec6e235e Uploaded petrn parents: diff changeset	245
f6ebec6e235e Uploaded petrn parents: diff changeset	246 def _prerun(self, sample, paths):
f6ebec6e235e Uploaded petrn parents: diff changeset	247 '''Preliminary characterization sequences using
f6ebec6e235e Uploaded petrn parents: diff changeset	248 clustering on small dataset - stored as sample '''
f6ebec6e235e Uploaded petrn parents: diff changeset	249 sample.make_chunks(chunk_size=1000)
f6ebec6e235e Uploaded petrn parents: diff changeset	250 sample.create_hitsort(options=self.args.options)
f6ebec6e235e Uploaded petrn parents: diff changeset	251 sample_hitsort = graphtools.Graph(source=sample.hitsort,
f6ebec6e235e Uploaded petrn parents: diff changeset	252 paired=self.paired,
f6ebec6e235e Uploaded petrn parents: diff changeset	253 seqids=sample.keys())
f6ebec6e235e Uploaded petrn parents: diff changeset	254 sample_hitsort.save_indexed_graph()
f6ebec6e235e Uploaded petrn parents: diff changeset	255 sample_hitsort.louvain_clustering(merge_threshold=0.2)
f6ebec6e235e Uploaded petrn parents: diff changeset	256 sample_hitsort.export_cls(path=paths.prerun_cls_file)
f6ebec6e235e Uploaded petrn parents: diff changeset	257 sample.annotate(
f6ebec6e235e Uploaded petrn parents: diff changeset	258 config.DNA_DATABASE,
f6ebec6e235e Uploaded petrn parents: diff changeset	259 annotation_name="dna_database",
f6ebec6e235e Uploaded petrn parents: diff changeset	260 directory=paths.prerun,
f6ebec6e235e Uploaded petrn parents: diff changeset	261 params=self.args.options.annotation_search_params.blastn)
f6ebec6e235e Uploaded petrn parents: diff changeset	262
f6ebec6e235e Uploaded petrn parents: diff changeset	263 selected_tarean_contigs = []
f6ebec6e235e Uploaded petrn parents: diff changeset	264 ecount_corrected = sample_hitsort.ecount
f6ebec6e235e Uploaded petrn parents: diff changeset	265 vcount_corrected = sample_hitsort.vcount
f6ebec6e235e Uploaded petrn parents: diff changeset	266 if self.args.automatic_filtering:
f6ebec6e235e Uploaded petrn parents: diff changeset	267 prerun_cluster_info = sample_hitsort.export_clusters_files_multiple(
f6ebec6e235e Uploaded petrn parents: diff changeset	268 min_size=10,
f6ebec6e235e Uploaded petrn parents: diff changeset	269 directory=paths.prerun_clusters,
f6ebec6e235e Uploaded petrn parents: diff changeset	270 sequences=sample,
f6ebec6e235e Uploaded petrn parents: diff changeset	271 tRNA_database_path=config.TRNA_DATABASE,
f6ebec6e235e Uploaded petrn parents: diff changeset	272 satellite_model_path=config.SATELLITE_MODEL)
f6ebec6e235e Uploaded petrn parents: diff changeset	273 # check of prerun contain clusters with large number of edges
f6ebec6e235e Uploaded petrn parents: diff changeset	274 # these sequences can be used for filtering
f6ebec6e235e Uploaded petrn parents: diff changeset	275 for cl in prerun_cluster_info:
f6ebec6e235e Uploaded petrn parents: diff changeset	276 print(cl.ecount, cl.vcount, sample_hitsort.ecount,
f6ebec6e235e Uploaded petrn parents: diff changeset	277 cl.tandem_rank)
f6ebec6e235e Uploaded petrn parents: diff changeset	278
f6ebec6e235e Uploaded petrn parents: diff changeset	279 if (cl.tandem_rank in config.TANDEM_RANKS[0:2] and
f6ebec6e235e Uploaded petrn parents: diff changeset	280 cl.ecount / sample_hitsort.ecount >
f6ebec6e235e Uploaded petrn parents: diff changeset	281 config.FILTER_MIN_PROP_THRESHOLD and
f6ebec6e235e Uploaded petrn parents: diff changeset	282 cl.vcount > config.FILTER_MIN_SIZE_THRESHOLD):
f6ebec6e235e Uploaded petrn parents: diff changeset	283 selected_tarean_contigs.append(cl.tarean_contig_file)
f6ebec6e235e Uploaded petrn parents: diff changeset	284 ecount_corrected -= cl.ecount
f6ebec6e235e Uploaded petrn parents: diff changeset	285 vcount_corrected -= cl.vcount
f6ebec6e235e Uploaded petrn parents: diff changeset	286
f6ebec6e235e Uploaded petrn parents: diff changeset	287 if selected_tarean_contigs:
f6ebec6e235e Uploaded petrn parents: diff changeset	288 with open(paths.filter_sequences_file, 'w') as out:
f6ebec6e235e Uploaded petrn parents: diff changeset	289 for fname in selected_tarean_contigs:
f6ebec6e235e Uploaded petrn parents: diff changeset	290 with open(fname, 'r') as f:
f6ebec6e235e Uploaded petrn parents: diff changeset	291 out.write(f.read())
f6ebec6e235e Uploaded petrn parents: diff changeset	292 self.sequence_fiter = paths.filter_sequences_file
f6ebec6e235e Uploaded petrn parents: diff changeset	293 else:
f6ebec6e235e Uploaded petrn parents: diff changeset	294 self.sequence_fiter = None
f6ebec6e235e Uploaded petrn parents: diff changeset	295
f6ebec6e235e Uploaded petrn parents: diff changeset	296 self.prerun_ecount = sample_hitsort.ecount
f6ebec6e235e Uploaded petrn parents: diff changeset	297 self.prerun_ecount_corrected = ecount_corrected
f6ebec6e235e Uploaded petrn parents: diff changeset	298 self.prerun_vcount_corrected = vcount_corrected
f6ebec6e235e Uploaded petrn parents: diff changeset	299 self.max_number_reads_for_clustering = round((
f6ebec6e235e Uploaded petrn parents: diff changeset	300 ((self.edges_max * self.max_memory) /
f6ebec6e235e Uploaded petrn parents: diff changeset	301 self.prerun_ecount_corrected * self.prerun_vcount2)(0.5)) / 2)
f6ebec6e235e Uploaded petrn parents: diff changeset	302
f6ebec6e235e Uploaded petrn parents: diff changeset	303 if self.max_number_reads_for_clustering >= self.number_of_input_sequences:
f6ebec6e235e Uploaded petrn parents: diff changeset	304 self.sample_size = 0
f6ebec6e235e Uploaded petrn parents: diff changeset	305 else:
f6ebec6e235e Uploaded petrn parents: diff changeset	306 self.sample_size = self.max_number_reads_for_clustering
f6ebec6e235e Uploaded petrn parents: diff changeset	307
f6ebec6e235e Uploaded petrn parents: diff changeset	308 n1 = self.sample_size if self.sample_size != 0 else self.number_of_input_sequences
f6ebec6e235e Uploaded petrn parents: diff changeset	309 n2 = self.args.sample if self.args.sample != 0 else self.number_of_input_sequences
f6ebec6e235e Uploaded petrn parents: diff changeset	310 self.number_of_reads_for_clustering = min(n1, n2)
f6ebec6e235e Uploaded petrn parents: diff changeset	311 # minlcn is set either based on mincl or value specified in config,
f6ebec6e235e Uploaded petrn parents: diff changeset	312 # whatever is higher
f6ebec6e235e Uploaded petrn parents: diff changeset	313 self.mincln = int(self.number_of_reads_for_clustering *
f6ebec6e235e Uploaded petrn parents: diff changeset	314 self.args.mincl / 100)
f6ebec6e235e Uploaded petrn parents: diff changeset	315 if self.mincln < config.MINIMUM_NUMBER_OF_READS_IN_CLUSTER:
f6ebec6e235e Uploaded petrn parents: diff changeset	316 self.mincln = config.MINIMUM_NUMBER_OF_READS_IN_CLUSTER
f6ebec6e235e Uploaded petrn parents: diff changeset	317
f6ebec6e235e Uploaded petrn parents: diff changeset	318 def __str__(self):
f6ebec6e235e Uploaded petrn parents: diff changeset	319 s = "Data info------------------->\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	320 for i in dir(self):
f6ebec6e235e Uploaded petrn parents: diff changeset	321 # do not show private
f6ebec6e235e Uploaded petrn parents: diff changeset	322 if i[:2] != "__":
f6ebec6e235e Uploaded petrn parents: diff changeset	323 value = getattr(self, i)
f6ebec6e235e Uploaded petrn parents: diff changeset	324 if not callable(value):
f6ebec6e235e Uploaded petrn parents: diff changeset	325 s += "{} : {}\n".format(i, value)
f6ebec6e235e Uploaded petrn parents: diff changeset	326 s += "<----------------------Data info\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	327 return s
f6ebec6e235e Uploaded petrn parents: diff changeset	328
f6ebec6e235e Uploaded petrn parents: diff changeset	329
f6ebec6e235e Uploaded petrn parents: diff changeset	330 class DataFiles(object):
f6ebec6e235e Uploaded petrn parents: diff changeset	331 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	332 stores location of data files and create directories ...
f6ebec6e235e Uploaded petrn parents: diff changeset	333 atributes are:
f6ebec6e235e Uploaded petrn parents: diff changeset	334 - individual directories
f6ebec6e235e Uploaded petrn parents: diff changeset	335 - individual files
f6ebec6e235e Uploaded petrn parents: diff changeset	336 - list of files or directories
f6ebec6e235e Uploaded petrn parents: diff changeset	337
f6ebec6e235e Uploaded petrn parents: diff changeset	338 directories are created if does not exist
f6ebec6e235e Uploaded petrn parents: diff changeset	339 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	340
f6ebec6e235e Uploaded petrn parents: diff changeset	341 def __init__(self, working_dir, subdirs, files):
f6ebec6e235e Uploaded petrn parents: diff changeset	342 LOGGER.info("creating directory structure")
f6ebec6e235e Uploaded petrn parents: diff changeset	343 self.working_dir = working_dir
f6ebec6e235e Uploaded petrn parents: diff changeset	344 # add and create directories paths
f6ebec6e235e Uploaded petrn parents: diff changeset	345 for i in subdirs:
f6ebec6e235e Uploaded petrn parents: diff changeset	346 d = os.path.join(self.working_dir, subdirs[i])
f6ebec6e235e Uploaded petrn parents: diff changeset	347 os.makedirs(d, exist_ok=True)
f6ebec6e235e Uploaded petrn parents: diff changeset	348 setattr(self, i, d)
f6ebec6e235e Uploaded petrn parents: diff changeset	349 setattr(self, i + "__relative", subdirs[i])
f6ebec6e235e Uploaded petrn parents: diff changeset	350 # add file paths
f6ebec6e235e Uploaded petrn parents: diff changeset	351 for i in files:
f6ebec6e235e Uploaded petrn parents: diff changeset	352 d = os.path.join(self.working_dir, files[i])
f6ebec6e235e Uploaded petrn parents: diff changeset	353 setattr(self, i, d)
f6ebec6e235e Uploaded petrn parents: diff changeset	354 setattr(self, i + "__relative", files[i])
f6ebec6e235e Uploaded petrn parents: diff changeset	355
f6ebec6e235e Uploaded petrn parents: diff changeset	356 def __str__(self):
f6ebec6e235e Uploaded petrn parents: diff changeset	357 s = ""
f6ebec6e235e Uploaded petrn parents: diff changeset	358 for i in dir(self):
f6ebec6e235e Uploaded petrn parents: diff changeset	359 # do not show private
f6ebec6e235e Uploaded petrn parents: diff changeset	360 if i[:2] != "__":
f6ebec6e235e Uploaded petrn parents: diff changeset	361 value = getattr(self, i)
f6ebec6e235e Uploaded petrn parents: diff changeset	362 if not callable(value):
f6ebec6e235e Uploaded petrn parents: diff changeset	363 s += "{} : {}\n".format(i, value)
f6ebec6e235e Uploaded petrn parents: diff changeset	364 return s
f6ebec6e235e Uploaded petrn parents: diff changeset	365
f6ebec6e235e Uploaded petrn parents: diff changeset	366 def as_list(self):
f6ebec6e235e Uploaded petrn parents: diff changeset	367 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	368 convert attr and vaues to list - suitable for passing values to R functions
f6ebec6e235e Uploaded petrn parents: diff changeset	369 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	370 values = list()
f6ebec6e235e Uploaded petrn parents: diff changeset	371 keys = list()
f6ebec6e235e Uploaded petrn parents: diff changeset	372 for i in dir(self):
f6ebec6e235e Uploaded petrn parents: diff changeset	373 # do not show private
f6ebec6e235e Uploaded petrn parents: diff changeset	374 if i[:2] != "__":
f6ebec6e235e Uploaded petrn parents: diff changeset	375 value = getattr(self, i)
f6ebec6e235e Uploaded petrn parents: diff changeset	376 if not callable(value):
f6ebec6e235e Uploaded petrn parents: diff changeset	377 values.append(value)
f6ebec6e235e Uploaded petrn parents: diff changeset	378 keys.append(i)
f6ebec6e235e Uploaded petrn parents: diff changeset	379 return [values, keys]
f6ebec6e235e Uploaded petrn parents: diff changeset	380
f6ebec6e235e Uploaded petrn parents: diff changeset	381 def cleanup(self, paths):
f6ebec6e235e Uploaded petrn parents: diff changeset	382 ''' will remove unnecessary files from working directory '''
f6ebec6e235e Uploaded petrn parents: diff changeset	383 for i in paths:
f6ebec6e235e Uploaded petrn parents: diff changeset	384 fn = getattr(self, i)
f6ebec6e235e Uploaded petrn parents: diff changeset	385 if os.path.exists(fn):
f6ebec6e235e Uploaded petrn parents: diff changeset	386 if os.path.isdir(fn):
f6ebec6e235e Uploaded petrn parents: diff changeset	387 shutil.rmtree(fn, ignore_errors=False)
f6ebec6e235e Uploaded petrn parents: diff changeset	388 else:
f6ebec6e235e Uploaded petrn parents: diff changeset	389 os.remove(fn)
f6ebec6e235e Uploaded petrn parents: diff changeset	390
f6ebec6e235e Uploaded petrn parents: diff changeset	391
f6ebec6e235e Uploaded petrn parents: diff changeset	392 class WrongInputDataError(Exception):
f6ebec6e235e Uploaded petrn parents: diff changeset	393 '''Custom exception for wrong input
f6ebec6e235e Uploaded petrn parents: diff changeset	394 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	395
f6ebec6e235e Uploaded petrn parents: diff changeset	396 def __init__(self, arg):
f6ebec6e235e Uploaded petrn parents: diff changeset	397 super(WrongInputDataError, self).__init__(arg)
f6ebec6e235e Uploaded petrn parents: diff changeset	398 self.msg = arg
f6ebec6e235e Uploaded petrn parents: diff changeset	399
f6ebec6e235e Uploaded petrn parents: diff changeset	400
f6ebec6e235e Uploaded petrn parents: diff changeset	401 class Range():
f6ebec6e235e Uploaded petrn parents: diff changeset	402 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	403 This class is used to check float range in argparse
f6ebec6e235e Uploaded petrn parents: diff changeset	404 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	405
f6ebec6e235e Uploaded petrn parents: diff changeset	406 def __init__(self, start, end):
f6ebec6e235e Uploaded petrn parents: diff changeset	407 self.start = start
f6ebec6e235e Uploaded petrn parents: diff changeset	408 self.end = end
f6ebec6e235e Uploaded petrn parents: diff changeset	409
f6ebec6e235e Uploaded petrn parents: diff changeset	410 def __eq__(self, other):
f6ebec6e235e Uploaded petrn parents: diff changeset	411 return self.start <= other <= self.end
f6ebec6e235e Uploaded petrn parents: diff changeset	412
f6ebec6e235e Uploaded petrn parents: diff changeset	413 def __str__(self):
f6ebec6e235e Uploaded petrn parents: diff changeset	414 return "float range {}..{}".format(self.start, self.end)
f6ebec6e235e Uploaded petrn parents: diff changeset	415
f6ebec6e235e Uploaded petrn parents: diff changeset	416 def __repr__(self):
f6ebec6e235e Uploaded petrn parents: diff changeset	417 return "float range {}..{}".format(self.start, self.end)
f6ebec6e235e Uploaded petrn parents: diff changeset	418
f6ebec6e235e Uploaded petrn parents: diff changeset	419
f6ebec6e235e Uploaded petrn parents: diff changeset	420 class DirectoryType(object):
f6ebec6e235e Uploaded petrn parents: diff changeset	421 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	422 this class is similar to argparse.FileType
f6ebec6e235e Uploaded petrn parents: diff changeset	423 for mode 'w' creates and check the access to the directory
f6ebec6e235e Uploaded petrn parents: diff changeset	424 for mode 'r' check the presence of the dictory and accesibility
f6ebec6e235e Uploaded petrn parents: diff changeset	425 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	426
f6ebec6e235e Uploaded petrn parents: diff changeset	427 def __init__(self, mode='r'):
f6ebec6e235e Uploaded petrn parents: diff changeset	428 self._mode = mode
f6ebec6e235e Uploaded petrn parents: diff changeset	429
f6ebec6e235e Uploaded petrn parents: diff changeset	430 def __call__(self, string):
f6ebec6e235e Uploaded petrn parents: diff changeset	431 if self._mode == 'w':
f6ebec6e235e Uploaded petrn parents: diff changeset	432 try:
f6ebec6e235e Uploaded petrn parents: diff changeset	433 os.makedirs(string, exist_ok=True)
f6ebec6e235e Uploaded petrn parents: diff changeset	434 except FileExistsError:
f6ebec6e235e Uploaded petrn parents: diff changeset	435 raise argparse.ArgumentTypeError(
f6ebec6e235e Uploaded petrn parents: diff changeset	436 "Cannot create directory, '{}' is a file".format(string))
f6ebec6e235e Uploaded petrn parents: diff changeset	437 if os.access(string, os.W_OK):
f6ebec6e235e Uploaded petrn parents: diff changeset	438 return string
f6ebec6e235e Uploaded petrn parents: diff changeset	439 else:
f6ebec6e235e Uploaded petrn parents: diff changeset	440 raise argparse.ArgumentTypeError(
f6ebec6e235e Uploaded petrn parents: diff changeset	441 "Directory '{}' is not writable".format(string))
f6ebec6e235e Uploaded petrn parents: diff changeset	442 if self._mode == 'r':
f6ebec6e235e Uploaded petrn parents: diff changeset	443 if not os.path.isdir(string):
f6ebec6e235e Uploaded petrn parents: diff changeset	444 raise argparse.ArgumentTypeError(
f6ebec6e235e Uploaded petrn parents: diff changeset	445 "'{}' is not a directory".format(string))
f6ebec6e235e Uploaded petrn parents: diff changeset	446 if os.access(string, os.R_OK):
f6ebec6e235e Uploaded petrn parents: diff changeset	447 return string
f6ebec6e235e Uploaded petrn parents: diff changeset	448 else:
f6ebec6e235e Uploaded petrn parents: diff changeset	449 raise argparse.ArgumentTypeError(
f6ebec6e235e Uploaded petrn parents: diff changeset	450 "Directory '{}' is not readable".format(string))
f6ebec6e235e Uploaded petrn parents: diff changeset	451
f6ebec6e235e Uploaded petrn parents: diff changeset	452
f6ebec6e235e Uploaded petrn parents: diff changeset	453 def get_cmdline_args():
f6ebec6e235e Uploaded petrn parents: diff changeset	454 '''seqclust command line parser'''
f6ebec6e235e Uploaded petrn parents: diff changeset	455
f6ebec6e235e Uploaded petrn parents: diff changeset	456 description = """RepeatExplorer:
f6ebec6e235e Uploaded petrn parents: diff changeset	457 Repetitive sequence discovery and clasification from NGS data
f6ebec6e235e Uploaded petrn parents: diff changeset	458
f6ebec6e235e Uploaded petrn parents: diff changeset	459 """
f6ebec6e235e Uploaded petrn parents: diff changeset	460
f6ebec6e235e Uploaded petrn parents: diff changeset	461 # arguments parsing
f6ebec6e235e Uploaded petrn parents: diff changeset	462 parser = argparse.ArgumentParser(description=description,
f6ebec6e235e Uploaded petrn parents: diff changeset	463 formatter_class=RawTextHelpFormatter)
f6ebec6e235e Uploaded petrn parents: diff changeset	464 parser.add_argument('-p', '--paired', action='store_true', default=False)
f6ebec6e235e Uploaded petrn parents: diff changeset	465 parser.add_argument('-A',
f6ebec6e235e Uploaded petrn parents: diff changeset	466 '--automatic_filtering',
f6ebec6e235e Uploaded petrn parents: diff changeset	467 action='store_true',
f6ebec6e235e Uploaded petrn parents: diff changeset	468 default=False)
f6ebec6e235e Uploaded petrn parents: diff changeset	469 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	470 '-t',
f6ebec6e235e Uploaded petrn parents: diff changeset	471 '--tarean_mode',
f6ebec6e235e Uploaded petrn parents: diff changeset	472 action='store_true',
f6ebec6e235e Uploaded petrn parents: diff changeset	473 default=False,
f6ebec6e235e Uploaded petrn parents: diff changeset	474 help="analyze only tandem reapeats without additional classification")
f6ebec6e235e Uploaded petrn parents: diff changeset	475 parser.add_argument('sequences', type=argparse.FileType('r'))
f6ebec6e235e Uploaded petrn parents: diff changeset	476 parser.add_argument('-l',
f6ebec6e235e Uploaded petrn parents: diff changeset	477 '--logfile',
f6ebec6e235e Uploaded petrn parents: diff changeset	478 type=argparse.FileType('w'),
f6ebec6e235e Uploaded petrn parents: diff changeset	479 default=None,
f6ebec6e235e Uploaded petrn parents: diff changeset	480 help='log file, logging goes to stdout if not defines')
f6ebec6e235e Uploaded petrn parents: diff changeset	481 parser.add_argument('-m',
f6ebec6e235e Uploaded petrn parents: diff changeset	482 '--mincl',
f6ebec6e235e Uploaded petrn parents: diff changeset	483 type=float,
f6ebec6e235e Uploaded petrn parents: diff changeset	484 choices=[Range(0.0, 100.0)],
f6ebec6e235e Uploaded petrn parents: diff changeset	485 default=0.01)
f6ebec6e235e Uploaded petrn parents: diff changeset	486 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	487 '-M',
f6ebec6e235e Uploaded petrn parents: diff changeset	488 '--merge_threshold',
f6ebec6e235e Uploaded petrn parents: diff changeset	489 type=float,
f6ebec6e235e Uploaded petrn parents: diff changeset	490 choices=[0, Range(0.1, 1)],
f6ebec6e235e Uploaded petrn parents: diff changeset	491 default=0,
f6ebec6e235e Uploaded petrn parents: diff changeset	492 help=
f6ebec6e235e Uploaded petrn parents: diff changeset	493 "threshold for mate-pair based cluster merging, default 0 - no merging")
f6ebec6e235e Uploaded petrn parents: diff changeset	494 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	495 '-o',
f6ebec6e235e Uploaded petrn parents: diff changeset	496 '--min_lcov',
f6ebec6e235e Uploaded petrn parents: diff changeset	497 type=float,
f6ebec6e235e Uploaded petrn parents: diff changeset	498 choices=[Range(30.0, 80.0)],
f6ebec6e235e Uploaded petrn parents: diff changeset	499 default=55,
f6ebec6e235e Uploaded petrn parents: diff changeset	500 help=
f6ebec6e235e Uploaded petrn parents: diff changeset	501 "minimal overlap coverage - relative to longer sequence length, default 55")
f6ebec6e235e Uploaded petrn parents: diff changeset	502 parser.add_argument('-c',
f6ebec6e235e Uploaded petrn parents: diff changeset	503 '--cpu',
f6ebec6e235e Uploaded petrn parents: diff changeset	504 type=int,
f6ebec6e235e Uploaded petrn parents: diff changeset	505 default=int(os.environ.get('TAREAN_CPU', 0)),
f6ebec6e235e Uploaded petrn parents: diff changeset	506 help="number of cpu to use, if 0 use max available")
f6ebec6e235e Uploaded petrn parents: diff changeset	507 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	508 '-s',
f6ebec6e235e Uploaded petrn parents: diff changeset	509 '--sample',
f6ebec6e235e Uploaded petrn parents: diff changeset	510 type=int,
f6ebec6e235e Uploaded petrn parents: diff changeset	511 default=0,
f6ebec6e235e Uploaded petrn parents: diff changeset	512 help="use only sample of input data[by default max reads is used")
f6ebec6e235e Uploaded petrn parents: diff changeset	513 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	514 '-P',
f6ebec6e235e Uploaded petrn parents: diff changeset	515 '--prefix_length',
f6ebec6e235e Uploaded petrn parents: diff changeset	516 type=int,
f6ebec6e235e Uploaded petrn parents: diff changeset	517 default=0,
f6ebec6e235e Uploaded petrn parents: diff changeset	518 help=("If you wish to keep part of the sequences name,\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	519 " enter the number of characters which should be \n"
f6ebec6e235e Uploaded petrn parents: diff changeset	520 "kept (1-10) instead of zero. Use this setting if\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	521 " you are doing comparative analysis"))
f6ebec6e235e Uploaded petrn parents: diff changeset	522 parser.add_argument('-v',
f6ebec6e235e Uploaded petrn parents: diff changeset	523 '--output_dir',
f6ebec6e235e Uploaded petrn parents: diff changeset	524 type=DirectoryType('w'),
f6ebec6e235e Uploaded petrn parents: diff changeset	525 default="clustering_results")
f6ebec6e235e Uploaded petrn parents: diff changeset	526 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	527 '-r',
f6ebec6e235e Uploaded petrn parents: diff changeset	528 '--max_memory',
f6ebec6e235e Uploaded petrn parents: diff changeset	529 type=int,
f6ebec6e235e Uploaded petrn parents: diff changeset	530 default=int(os.environ.get('TAREAN_MAX_MEM', 0)),
f6ebec6e235e Uploaded petrn parents: diff changeset	531 help=("Maximal amount of available RAM in kB if not set\n"
f6ebec6e235e Uploaded petrn parents: diff changeset	532 "clustering tries to use whole available RAM"))
f6ebec6e235e Uploaded petrn parents: diff changeset	533 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	534 '-d',
f6ebec6e235e Uploaded petrn parents: diff changeset	535 '--database',
f6ebec6e235e Uploaded petrn parents: diff changeset	536 default=None,
f6ebec6e235e Uploaded petrn parents: diff changeset	537 help="fasta file with database for annotation and name of database",
f6ebec6e235e Uploaded petrn parents: diff changeset	538 nargs=2,
f6ebec6e235e Uploaded petrn parents: diff changeset	539 action='append')
f6ebec6e235e Uploaded petrn parents: diff changeset	540
f6ebec6e235e Uploaded petrn parents: diff changeset	541 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	542 "-C",
f6ebec6e235e Uploaded petrn parents: diff changeset	543 "--cleanup",
f6ebec6e235e Uploaded petrn parents: diff changeset	544 default=False,
f6ebec6e235e Uploaded petrn parents: diff changeset	545 action="store_true",
f6ebec6e235e Uploaded petrn parents: diff changeset	546 help="remove unncessary large files from working directory")
f6ebec6e235e Uploaded petrn parents: diff changeset	547
f6ebec6e235e Uploaded petrn parents: diff changeset	548 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	549 "-k",
f6ebec6e235e Uploaded petrn parents: diff changeset	550 "--keep_names",
f6ebec6e235e Uploaded petrn parents: diff changeset	551 default=False,
f6ebec6e235e Uploaded petrn parents: diff changeset	552 action="store_true",
f6ebec6e235e Uploaded petrn parents: diff changeset	553 help="keep sequence names, by default sequences are renamed")
f6ebec6e235e Uploaded petrn parents: diff changeset	554
f6ebec6e235e Uploaded petrn parents: diff changeset	555 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	556 '-a', '--assembly_min',
f6ebec6e235e Uploaded petrn parents: diff changeset	557 default=5, type=int,
f6ebec6e235e Uploaded petrn parents: diff changeset	558 choices=[2,3,4,5],
f6ebec6e235e Uploaded petrn parents: diff changeset	559 help=('Assembly is performed on individual clusters, by default \n'
f6ebec6e235e Uploaded petrn parents: diff changeset	560 'clusters with size less then 5 are not assembled. If you \n'
f6ebec6e235e Uploaded petrn parents: diff changeset	561 'want need assembly of smaller cluster set assmbly_min \n'
f6ebec6e235e Uploaded petrn parents: diff changeset	562 'accordingly\n')
f6ebec6e235e Uploaded petrn parents: diff changeset	563 )
f6ebec6e235e Uploaded petrn parents: diff changeset	564
f6ebec6e235e Uploaded petrn parents: diff changeset	565 parser.add_argument('-tax',
f6ebec6e235e Uploaded petrn parents: diff changeset	566 '--taxon',
f6ebec6e235e Uploaded petrn parents: diff changeset	567 default=config.PROTEIN_DATABASE_DEFAULT,
f6ebec6e235e Uploaded petrn parents: diff changeset	568 choices=list(config.PROTEIN_DATABASE_OPTIONS.keys()),
f6ebec6e235e Uploaded petrn parents: diff changeset	569 help="Select taxon and protein database version"
f6ebec6e235e Uploaded petrn parents: diff changeset	570 )
f6ebec6e235e Uploaded petrn parents: diff changeset	571
f6ebec6e235e Uploaded petrn parents: diff changeset	572 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	573 '-opt',
f6ebec6e235e Uploaded petrn parents: diff changeset	574 '--options',
f6ebec6e235e Uploaded petrn parents: diff changeset	575 default="ILLUMINA",
f6ebec6e235e Uploaded petrn parents: diff changeset	576 choices=['ILLUMINA','ILLUMINA_DUST_OFF', 'ILLUMINA_SHORT', 'OXFORD_NANOPORE'])
f6ebec6e235e Uploaded petrn parents: diff changeset	577
f6ebec6e235e Uploaded petrn parents: diff changeset	578 parser.add_argument(
f6ebec6e235e Uploaded petrn parents: diff changeset	579 '-D',
f6ebec6e235e Uploaded petrn parents: diff changeset	580 '--domain_search',
f6ebec6e235e Uploaded petrn parents: diff changeset	581 default="BLASTX_W3",
f6ebec6e235e Uploaded petrn parents: diff changeset	582 choices=['BLASTX_W2', 'BLASTX_W3', 'DIAMOND'],
f6ebec6e235e Uploaded petrn parents: diff changeset	583 help=
f6ebec6e235e Uploaded petrn parents: diff changeset	584 ('Detection of protein domains can be performed by either blastx or\n'
f6ebec6e235e Uploaded petrn parents: diff changeset	585 ' diamond" program. options are:\n'
f6ebec6e235e Uploaded petrn parents: diff changeset	586 ' BLASTX_W2 - blastx with word size 2 (slowest, the most sesitive)\n'
f6ebec6e235e Uploaded petrn parents: diff changeset	587 ' BLASTX_W3 - blastx with word size 3 (default)\n'
f6ebec6e235e Uploaded petrn parents: diff changeset	588 ' DIAMOND - diamond program (significantly faster, less sensitive)\n'
f6ebec6e235e Uploaded petrn parents: diff changeset	589 'To use this option diamond program must be installed in your PATH'))
f6ebec6e235e Uploaded petrn parents: diff changeset	590
f6ebec6e235e Uploaded petrn parents: diff changeset	591 args = parser.parse_args()
f6ebec6e235e Uploaded petrn parents: diff changeset	592
f6ebec6e235e Uploaded petrn parents: diff changeset	593 # covert option string to namedtuple of options
f6ebec6e235e Uploaded petrn parents: diff changeset	594 args.options = getattr(config, args.options)
f6ebec6e235e Uploaded petrn parents: diff changeset	595 # set protein database
f6ebec6e235e Uploaded petrn parents: diff changeset	596 args.options = args.options._replace(
f6ebec6e235e Uploaded petrn parents: diff changeset	597 annotation_search_params=
f6ebec6e235e Uploaded petrn parents: diff changeset	598 args.options.annotation_search_params._replace(blastx=getattr(
f6ebec6e235e Uploaded petrn parents: diff changeset	599 config, args.domain_search)))
f6ebec6e235e Uploaded petrn parents: diff changeset	600 return args
f6ebec6e235e Uploaded petrn parents: diff changeset	601
f6ebec6e235e Uploaded petrn parents: diff changeset	602
f6ebec6e235e Uploaded petrn parents: diff changeset	603 def main():
f6ebec6e235e Uploaded petrn parents: diff changeset	604 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	605 Perform graph based clustering
f6ebec6e235e Uploaded petrn parents: diff changeset	606 '''
f6ebec6e235e Uploaded petrn parents: diff changeset	607 # argument parsing:
f6ebec6e235e Uploaded petrn parents: diff changeset	608 args = get_cmdline_args()
f6ebec6e235e Uploaded petrn parents: diff changeset	609 config.ARGS = args
f6ebec6e235e Uploaded petrn parents: diff changeset	610 logfile = args.logfile.name if args.logfile else None
f6ebec6e235e Uploaded petrn parents: diff changeset	611 logging.basicConfig(
f6ebec6e235e Uploaded petrn parents: diff changeset	612 filename=logfile,
f6ebec6e235e Uploaded petrn parents: diff changeset	613 format='\n%(asctime)s - %(name)s - %(levelname)s -\n%(message)s\n',
f6ebec6e235e Uploaded petrn parents: diff changeset	614 level=logging.INFO)
f6ebec6e235e Uploaded petrn parents: diff changeset	615 config.PROTEIN_DATABASE, config.CLASSIFICATION_HIERARCHY = config.PROTEIN_DATABASE_OPTIONS[
f6ebec6e235e Uploaded petrn parents: diff changeset	616 args.taxon]
f6ebec6e235e Uploaded petrn parents: diff changeset	617 # number of CPU to use
f6ebec6e235e Uploaded petrn parents: diff changeset	618 pipeline_version_info = get_version(config.MAIN_DIR, tarean_mode = args.tarean_mode)
f6ebec6e235e Uploaded petrn parents: diff changeset	619 config.PROC = args.cpu if args.cpu != 0 else multiprocessing.cpu_count()
f6ebec6e235e Uploaded petrn parents: diff changeset	620 # TODO add kmer range specification to config - based on the technology
f6ebec6e235e Uploaded petrn parents: diff changeset	621 r2py.create_connection()
f6ebec6e235e Uploaded petrn parents: diff changeset	622 try:
f6ebec6e235e Uploaded petrn parents: diff changeset	623 reporting = r2py.R(config.RSOURCE_reporting, verbose=True)
f6ebec6e235e Uploaded petrn parents: diff changeset	624 create_annotation = r2py.R(config.RSOURCE_create_annotation,
f6ebec6e235e Uploaded petrn parents: diff changeset	625 verbose=True)
f6ebec6e235e Uploaded petrn parents: diff changeset	626 LOGGER.info(args)
f6ebec6e235e Uploaded petrn parents: diff changeset	627 paths = DataFiles(working_dir=args.output_dir,
f6ebec6e235e Uploaded petrn parents: diff changeset	628 subdirs=config.DIRECTORY_TREE,
f6ebec6e235e Uploaded petrn parents: diff changeset	629 files=config.FILES)
f6ebec6e235e Uploaded petrn parents: diff changeset	630 # files to be included in output
f6ebec6e235e Uploaded petrn parents: diff changeset	631 for src, dest in config.INCLUDE:
f6ebec6e235e Uploaded petrn parents: diff changeset	632 shutil.copy(src, os.path.join(paths.working_dir, dest))
f6ebec6e235e Uploaded petrn parents: diff changeset	633 # geting information about data
f6ebec6e235e Uploaded petrn parents: diff changeset	634 run_info = DataInfo(args, paths)
f6ebec6e235e Uploaded petrn parents: diff changeset	635 LOGGER.info(run_info)
f6ebec6e235e Uploaded petrn parents: diff changeset	636 LOGGER.info(show_object(config))
f6ebec6e235e Uploaded petrn parents: diff changeset	637 # load all sequences or sample
f6ebec6e235e Uploaded petrn parents: diff changeset	638 sequences = seqtools.SequenceSet(
f6ebec6e235e Uploaded petrn parents: diff changeset	639 source=run_info.input_sequences,
f6ebec6e235e Uploaded petrn parents: diff changeset	640 sample_size=run_info.number_of_reads_for_clustering,
f6ebec6e235e Uploaded petrn parents: diff changeset	641 paired=run_info.paired,
f6ebec6e235e Uploaded petrn parents: diff changeset	642 filename=paths.sequences_db,
f6ebec6e235e Uploaded petrn parents: diff changeset	643 fasta=paths.sequences_fasta,
f6ebec6e235e Uploaded petrn parents: diff changeset	644 prefix_length=run_info.prefix_length,
f6ebec6e235e Uploaded petrn parents: diff changeset	645 rename=not run_info.args.keep_names)
f6ebec6e235e Uploaded petrn parents: diff changeset	646 if run_info.sequence_fiter:
f6ebec6e235e Uploaded petrn parents: diff changeset	647 n = sequences.remove_sequences_using_filter(
f6ebec6e235e Uploaded petrn parents: diff changeset	648 run_info.sequence_fiter,
f6ebec6e235e Uploaded petrn parents: diff changeset	649 keep_proportion=config.FILTER_PROPORTION_OF_KEPT,
f6ebec6e235e Uploaded petrn parents: diff changeset	650 omitted_sequences_file=paths.filter_omitted,
f6ebec6e235e Uploaded petrn parents: diff changeset	651 kept_sequences_file=paths.filter_kept
f6ebec6e235e Uploaded petrn parents: diff changeset	652 )
f6ebec6e235e Uploaded petrn parents: diff changeset	653 run_info.number_of_omitted_reads = n
f6ebec6e235e Uploaded petrn parents: diff changeset	654 # add custom databases if provided
f6ebec6e235e Uploaded petrn parents: diff changeset	655 if args.database:
f6ebec6e235e Uploaded petrn parents: diff changeset	656 config.CUSTOM_DNA_DATABASE = add_databases(
f6ebec6e235e Uploaded petrn parents: diff changeset	657 args.database,
f6ebec6e235e Uploaded petrn parents: diff changeset	658 custom_databases_dir=paths.custom_databases)
f6ebec6e235e Uploaded petrn parents: diff changeset	659 sequences.makeblastdb(legacy=args.options.legacy_database, lastdb=args.options.lastdb)
f6ebec6e235e Uploaded petrn parents: diff changeset	660 LOGGER.info("chunksize: {}".format(config.CHUNK_SIZE))
f6ebec6e235e Uploaded petrn parents: diff changeset	661 sequences.make_chunks(chunk_size=config.CHUNK_SIZE)
f6ebec6e235e Uploaded petrn parents: diff changeset	662 sequences.create_hitsort(output=paths.hitsort, options=args.options)
f6ebec6e235e Uploaded petrn parents: diff changeset	663 hitsort = graphtools.Graph(filename=paths.hitsort_db,
f6ebec6e235e Uploaded petrn parents: diff changeset	664 source=paths.hitsort,
f6ebec6e235e Uploaded petrn parents: diff changeset	665 paired=run_info.paired,
f6ebec6e235e Uploaded petrn parents: diff changeset	666 seqids=sequences.keys())
f6ebec6e235e Uploaded petrn parents: diff changeset	667
f6ebec6e235e Uploaded petrn parents: diff changeset	668 LOGGER.info('hitsort with {} reads and {} edges loaded.'.format(
f6ebec6e235e Uploaded petrn parents: diff changeset	669 hitsort.vcount, hitsort.ecount))
f6ebec6e235e Uploaded petrn parents: diff changeset	670
f6ebec6e235e Uploaded petrn parents: diff changeset	671 hitsort.save_indexed_graph()
f6ebec6e235e Uploaded petrn parents: diff changeset	672 LOGGER.info('hitsort index created.')
f6ebec6e235e Uploaded petrn parents: diff changeset	673
f6ebec6e235e Uploaded petrn parents: diff changeset	674 hitsort.louvain_clustering(merge_threshold=args.merge_threshold,
f6ebec6e235e Uploaded petrn parents: diff changeset	675 cleanup=args.cleanup)
f6ebec6e235e Uploaded petrn parents: diff changeset	676 hitsort.export_cls(path=paths.cls_file)
f6ebec6e235e Uploaded petrn parents: diff changeset	677 hitsort.adjust_cluster_size(config.FILTER_PROPORTION_OF_KEPT,
f6ebec6e235e Uploaded petrn parents: diff changeset	678 sequences.ids_kept)
f6ebec6e235e Uploaded petrn parents: diff changeset	679 sequences.annotate(config.DNA_DATABASE,
f6ebec6e235e Uploaded petrn parents: diff changeset	680 annotation_name="dna_database",
f6ebec6e235e Uploaded petrn parents: diff changeset	681 directory=paths.blastn,
f6ebec6e235e Uploaded petrn parents: diff changeset	682 params=args.options.annotation_search_params.blastn)
f6ebec6e235e Uploaded petrn parents: diff changeset	683
f6ebec6e235e Uploaded petrn parents: diff changeset	684 if config.CUSTOM_DNA_DATABASE:
f6ebec6e235e Uploaded petrn parents: diff changeset	685 LOGGER.info('annotating with custom database')
f6ebec6e235e Uploaded petrn parents: diff changeset	686 for db, db_name in config.CUSTOM_DNA_DATABASE:
f6ebec6e235e Uploaded petrn parents: diff changeset	687 sequences.annotate(
f6ebec6e235e Uploaded petrn parents: diff changeset	688 db,
f6ebec6e235e Uploaded petrn parents: diff changeset	689 annotation_name=db_name,
f6ebec6e235e Uploaded petrn parents: diff changeset	690 directory=paths.blastn,
f6ebec6e235e Uploaded petrn parents: diff changeset	691 params=args.options.annotation_search_params.blastn)
f6ebec6e235e Uploaded petrn parents: diff changeset	692
f6ebec6e235e Uploaded petrn parents: diff changeset	693 if not args.tarean_mode:
f6ebec6e235e Uploaded petrn parents: diff changeset	694 # additional analyses - full RE run
f6ebec6e235e Uploaded petrn parents: diff changeset	695 # this must be finished befor creating clusters_info
f6ebec6e235e Uploaded petrn parents: diff changeset	696 sequences.annotate(
f6ebec6e235e Uploaded petrn parents: diff changeset	697 config.PROTEIN_DATABASE,
f6ebec6e235e Uploaded petrn parents: diff changeset	698 annotation_name="protein_database",
f6ebec6e235e Uploaded petrn parents: diff changeset	699 directory=paths.blastx,
f6ebec6e235e Uploaded petrn parents: diff changeset	700 params=args.options.annotation_search_params.blastx)
f6ebec6e235e Uploaded petrn parents: diff changeset	701
f6ebec6e235e Uploaded petrn parents: diff changeset	702 ## annotating using customa databasesreplace
f6ebec6e235e Uploaded petrn parents: diff changeset	703 LOGGER.info('creating cluster graphs')
f6ebec6e235e Uploaded petrn parents: diff changeset	704 clusters_info = hitsort.export_clusters_files_multiple(
f6ebec6e235e Uploaded petrn parents: diff changeset	705 min_size=run_info.mincln,
f6ebec6e235e Uploaded petrn parents: diff changeset	706 directory=paths.clusters,
f6ebec6e235e Uploaded petrn parents: diff changeset	707 sequences=sequences,
f6ebec6e235e Uploaded petrn parents: diff changeset	708 tRNA_database_path=config.TRNA_DATABASE,
f6ebec6e235e Uploaded petrn parents: diff changeset	709 satellite_model_path=config.SATELLITE_MODEL)
f6ebec6e235e Uploaded petrn parents: diff changeset	710 if not args.tarean_mode:
f6ebec6e235e Uploaded petrn parents: diff changeset	711 LOGGER.info("assembling..")
f6ebec6e235e Uploaded petrn parents: diff changeset	712 assembly_tools.assembly(sequences,
f6ebec6e235e Uploaded petrn parents: diff changeset	713 hitsort,
f6ebec6e235e Uploaded petrn parents: diff changeset	714 clusters_info,
f6ebec6e235e Uploaded petrn parents: diff changeset	715 assembly_dir=paths.assembly,
f6ebec6e235e Uploaded petrn parents: diff changeset	716 contigs_file=paths.contigs,
f6ebec6e235e Uploaded petrn parents: diff changeset	717 min_size_of_cluster_for_assembly=args.assembly_min)
f6ebec6e235e Uploaded petrn parents: diff changeset	718
f6ebec6e235e Uploaded petrn parents: diff changeset	719 LOGGER.info("detecting LTR in assembly..")
f6ebec6e235e Uploaded petrn parents: diff changeset	720 for i in clusters_info:
f6ebec6e235e Uploaded petrn parents: diff changeset	721 i.detect_ltr(config.TRNA_DATABASE)
f6ebec6e235e Uploaded petrn parents: diff changeset	722
f6ebec6e235e Uploaded petrn parents: diff changeset	723 run_info.max_annotated_clusters = max([i.index for i in clusters_info])
f6ebec6e235e Uploaded petrn parents: diff changeset	724 run_info.max_annotated_superclusters = max([i.supercluster
f6ebec6e235e Uploaded petrn parents: diff changeset	725 for i in clusters_info])
f6ebec6e235e Uploaded petrn parents: diff changeset	726 # make reports
f6ebec6e235e Uploaded petrn parents: diff changeset	727 cluster_listing = [i.listing() for i in clusters_info]
f6ebec6e235e Uploaded petrn parents: diff changeset	728 # make path relative to paths.cluster_info
f6ebec6e235e Uploaded petrn parents: diff changeset	729 utils.save_as_table(cluster_listing, paths.clusters_info)
f6ebec6e235e Uploaded petrn parents: diff changeset	730 # creates table cluster_info in hitsort database
f6ebec6e235e Uploaded petrn parents: diff changeset	731 graphtools.Cluster.add_cluster_table_to_database(cluster_listing,
f6ebec6e235e Uploaded petrn parents: diff changeset	732 paths.hitsort_db)
f6ebec6e235e Uploaded petrn parents: diff changeset	733 # export files for consensus sequences, one for each ranks
f6ebec6e235e Uploaded petrn parents: diff changeset	734 consensus_files = []
f6ebec6e235e Uploaded petrn parents: diff changeset	735 for i in config.TANDEM_RANKS:
f6ebec6e235e Uploaded petrn parents: diff changeset	736 consensus_files.append(utils.export_tandem_consensus(
f6ebec6e235e Uploaded petrn parents: diff changeset	737 clusters_info,
f6ebec6e235e Uploaded petrn parents: diff changeset	738 path=paths.TR_consensus_fasta.format(i),
f6ebec6e235e Uploaded petrn parents: diff changeset	739 rank=i))
f6ebec6e235e Uploaded petrn parents: diff changeset	740
f6ebec6e235e Uploaded petrn parents: diff changeset	741 if not args.tarean_mode:
f6ebec6e235e Uploaded petrn parents: diff changeset	742 LOGGER.info("Creating report for superclusters")
f6ebec6e235e Uploaded petrn parents: diff changeset	743 create_annotation.create_all_superclusters_report(
f6ebec6e235e Uploaded petrn parents: diff changeset	744 max_supercluster=run_info.max_annotated_superclusters,
f6ebec6e235e Uploaded petrn parents: diff changeset	745 paths=paths.as_list(),
f6ebec6e235e Uploaded petrn parents: diff changeset	746 libdir=paths.libdir,
f6ebec6e235e Uploaded petrn parents: diff changeset	747 superclusters_dir=paths.superclusters,
f6ebec6e235e Uploaded petrn parents: diff changeset	748 seqdb=paths.sequences_db,
f6ebec6e235e Uploaded petrn parents: diff changeset	749 hitsortdb=paths.hitsort_db,
f6ebec6e235e Uploaded petrn parents: diff changeset	750 classification_hierarchy_file=config.CLASSIFICATION_HIERARCHY,
f6ebec6e235e Uploaded petrn parents: diff changeset	751 HTML_LINKS=dict2lists(config.HTML_LINKS))
f6ebec6e235e Uploaded petrn parents: diff changeset	752
f6ebec6e235e Uploaded petrn parents: diff changeset	753 LOGGER.info("Creating report for individual clusters")
f6ebec6e235e Uploaded petrn parents: diff changeset	754 for cluster in clusters_info:
f6ebec6e235e Uploaded petrn parents: diff changeset	755 create_annotation.create_cluster_report(
f6ebec6e235e Uploaded petrn parents: diff changeset	756 cluster.index,
f6ebec6e235e Uploaded petrn parents: diff changeset	757 seqdb=paths.sequences_db,
f6ebec6e235e Uploaded petrn parents: diff changeset	758 hitsortdb=paths.hitsort_db,
f6ebec6e235e Uploaded petrn parents: diff changeset	759 classification_hierarchy_file=
f6ebec6e235e Uploaded petrn parents: diff changeset	760 config.CLASSIFICATION_HIERARCHY,
f6ebec6e235e Uploaded petrn parents: diff changeset	761 HTML_LINKS=dict2lists(config.HTML_LINKS))
f6ebec6e235e Uploaded petrn parents: diff changeset	762
f6ebec6e235e Uploaded petrn parents: diff changeset	763 LOGGER.info("Creating main html report")
f6ebec6e235e Uploaded petrn parents: diff changeset	764 reporting.create_main_reports(
f6ebec6e235e Uploaded petrn parents: diff changeset	765 paths=paths.as_list(),
f6ebec6e235e Uploaded petrn parents: diff changeset	766 N_clustering=run_info.number_of_reads_for_clustering,
f6ebec6e235e Uploaded petrn parents: diff changeset	767 N_input=run_info.number_of_input_sequences,
f6ebec6e235e Uploaded petrn parents: diff changeset	768 N_omit=run_info.number_of_omitted_reads,
f6ebec6e235e Uploaded petrn parents: diff changeset	769 merge_threshold=args.merge_threshold,
f6ebec6e235e Uploaded petrn parents: diff changeset	770 paired=run_info.paired,
f6ebec6e235e Uploaded petrn parents: diff changeset	771 consensus_files=consensus_files,
f6ebec6e235e Uploaded petrn parents: diff changeset	772 custom_db=bool(config.CUSTOM_DNA_DATABASE),
f6ebec6e235e Uploaded petrn parents: diff changeset	773 tarean_mode=args.tarean_mode,
f6ebec6e235e Uploaded petrn parents: diff changeset	774 HTML_LINKS=dict2lists(config.HTML_LINKS),
f6ebec6e235e Uploaded petrn parents: diff changeset	775 pipeline_version_info=pipeline_version_info,
f6ebec6e235e Uploaded petrn parents: diff changeset	776 max_memory=run_info.max_memory,
f6ebec6e235e Uploaded petrn parents: diff changeset	777 max_number_reads_for_clustering=run_info.max_number_reads_for_clustering,
f6ebec6e235e Uploaded petrn parents: diff changeset	778 mincln=run_info.mincln
f6ebec6e235e Uploaded petrn parents: diff changeset	779 )
f6ebec6e235e Uploaded petrn parents: diff changeset	780
f6ebec6e235e Uploaded petrn parents: diff changeset	781 LOGGER.info("Html report reports created")
f6ebec6e235e Uploaded petrn parents: diff changeset	782
f6ebec6e235e Uploaded petrn parents: diff changeset	783 except:
f6ebec6e235e Uploaded petrn parents: diff changeset	784 r2py.shutdown(config.RSERVE_PORT)
f6ebec6e235e Uploaded petrn parents: diff changeset	785 raise
f6ebec6e235e Uploaded petrn parents: diff changeset	786 finally:
f6ebec6e235e Uploaded petrn parents: diff changeset	787 if args.cleanup:
f6ebec6e235e Uploaded petrn parents: diff changeset	788 paths.cleanup(config.FILES_TO_DISCARD_AT_CLEANUP)
f6ebec6e235e Uploaded petrn parents: diff changeset	789 else:
f6ebec6e235e Uploaded petrn parents: diff changeset	790 LOGGER.info("copy databases to working directory")
f6ebec6e235e Uploaded petrn parents: diff changeset	791 shutil.copy(paths.sequences_db, paths.working_dir)
f6ebec6e235e Uploaded petrn parents: diff changeset	792 shutil.copy(paths.hitsort_db, paths.working_dir)
f6ebec6e235e Uploaded petrn parents: diff changeset	793 # copy log file inside working directory
f6ebec6e235e Uploaded petrn parents: diff changeset	794 if logfile:
f6ebec6e235e Uploaded petrn parents: diff changeset	795 shutil.copyfile(logfile, paths.logfile)
f6ebec6e235e Uploaded petrn parents: diff changeset	796
f6ebec6e235e Uploaded petrn parents: diff changeset	797
f6ebec6e235e Uploaded petrn parents: diff changeset	798 if __name__ == "__main__":
f6ebec6e235e Uploaded petrn parents: diff changeset	799 main()
f6ebec6e235e Uploaded petrn parents: diff changeset	800 # some error handling here:

Mercurial > repos > petrn > repeatexplorer

annotate seqclust @ 3:8f7909cf86df draft