repeatexplorer: repex_full_clustering.xml annotate

annotate repex_full_clustering.xml @ 1:2d43ed150abe draft

Uploaded

author	petrn
date	Fri, 20 Dec 2019 08:26:05 +0000
parents	f6ebec6e235e
children	0f9dfaada8ef

rev	line source
1 2d43ed150abe Uploaded petrn parents: 0 diff changeset	1 <tool id="repeatexplorer2" name="RepeatExplorer2 clustering: " version="2.3.6" >
0 f6ebec6e235e Uploaded petrn parents: diff changeset	2 <stdio>
f6ebec6e235e Uploaded petrn parents: diff changeset	3 <regex match="lastdb: can't open file: NEAR" source="stderr" level="fatal" description="Version of last is too old, use ver 956 or higher\n" />
f6ebec6e235e Uploaded petrn parents: diff changeset	4 <regex match="Traceback" source="stderr" level="fatal" description="Unknown error" />
f6ebec6e235e Uploaded petrn parents: diff changeset	5 <regex match="error" source="stderr" level="fatal" description="Unknown error" />
f6ebec6e235e Uploaded petrn parents: diff changeset	6 <regex match="Warning" source="stderr" level="warning" description="Unknown error" />
f6ebec6e235e Uploaded petrn parents: diff changeset	7 <exit_code range="1:" level="fatal" description="Error" />
f6ebec6e235e Uploaded petrn parents: diff changeset	8 </stdio>
f6ebec6e235e Uploaded petrn parents: diff changeset	9 <description>Improved version or repeat discovery and characterization using graph based sequence clustering</description>
f6ebec6e235e Uploaded petrn parents: diff changeset	10 <requirements>
f6ebec6e235e Uploaded petrn parents: diff changeset	11 <requirement type="package" version="3.7">python</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	12 <requirement type="package" version="0.9.1" >pyrserve</requirement>
1 2d43ed150abe Uploaded petrn parents: 0 diff changeset	13 <requirement type="package" version=">956" >last</requirement>
0 f6ebec6e235e Uploaded petrn parents: diff changeset	14 <requirement type="package">mafft</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	15 <requirement type="package">imagemagick</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	16 <requirement type="package">blast</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	17 <requirement type="package">diamond</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	18 <requirement type="package">blast-legacy</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	19 <requirement type="package">r-igraph</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	20 <requirement type="package">r-data.tree</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	21 <requirement type="package">r-stringr</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	22 <requirement type="package">r-r2html</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	23 <requirement type="package">r-hwriter</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	24 <requirement type="package">r-dt</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	25 <requirement type="package">r-scales</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	26 <requirement type="package">r-plotrix</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	27 <requirement type="package">r-png</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	28 <requirement type="package">r-plyr</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	29 <requirement type="package">r-dplyr</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	30 <requirement type="package">r-optparse</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	31 <requirement type="package">r-dbi</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	32 <requirement type="package">r-rsqlite</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	33 <requirement type="package">r-rserve</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	34 <requirement type="package">bioconductor-biostrings</requirement>
f6ebec6e235e Uploaded petrn parents: diff changeset	35 </requirements>
f6ebec6e235e Uploaded petrn parents: diff changeset	36 <command >
f6ebec6e235e Uploaded petrn parents: diff changeset	37 export PYTHONHASHSEED=0;
f6ebec6e235e Uploaded petrn parents: diff changeset	38 ${__tool_directory__}/seqclust --sample ${sample} --output_dir=tarean_output --logfile=${log} --cleanup $paired --taxon $taxon
f6ebec6e235e Uploaded petrn parents: diff changeset	39
f6ebec6e235e Uploaded petrn parents: diff changeset	40 #if $advanced_options.advanced:
f6ebec6e235e Uploaded petrn parents: diff changeset	41 --mincl $advanced_options.size_threshold $advanced_options.keep_names $advanced_options.automatic_filtering -D $advanced_options.blastx.options_blastx
f6ebec6e235e Uploaded petrn parents: diff changeset	42 --assembly_min $advanced_options.assembly_min_cluster_size
f6ebec6e235e Uploaded petrn parents: diff changeset	43
f6ebec6e235e Uploaded petrn parents: diff changeset	44 #if $advanced_options.comparative.options_comparative:
f6ebec6e235e Uploaded petrn parents: diff changeset	45 --prefix_length $advanced_options.comparative.prefix_length
f6ebec6e235e Uploaded petrn parents: diff changeset	46 #end if
f6ebec6e235e Uploaded petrn parents: diff changeset	47
f6ebec6e235e Uploaded petrn parents: diff changeset	48 #if $advanced_options.custom_library.options_custom_library:
f6ebec6e235e Uploaded petrn parents: diff changeset	49 -d $advanced_options.custom_library.library extra_database
f6ebec6e235e Uploaded petrn parents: diff changeset	50 #end if
f6ebec6e235e Uploaded petrn parents: diff changeset	51
f6ebec6e235e Uploaded petrn parents: diff changeset	52 #if $advanced_options.options.options:
f6ebec6e235e Uploaded petrn parents: diff changeset	53 -opt $advanced_options.options.options
f6ebec6e235e Uploaded petrn parents: diff changeset	54 #end if
f6ebec6e235e Uploaded petrn parents: diff changeset	55 #end if
f6ebec6e235e Uploaded petrn parents: diff changeset	56 ${FastaFile} >stdout.log 2> stderr.log ;
f6ebec6e235e Uploaded petrn parents: diff changeset	57 echo "STDOUT CONTENT:" >> ${log} ;
f6ebec6e235e Uploaded petrn parents: diff changeset	58 cat stdout.log >> ${log} ;
f6ebec6e235e Uploaded petrn parents: diff changeset	59 echo "STDERR CONTENT:" >> ${log};
f6ebec6e235e Uploaded petrn parents: diff changeset	60 cat stderr.log >> ${log} &&
f6ebec6e235e Uploaded petrn parents: diff changeset	61 cd tarean_output &&
f6ebec6e235e Uploaded petrn parents: diff changeset	62 zip -r ${ReportArchive}.zip * &&
f6ebec6e235e Uploaded petrn parents: diff changeset	63 mv ${ReportArchive}.zip ${ReportArchive} &&
f6ebec6e235e Uploaded petrn parents: diff changeset	64 cp index.html ${ReportFile} &&
f6ebec6e235e Uploaded petrn parents: diff changeset	65 mkdir ${ReportFile.files_path} &&
f6ebec6e235e Uploaded petrn parents: diff changeset	66 cp -r --parents libdir ${ReportFile.files_path} &&
f6ebec6e235e Uploaded petrn parents: diff changeset	67 cp -r --parents seqclust/clustering/superclusters ${ReportFile.files_path} &&
f6ebec6e235e Uploaded petrn parents: diff changeset	68 cp -r --parents seqclust/clustering/clusters ${ReportFile.files_path} &&
f6ebec6e235e Uploaded petrn parents: diff changeset	69 cp seqclust/clustering/hitsort.cls ${ReportFile.files_path}/seqclust/clustering/hitsort.cls &&
f6ebec6e235e Uploaded petrn parents: diff changeset	70 cp *.png ${ReportFile.files_path}/ &&
f6ebec6e235e Uploaded petrn parents: diff changeset	71 cp *.csv ${ReportFile.files_path}/ &&
f6ebec6e235e Uploaded petrn parents: diff changeset	72 cp *.html ${ReportFile.files_path}/ &&
f6ebec6e235e Uploaded petrn parents: diff changeset	73 cp *.css ${ReportFile.files_path}/ &&
f6ebec6e235e Uploaded petrn parents: diff changeset	74 cp *.fasta ${ReportFile.files_path}/ 2>>$log && rm -r ../tarean_output \|\| :
f6ebec6e235e Uploaded petrn parents: diff changeset	75
f6ebec6e235e Uploaded petrn parents: diff changeset	76 </command>
f6ebec6e235e Uploaded petrn parents: diff changeset	77 <inputs>
f6ebec6e235e Uploaded petrn parents: diff changeset	78 <param name="FastaFile" label="NGS reads" type="data" format="fasta"
f6ebec6e235e Uploaded petrn parents: diff changeset	79 help="Input file must contain fasta-formatted NGS reads. If paired end reads are used, reads must be interlaced and all pairs must be complete. Example of input data format is provided in the help below. "/>
f6ebec6e235e Uploaded petrn parents: diff changeset	80 <param name="paired" type="boolean" truevalue="--paired" falsevalue="" checked="True" label="Paired-end reads" help="Check if you are using pair reads and input sequences contain both read mates and left mates alternate with their right mates" />
f6ebec6e235e Uploaded petrn parents: diff changeset	81
f6ebec6e235e Uploaded petrn parents: diff changeset	82 <param name="sample" label="Sample size" type="integer" value="500000" min="10000"/>
f6ebec6e235e Uploaded petrn parents: diff changeset	83 <param name="taxon" label="Select taxon and protein domain database version (REXdb)" type="select" help="Reference database of transposable element protein domains - REXdb - is used for annotation of repeats">
f6ebec6e235e Uploaded petrn parents: diff changeset	84 <option value="VIRIDIPLANTAE3.0" selected="true">Viridiplantae version 3.0 </option>
f6ebec6e235e Uploaded petrn parents: diff changeset	85 <option value="VIRIDIPLANTAE2.2" selected="true">Viridiplantae version 2.2</option>
f6ebec6e235e Uploaded petrn parents: diff changeset	86 <option value="METAZOA3.0" >Metazoa version 3.0</option>
f6ebec6e235e Uploaded petrn parents: diff changeset	87 <option value="METAZOA2.0" >Metazoa version 2.0</option>
f6ebec6e235e Uploaded petrn parents: diff changeset	88 <!-- Modify setting in config.py accordingly -->
f6ebec6e235e Uploaded petrn parents: diff changeset	89 </param>
f6ebec6e235e Uploaded petrn parents: diff changeset	90
f6ebec6e235e Uploaded petrn parents: diff changeset	91 <conditional name="advanced_options">
f6ebec6e235e Uploaded petrn parents: diff changeset	92 <param name="advanced" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Advanced options" />
f6ebec6e235e Uploaded petrn parents: diff changeset	93 <when value="false">
f6ebec6e235e Uploaded petrn parents: diff changeset	94 <!-- pass -->
f6ebec6e235e Uploaded petrn parents: diff changeset	95 </when>
f6ebec6e235e Uploaded petrn parents: diff changeset	96 <when value="true">
f6ebec6e235e Uploaded petrn parents: diff changeset	97 <conditional name="comparative">
f6ebec6e235e Uploaded petrn parents: diff changeset	98 <param name="options_comparative" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Perform comparative analysis" help="Use this options when you want to compare sequences multiple groups"/>
f6ebec6e235e Uploaded petrn parents: diff changeset	99 <when value="false">
f6ebec6e235e Uploaded petrn parents: diff changeset	100 <!-- do nothing here -->
f6ebec6e235e Uploaded petrn parents: diff changeset	101 </when>
f6ebec6e235e Uploaded petrn parents: diff changeset	102 <when value="true">
f6ebec6e235e Uploaded petrn parents: diff changeset	103 <param name="prefix_length" label="Group code length" type="integer" value="3" min="1" max="10" help="For comparative analysis, sequences are from individial groups distinguished by sample code which must be used as prefix for sequence name. See example below."/>
f6ebec6e235e Uploaded petrn parents: diff changeset	104 </when>
f6ebec6e235e Uploaded petrn parents: diff changeset	105 </conditional>
f6ebec6e235e Uploaded petrn parents: diff changeset	106
f6ebec6e235e Uploaded petrn parents: diff changeset	107 <conditional name="blastx">
f6ebec6e235e Uploaded petrn parents: diff changeset	108 <param name="options_blastx" type="select" label="Select parameters for protein domain search">
f6ebec6e235e Uploaded petrn parents: diff changeset	109 <option value="BLASTX_W2" selected="false">blastx with word size 2 (the most sensitive, slowest)</option>
f6ebec6e235e Uploaded petrn parents: diff changeset	110 <option value="BLASTX_W3" selected="true">blastx with word size 3 (default)</option>
f6ebec6e235e Uploaded petrn parents: diff changeset	111 <option value="DIAMOND" selected="false">diamond program (the least sensitive, fastest)</option>
f6ebec6e235e Uploaded petrn parents: diff changeset	112 </param>
f6ebec6e235e Uploaded petrn parents: diff changeset	113 </conditional>
f6ebec6e235e Uploaded petrn parents: diff changeset	114
f6ebec6e235e Uploaded petrn parents: diff changeset	115 <conditional name="options">
f6ebec6e235e Uploaded petrn parents: diff changeset	116 <param name="options" type="select" label="Similarity search options" help="Different similarity search parameters are used depending on the used input data to adjust search to differences in length and error rate">
f6ebec6e235e Uploaded petrn parents: diff changeset	117 <option value="ILLUMINA" selected="true">Illumina reads, read length 100nt or more </option>
f6ebec6e235e Uploaded petrn parents: diff changeset	118 <option value="ILLUMINA_SHORT" selected="false">Illumina reads, shorter than 100nt (Do not use reads shorter than 50nt!) </option>
f6ebec6e235e Uploaded petrn parents: diff changeset	119 <option value="ILLUMINA_DUST_OFF" selected="false">Illumina reads, no masking of low complexity repeats </option>
f6ebec6e235e Uploaded petrn parents: diff changeset	120 <option value="OXFORD_NANOPORE" selected="false">
f6ebec6e235e Uploaded petrn parents: diff changeset	121 Pseudo short reads simulated from Oxford Nanopore data (experimental feature)
f6ebec6e235e Uploaded petrn parents: diff changeset	122 </option>
f6ebec6e235e Uploaded petrn parents: diff changeset	123 </param>
f6ebec6e235e Uploaded petrn parents: diff changeset	124 </conditional>
f6ebec6e235e Uploaded petrn parents: diff changeset	125
f6ebec6e235e Uploaded petrn parents: diff changeset	126 <conditional name="custom_library">
f6ebec6e235e Uploaded petrn parents: diff changeset	127 <param name="options_custom_library" type="boolean" truevalue="true" falsevalue="false" checked="False" label="Use custom repeat database"/>
f6ebec6e235e Uploaded petrn parents: diff changeset	128 <when value="false">
f6ebec6e235e Uploaded petrn parents: diff changeset	129 <!-- do nothing here -->
f6ebec6e235e Uploaded petrn parents: diff changeset	130 </when>
f6ebec6e235e Uploaded petrn parents: diff changeset	131 <when value="true">
f6ebec6e235e Uploaded petrn parents: diff changeset	132 <param name="library" format="fasta" type="data" label="Custom library of repeats" help="Library of repeats as DNA sequences in fasta format. The required format for IDs in a custom library is : '>reapeatname#class/subclass'"/>
f6ebec6e235e Uploaded petrn parents: diff changeset	133 </when>
f6ebec6e235e Uploaded petrn parents: diff changeset	134 </conditional>
f6ebec6e235e Uploaded petrn parents: diff changeset	135 <param name="size_threshold" label="Cluster size threshold for detailed analysis" type="float" value="0.01" min="0.0001" max="100" help ="Minimal size (as percentage of input reads) of the smallest cluster which is analyzed, cluster with less than 20 reads are not considered at all."/>
f6ebec6e235e Uploaded petrn parents: diff changeset	136 <param name="automatic_filtering" label="Perform automatic filtering of abundant satellite repeats" help="Automatic filtering tries to identify the most abundant tandem repeats and remove such sequences partially from analysis. Removal of abundant tandem repeat can enable to analyze higher proportion of other less abundant repeats." type="boolean" truevalue="--automatic_filtering" falsevalue="" checked="false"/>
f6ebec6e235e Uploaded petrn parents: diff changeset	137 <param name="keep_names" label="Keep original sequences names" type="boolean" truevalue="--keep_names" falsevalue="" checked="false" help="By default sequence are relabeled using integers. If you want to keep original names, use this option."/>
f6ebec6e235e Uploaded petrn parents: diff changeset	138 <param name="assembly_min_cluster_size" type="integer" label="min cluster size for assembly" value="5" min="2" max="100"/>
f6ebec6e235e Uploaded petrn parents: diff changeset	139 </when>
f6ebec6e235e Uploaded petrn parents: diff changeset	140 </conditional>
f6ebec6e235e Uploaded petrn parents: diff changeset	141
f6ebec6e235e Uploaded petrn parents: diff changeset	142 </inputs>
f6ebec6e235e Uploaded petrn parents: diff changeset	143 <outputs>
f6ebec6e235e Uploaded petrn parents: diff changeset	144 <data name="log" format="txt" label="RepeatExplorer2 - log file"/>
f6ebec6e235e Uploaded petrn parents: diff changeset	145 <data name="ReportArchive" format="zip" label="RepeatExplorer2 - Archive with HTML report from data ${FastaFile.hid}"/>
f6ebec6e235e Uploaded petrn parents: diff changeset	146 <data name="ReportFile" format="html" label="RepeatExplorer2 - HTML report from data ${FastaFile.hid}"/>
f6ebec6e235e Uploaded petrn parents: diff changeset	147 </outputs>
f6ebec6e235e Uploaded petrn parents: diff changeset	148
f6ebec6e235e Uploaded petrn parents: diff changeset	149 <help>
f6ebec6e235e Uploaded petrn parents: diff changeset	150 HELP
f6ebec6e235e Uploaded petrn parents: diff changeset	151
f6ebec6e235e Uploaded petrn parents: diff changeset	152 RepeatExplorer2 clustering is a computational pipeline for unsupervised
f6ebec6e235e Uploaded petrn parents: diff changeset	153 identification of repeats from unassembled sequence reads. The
f6ebec6e235e Uploaded petrn parents: diff changeset	154 pipeline uses low-pass whole genome sequence reads and performs graph-based
f6ebec6e235e Uploaded petrn parents: diff changeset	155 clustering. Resulting clusters, representing all types of repeats, are then
f6ebec6e235e Uploaded petrn parents: diff changeset	156 examined to identify and classify into repeats groups.
f6ebec6e235e Uploaded petrn parents: diff changeset	157
f6ebec6e235e Uploaded petrn parents: diff changeset	158 Input data
f6ebec6e235e Uploaded petrn parents: diff changeset	159
f6ebec6e235e Uploaded petrn parents: diff changeset	160 The analysis requires either single or paired-end reads generated
f6ebec6e235e Uploaded petrn parents: diff changeset	161 by whole genome shotgun sequencing provided as a single fasta-formatted file.
f6ebec6e235e Uploaded petrn parents: diff changeset	162 Generally, paired-end reads provide significantly better results than single
f6ebec6e235e Uploaded petrn parents: diff changeset	163 reads. Reads should be of uniform length (optimal size range is 100-200 nt) and
f6ebec6e235e Uploaded petrn parents: diff changeset	164 the number of analyzed reads should represent less than 1x genome equivalent
f6ebec6e235e Uploaded petrn parents: diff changeset	165 (genome coverage of 0.01 - 0.50 x is recommended). Reads should be
f6ebec6e235e Uploaded petrn parents: diff changeset	166 quality-filtered (recommended filtering : quality score >=10 over 95% of bases
f6ebec6e235e Uploaded petrn parents: diff changeset	167 and no Ns allowed) and only complete read pairs should be submitted for
f6ebec6e235e Uploaded petrn parents: diff changeset	168 analysis. When paired reads are used, input data must be interlaced format
f6ebec6e235e Uploaded petrn parents: diff changeset	169 as fasta file:
f6ebec6e235e Uploaded petrn parents: diff changeset	170
f6ebec6e235e Uploaded petrn parents: diff changeset	171 example of interlaced input format::
f6ebec6e235e Uploaded petrn parents: diff changeset	172
f6ebec6e235e Uploaded petrn parents: diff changeset	173 >0001_f
f6ebec6e235e Uploaded petrn parents: diff changeset	174 CGTAATATACATACTTGCTAGCTAGTTGGATGCATCCAACTTGCAAGCTAGTTTGATG
f6ebec6e235e Uploaded petrn parents: diff changeset	175 >0001_r
f6ebec6e235e Uploaded petrn parents: diff changeset	176 GATTTGACGGACACACTAACTAGCTAGTTGCATCTAAGCGGGCACACTAACTAACTAT
f6ebec6e235e Uploaded petrn parents: diff changeset	177 >0002_f
f6ebec6e235e Uploaded petrn parents: diff changeset	178 ACTCATTTGGACTTAACTTTGATAATAAAAACTTAAAAAGGTTTCTGCACATGAATCG
f6ebec6e235e Uploaded petrn parents: diff changeset	179 >0002_r
f6ebec6e235e Uploaded petrn parents: diff changeset	180 TATGTTGAAAAATTGAATTTCGGGACGAAACAGCGTCTATCGTCACGACATAGTGCTC
f6ebec6e235e Uploaded petrn parents: diff changeset	181 >0003_f
f6ebec6e235e Uploaded petrn parents: diff changeset	182 TGACATTTGTGAACGTTAATGTTCAACAAATCTTTCCAATGTCTTTTTATCTTATCAT
f6ebec6e235e Uploaded petrn parents: diff changeset	183 >0003_r
f6ebec6e235e Uploaded petrn parents: diff changeset	184 TATTGAAATACTGGACACAAATTGGAAATGAAACCTTGTGAGTTATTCAATTTATGTT
f6ebec6e235e Uploaded petrn parents: diff changeset	185 ...
f6ebec6e235e Uploaded petrn parents: diff changeset	186
f6ebec6e235e Uploaded petrn parents: diff changeset	187
f6ebec6e235e Uploaded petrn parents: diff changeset	188 Comparative analysis
f6ebec6e235e Uploaded petrn parents: diff changeset	189
f6ebec6e235e Uploaded petrn parents: diff changeset	190 For comparative analysis sequence names must contain code (prefix) for each group.
f6ebec6e235e Uploaded petrn parents: diff changeset	191 Prefix in sequences names must be of fixed length.
f6ebec6e235e Uploaded petrn parents: diff changeset	192
f6ebec6e235e Uploaded petrn parents: diff changeset	193 Example of labeling two groups with where group code length is 2 and is used to distinguish groups - AA and BB ::
f6ebec6e235e Uploaded petrn parents: diff changeset	194
f6ebec6e235e Uploaded petrn parents: diff changeset	195 >AA0001_f
f6ebec6e235e Uploaded petrn parents: diff changeset	196 CGTAATATACATACTTGCTAGCTAGTTGGATGCATCCAACTTGCAAGCTAGTTTGATG
f6ebec6e235e Uploaded petrn parents: diff changeset	197 >AA0001_r
f6ebec6e235e Uploaded petrn parents: diff changeset	198 GATTTGACGGACACACTAACTAGCTAGTTGCATCTAAGCGGGCACACTAACTAACTAT
f6ebec6e235e Uploaded petrn parents: diff changeset	199 >AA0002_f
f6ebec6e235e Uploaded petrn parents: diff changeset	200 ACTCATTTGGACTTAACTTTGATAATAAAAACTTAAAAAGGTTTCTGCACATGAATCG
f6ebec6e235e Uploaded petrn parents: diff changeset	201 >AA0002_r
f6ebec6e235e Uploaded petrn parents: diff changeset	202 TATGTTGAAAAATTGAATTTCGGGACGAAACAGCGTCTATCGTCACGACATAGTGCTC
f6ebec6e235e Uploaded petrn parents: diff changeset	203 >BB0001_f
f6ebec6e235e Uploaded petrn parents: diff changeset	204 TGACATTTGTGAACGTTAATGTTCAACAAATCTTTCCAATGTCTTTTTATCTTATCAT
f6ebec6e235e Uploaded petrn parents: diff changeset	205 >BB0001_r
f6ebec6e235e Uploaded petrn parents: diff changeset	206 TATTGAAATACTGGACACAAATTGGAAATGAAACCTTGTGAGTTATTCAATTTATGTT
f6ebec6e235e Uploaded petrn parents: diff changeset	207 >BB0002_f
f6ebec6e235e Uploaded petrn parents: diff changeset	208 TGACATTTGTGAACGTTAATGTTCAACAAATCTTTCCAATGTCTTTTTATCTTATCAT
f6ebec6e235e Uploaded petrn parents: diff changeset	209 >BB0002_r
f6ebec6e235e Uploaded petrn parents: diff changeset	210 TATTGAAATACTGGACACAAATTGGAAATGAAACCTTGTGAGTTATTCAATTTATGTT
f6ebec6e235e Uploaded petrn parents: diff changeset	211
f6ebec6e235e Uploaded petrn parents: diff changeset	212
f6ebec6e235e Uploaded petrn parents: diff changeset	213 To prepare quality filtered and interlaced input fasta file from fastq
f6ebec6e235e Uploaded petrn parents: diff changeset	214 files, use `Preprocessing of paired-reads`__ tool.
f6ebec6e235e Uploaded petrn parents: diff changeset	215
f6ebec6e235e Uploaded petrn parents: diff changeset	216 .. __: tool_runner?tool_id=paired_fastq_filtering
f6ebec6e235e Uploaded petrn parents: diff changeset	217
f6ebec6e235e Uploaded petrn parents: diff changeset	218
f6ebec6e235e Uploaded petrn parents: diff changeset	219 Additional parameters
f6ebec6e235e Uploaded petrn parents: diff changeset	220
f6ebec6e235e Uploaded petrn parents: diff changeset	221 Sample size defines how many reads should be used in calculation.
f6ebec6e235e Uploaded petrn parents: diff changeset	222 Default setting with 500,000 reads will enable detection of high copy
f6ebec6e235e Uploaded petrn parents: diff changeset	223 repeats within several hours of computation time. For higher
f6ebec6e235e Uploaded petrn parents: diff changeset	224 sensitivity the sample size can be set higher. Since sample size affects
f6ebec6e235e Uploaded petrn parents: diff changeset	225 the memory usage, this parameter may be automatically adjusted to lower
f6ebec6e235e Uploaded petrn parents: diff changeset	226 value during the run. Maximum sample size which can be processed depends on
f6ebec6e235e Uploaded petrn parents: diff changeset	227 the repetitiveness of analyzed genome.
f6ebec6e235e Uploaded petrn parents: diff changeset	228
f6ebec6e235e Uploaded petrn parents: diff changeset	229
f6ebec6e235e Uploaded petrn parents: diff changeset	230 Select taxon and protein domain database version (REXdb). Classification
f6ebec6e235e Uploaded petrn parents: diff changeset	231 of transposable elements is based on the similarity to our reference database
f6ebec6e235e Uploaded petrn parents: diff changeset	232 of transposable element protein domains (REXdb). Standalone database for Viridiplantae species
f6ebec6e235e Uploaded petrn parents: diff changeset	233 can be obtained on `repeatexplorer.org`__. Classification
f6ebec6e235e Uploaded petrn parents: diff changeset	234 system used in REXdb is described in article `Systematic survey of plant
f6ebec6e235e Uploaded petrn parents: diff changeset	235 LTR-retrotransposons elucidates phylogenetic relationships of their
f6ebec6e235e Uploaded petrn parents: diff changeset	236 polyprotein domains and provides a reference for element classification`__
f6ebec6e235e Uploaded petrn parents: diff changeset	237 Database for Metazoa species is still under development so use it with caution.
f6ebec6e235e Uploaded petrn parents: diff changeset	238
f6ebec6e235e Uploaded petrn parents: diff changeset	239 .. __: http://repeatexplorer.org
f6ebec6e235e Uploaded petrn parents: diff changeset	240 .. __: https://doi.org/10.1186/s13100-018-0144-1
f6ebec6e235e Uploaded petrn parents: diff changeset	241
f6ebec6e235e Uploaded petrn parents: diff changeset	242 Select parameters for protein domain search REXdb is compared with s
f6ebec6e235e Uploaded petrn parents: diff changeset	243 equence clusters either using blastx or diamond aligner. Diamond program
f6ebec6e235e Uploaded petrn parents: diff changeset	244 is about three time faster than blastx with word size 3.
f6ebec6e235e Uploaded petrn parents: diff changeset	245
f6ebec6e235e Uploaded petrn parents: diff changeset	246 Similarity search options By default sequence reads are compared using
f6ebec6e235e Uploaded petrn parents: diff changeset	247 mgblast program. Default threshold is explicitly set to 90% sequence
f6ebec6e235e Uploaded petrn parents: diff changeset	248 similarity spanning at least 55% of the read length (in the case of reads
f6ebec6e235e Uploaded petrn parents: diff changeset	249 differing in length it applies to the longer one). Additionally, sequence
f6ebec6e235e Uploaded petrn parents: diff changeset	250 overlap must be at least 55 nt. If you select option for shorter reads
f6ebec6e235e Uploaded petrn parents: diff changeset	251 than 100 nt, minimum overlap 55 nt is not required.
f6ebec6e235e Uploaded petrn parents: diff changeset	252
f6ebec6e235e Uploaded petrn parents: diff changeset	253 By default,
f6ebec6e235e Uploaded petrn parents: diff changeset	254 mgblast search use DUST program to filter out
f6ebec6e235e Uploaded petrn parents: diff changeset	255 low-complexity sequences. If you want
f6ebec6e235e Uploaded petrn parents: diff changeset	256 to increase sensitivity of detection of satellites with shorter monomer
f6ebec6e235e Uploaded petrn parents: diff changeset	257 use option with 'no masking of low complexity repeats'. Note that omitting
f6ebec6e235e Uploaded petrn parents: diff changeset	258 DUST filtering will significantly increase running times
f6ebec6e235e Uploaded petrn parents: diff changeset	259
f6ebec6e235e Uploaded petrn parents: diff changeset	260
f6ebec6e235e Uploaded petrn parents: diff changeset	261 Automatic filtering of abundant satellite repeats perform clustering on
f6ebec6e235e Uploaded petrn parents: diff changeset	262 smaller dataset of sequence reads to detect abundant high confidence
f6ebec6e235e Uploaded petrn parents: diff changeset	263 satellite repeats. If such satellites are detected, sequence reads derived
f6ebec6e235e Uploaded petrn parents: diff changeset	264 from these satellites are depleted from input dataset. This step enable more
f6ebec6e235e Uploaded petrn parents: diff changeset	265 sensitive detection of less abundant repeats as more reads can be used
f6ebec6e235e Uploaded petrn parents: diff changeset	266 in clustering step.
f6ebec6e235e Uploaded petrn parents: diff changeset	267
f6ebec6e235e Uploaded petrn parents: diff changeset	268 Use custom repeat database. This option allows users to perform similarity
f6ebec6e235e Uploaded petrn parents: diff changeset	269 comparison of identified repeats to their custom databases. The repeat class must
f6ebec6e235e Uploaded petrn parents: diff changeset	270 be encoded in FASTA headers of database entries in order to allow correct
f6ebec6e235e Uploaded petrn parents: diff changeset	271 parsing of similarity hits. Required format for custom database sequence name is: ::
f6ebec6e235e Uploaded petrn parents: diff changeset	272
f6ebec6e235e Uploaded petrn parents: diff changeset	273 >reapeatname#class/subclass
f6ebec6e235e Uploaded petrn parents: diff changeset	274
f6ebec6e235e Uploaded petrn parents: diff changeset	275
f6ebec6e235e Uploaded petrn parents: diff changeset	276 Output
f6ebec6e235e Uploaded petrn parents: diff changeset	277
f6ebec6e235e Uploaded petrn parents: diff changeset	278 List of clusters identified as putative satellite repeats, their genomic
f6ebec6e235e Uploaded petrn parents: diff changeset	279 abundance and various cluster characteristics.
f6ebec6e235e Uploaded petrn parents: diff changeset	280
f6ebec6e235e Uploaded petrn parents: diff changeset	281 Output includes a HTML summary with table listing of all analyzed
f6ebec6e235e Uploaded petrn parents: diff changeset	282 clusters. More detailed information about clusters is provided in
f6ebec6e235e Uploaded petrn parents: diff changeset	283 additional files and directories. All results are also provided as
f6ebec6e235e Uploaded petrn parents: diff changeset	284 downloadable zip archive. Additionally a log file reporting
f6ebec6e235e Uploaded petrn parents: diff changeset	285 the progress of the computational pipeline is provided.
f6ebec6e235e Uploaded petrn parents: diff changeset	286
f6ebec6e235e Uploaded petrn parents: diff changeset	287 </help>
f6ebec6e235e Uploaded petrn parents: diff changeset	288
f6ebec6e235e Uploaded petrn parents: diff changeset	289 </tool>

Mercurial > repos > petrn > repeatexplorer

annotate repex_full_clustering.xml @ 1:2d43ed150abe draft