repeatexplorer: lib/tarean_output

annotate lib/tarean_output_help.org @ 5:7e55ef6f9a05 draft

Uploaded

author	petrn
date	Fri, 20 Dec 2019 12:45:18 +0000
parents	f6ebec6e235e
children

rev	line source
0 f6ebec6e235e Uploaded petrn parents: diff changeset	1 #+TITLE: TAREAN output description
f6ebec6e235e Uploaded petrn parents: diff changeset	2 #+HTML_HEAD_EXTRA: <link rel="stylesheet" type="text/css" href="style1.css" />
f6ebec6e235e Uploaded petrn parents: diff changeset	3 #+LANGUAGE: en
f6ebec6e235e Uploaded petrn parents: diff changeset	4
f6ebec6e235e Uploaded petrn parents: diff changeset	5 * Introduction
f6ebec6e235e Uploaded petrn parents: diff changeset	6 TAREAN output includes HTML report with list of all analyzed clusters; the clusters are classified into five categories:
f6ebec6e235e Uploaded petrn parents: diff changeset	7 + high confidence satellites
f6ebec6e235e Uploaded petrn parents: diff changeset	8 + low confidence satellites
f6ebec6e235e Uploaded petrn parents: diff changeset	9 + potential LTR elements
f6ebec6e235e Uploaded petrn parents: diff changeset	10 + rDNA
f6ebec6e235e Uploaded petrn parents: diff changeset	11 + other clusters
f6ebec6e235e Uploaded petrn parents: diff changeset	12 Each cluster for which consensus sequences was reconstructed has also its own detailed report, linked to the main report.
f6ebec6e235e Uploaded petrn parents: diff changeset	13
f6ebec6e235e Uploaded petrn parents: diff changeset	14 * Main HTML report
f6ebec6e235e Uploaded petrn parents: diff changeset	15 This report contains basic information about all clusters larger than specified threshold (default value is 0.01% of analyzed reads)
f6ebec6e235e Uploaded petrn parents: diff changeset	16 ** Table legend
f6ebec6e235e Uploaded petrn parents: diff changeset	17 + Cluster :: Cluster identifier
f6ebec6e235e Uploaded petrn parents: diff changeset	18 + Genome Proportion[%] :: /(Number of sequences in cluster/Number of sequences in clustering) x 100%/
f6ebec6e235e Uploaded petrn parents: diff changeset	19 + Size :: Number of reads in the cluster
f6ebec6e235e Uploaded petrn parents: diff changeset	20 + Satellite probability :: Empirical probability estimate that cluster sequences
f6ebec6e235e Uploaded petrn parents: diff changeset	21 are derived from satellite repeat. This estimate is based on analysis of more
f6ebec6e235e Uploaded petrn parents: diff changeset	22 than xxx clusters including yyy manually anotated and zzz experimentaly
f6ebec6e235e Uploaded petrn parents: diff changeset	23 validated satellite repeats
f6ebec6e235e Uploaded petrn parents: diff changeset	24 + Consensus :: Consensus sequence is outcome of kmer-based
f6ebec6e235e Uploaded petrn parents: diff changeset	25 analysis and represents the most probable satellite monomer
f6ebec6e235e Uploaded petrn parents: diff changeset	26 sequence
f6ebec6e235e Uploaded petrn parents: diff changeset	27 + Kmer analysis ::
f6ebec6e235e Uploaded petrn parents: diff changeset	28 link to analysis report for individual clusters
f6ebec6e235e Uploaded petrn parents: diff changeset	29 + Graph layout :: Graph-based visualization of similarities among sequence
f6ebec6e235e Uploaded petrn parents: diff changeset	30 reads
f6ebec6e235e Uploaded petrn parents: diff changeset	31 + Connected component index :: Proportion of nodes of the graph which are part
f6ebec6e235e Uploaded petrn parents: diff changeset	32 of the the largest strongly connected component
f6ebec6e235e Uploaded petrn parents: diff changeset	33 + Pair completeness index :: Proportion of reads with available
f6ebec6e235e Uploaded petrn parents: diff changeset	34 mate-pair within the same cluster
f6ebec6e235e Uploaded petrn parents: diff changeset	35 + Kmer coverage :: Sum of relative frequencies of all kmers used for consensus
f6ebec6e235e Uploaded petrn parents: diff changeset	36 sequence reconstruction
f6ebec6e235e Uploaded petrn parents: diff changeset	37 + \|V\| :: Number of vertices of the graph
f6ebec6e235e Uploaded petrn parents: diff changeset	38 + \|E\| :: Number of edges of the graph
f6ebec6e235e Uploaded petrn parents: diff changeset	39 + PBS score :: Primer binding site detection score
f6ebec6e235e Uploaded petrn parents: diff changeset	40 + The longest ORF length :: Length of the longest open reading frame found in
f6ebec6e235e Uploaded petrn parents: diff changeset	41 any of the possible six reading frames. Search was done on dimer of
f6ebec6e235e Uploaded petrn parents: diff changeset	42 consensus so ORFs can be longer than 'monomer' length
f6ebec6e235e Uploaded petrn parents: diff changeset	43 + Similarity-based annotation :: Annotation based on
f6ebec6e235e Uploaded petrn parents: diff changeset	44 similarity search using blastn/blastx against database of known
f6ebec6e235e Uploaded petrn parents: diff changeset	45 repeats.
f6ebec6e235e Uploaded petrn parents: diff changeset	46 * Detailed cluster report
f6ebec6e235e Uploaded petrn parents: diff changeset	47 Cluster report includes a list of major monomer sequence varinats reconstructed from the most frequent k-mers. The reconstructed consensus sequences are sorted based on their significance (that is, what proportion of k-mer they represent).
f6ebec6e235e Uploaded petrn parents: diff changeset	48 ** Table legend
f6ebec6e235e Uploaded petrn parents: diff changeset	49 - kmer :: length of kmer used for consensus reconstruction.
f6ebec6e235e Uploaded petrn parents: diff changeset	50 - variant :: identifier of consensus variant.
f6ebec6e235e Uploaded petrn parents: diff changeset	51 - total score :: measure of significance of consensus variant. Score is calculated as a sum of weights of all k-mers used for consensus reconstruction.
f6ebec6e235e Uploaded petrn parents: diff changeset	52 - monomer length :: length of the consensus
f6ebec6e235e Uploaded petrn parents: diff changeset	53 - consensus :: consensus sequence without ambiguous bases.
f6ebec6e235e Uploaded petrn parents: diff changeset	54 - graph image :: part of de-Bruijn graph based on the abundant k-mers. Size of
f6ebec6e235e Uploaded petrn parents: diff changeset	55 vertices corresponds to k-mer frequencies, Paths in the graph which was used
f6ebec6e235e Uploaded petrn parents: diff changeset	56 for reconstruction of consensus sequences is gray colored.
f6ebec6e235e Uploaded petrn parents: diff changeset	57 - logo image :: consensus sequences shown as DNA logo. Height of letters corresponds to kmer frequencies. Logo images are linked to corresponding position probability matrices.
f6ebec6e235e Uploaded petrn parents: diff changeset	58
f6ebec6e235e Uploaded petrn parents: diff changeset	59 * Structure of the output archive
f6ebec6e235e Uploaded petrn parents: diff changeset	60 Complete results from TAREAN analysis can by downloaded as zip archive which contains the following
f6ebec6e235e Uploaded petrn parents: diff changeset	61 files and directories:
f6ebec6e235e Uploaded petrn parents: diff changeset	62
f6ebec6e235e Uploaded petrn parents: diff changeset	63 #+BEGIN_SRC files & directories
f6ebec6e235e Uploaded petrn parents: diff changeset	64 .
f6ebec6e235e Uploaded petrn parents: diff changeset	65 .
f6ebec6e235e Uploaded petrn parents: diff changeset	66 ├── clusters_info.csv <------------ list of clusters in tab delimited format
f6ebec6e235e Uploaded petrn parents: diff changeset	67 ├── index.html <------------ main html report
f6ebec6e235e Uploaded petrn parents: diff changeset	68 ├── seqclust
f6ebec6e235e Uploaded petrn parents: diff changeset	69 │ ├── assembly # not implemented yet
f6ebec6e235e Uploaded petrn parents: diff changeset	70 │ ├── blastn <------------ results of read comparison with DNA database
f6ebec6e235e Uploaded petrn parents: diff changeset	71 │ ├── blastx <------------ results of read comparison with protein database
f6ebec6e235e Uploaded petrn parents: diff changeset	72 │ ├── clustering
f6ebec6e235e Uploaded petrn parents: diff changeset	73 │ │ ├── clusters
f6ebec6e235e Uploaded petrn parents: diff changeset	74 │ │ │ ├── dir_CL0001 <----┐- detailed information about clusters
f6ebec6e235e Uploaded petrn parents: diff changeset	75 │ │ │ ├── dir_CL0002 <----│
f6ebec6e235e Uploaded petrn parents: diff changeset	76 │ │ │ ├── dir_CL0003 <----│
f6ebec6e235e Uploaded petrn parents: diff changeset	77 │ │ │ .... <----┘
f6ebec6e235e Uploaded petrn parents: diff changeset	78 │ │ │
f6ebec6e235e Uploaded petrn parents: diff changeset	79 │ │ └── hitsort.cls <--------- list of reads in individual clusters
f6ebec6e235e Uploaded petrn parents: diff changeset	80 │ ├── mgblast
f6ebec6e235e Uploaded petrn parents: diff changeset	81 │ ├── prerun
f6ebec6e235e Uploaded petrn parents: diff changeset	82 │ └── sequences <--------- input reads
f6ebec6e235e Uploaded petrn parents: diff changeset	83 ├── summary # not implemented yet
f6ebec6e235e Uploaded petrn parents: diff changeset	84 ├── TR_consensus_rank_1_.fasta <-- reconstructed monomer sequences for HIGH confidence satellites
f6ebec6e235e Uploaded petrn parents: diff changeset	85 ├── TR_consensus_rank_2_.fasta <-- reconstructed monomer sequences for LOW confidence satellites
f6ebec6e235e Uploaded petrn parents: diff changeset	86 ├── TR_consensus_rank_3_.fasta <-- reconstructed sequences of potential LTR elements
f6ebec6e235e Uploaded petrn parents: diff changeset	87 └── TR_consensus_rank_4_.fasta <-- reconstructed consensus for rDNA
f6ebec6e235e Uploaded petrn parents: diff changeset	88
f6ebec6e235e Uploaded petrn parents: diff changeset	89 #+END_SRC
f6ebec6e235e Uploaded petrn parents: diff changeset	90
f6ebec6e235e Uploaded petrn parents: diff changeset	91 List of all clusters which is available in HTML file =index.html= is also
f6ebec6e235e Uploaded petrn parents: diff changeset	92 available in tab delimited format in the file =clusters_info.csv= which can be
f6ebec6e235e Uploaded petrn parents: diff changeset	93 easily viewed and edited in spreadsheet editing programs. List of all clusters
f6ebec6e235e Uploaded petrn parents: diff changeset	94 and the corresponding reads is in the file =hitsort.cls= which has the following
f6ebec6e235e Uploaded petrn parents: diff changeset	95 format:
f6ebec6e235e Uploaded petrn parents: diff changeset	96
f6ebec6e235e Uploaded petrn parents: diff changeset	97 : >CL1 11
f6ebec6e235e Uploaded petrn parents: diff changeset	98 : 134234r 55494f 85525f 136746r 96742f 91926f 239729r 105445f 222518r 136402r 9013
f6ebec6e235e Uploaded petrn parents: diff changeset	99 : >CL2 10
f6ebec6e235e Uploaded petrn parents: diff changeset	100 : 76205r 120735r 69527r 12235r 176778f 189307f 131952f 163507f 100038r 178475r
f6ebec6e235e Uploaded petrn parents: diff changeset	101 : >CL3 6
f6ebec6e235e Uploaded petrn parents: diff changeset	102 : 99835r 222598f 29715r 102023f 99524r 30116f
f6ebec6e235e Uploaded petrn parents: diff changeset	103 : >CL4 6
f6ebec6e235e Uploaded petrn parents: diff changeset	104 : 51723r 69073r 218774r 146425f 136314r 41744f
f6ebec6e235e Uploaded petrn parents: diff changeset	105 : >CL5 5
f6ebec6e235e Uploaded petrn parents: diff changeset	106 : 70686f 65565f 234078r 50430r 68247r
f6ebec6e235e Uploaded petrn parents: diff changeset	107
f6ebec6e235e Uploaded petrn parents: diff changeset	108 where =CL1 11= is the cluster ID followed by number of reads in the cluster;
f6ebec6e235e Uploaded petrn parents: diff changeset	109 next line contains list of all read names belonging to the cluster.
f6ebec6e235e Uploaded petrn parents: diff changeset	110 ** structure of cluster directories
f6ebec6e235e Uploaded petrn parents: diff changeset	111
f6ebec6e235e Uploaded petrn parents: diff changeset	112 Detailed information for each cluster is stored is subdirectories:
f6ebec6e235e Uploaded petrn parents: diff changeset	113
f6ebec6e235e Uploaded petrn parents: diff changeset	114 #+BEGIN_SRC folder directories
f6ebec6e235e Uploaded petrn parents: diff changeset	115 dir_CL0011
f6ebec6e235e Uploaded petrn parents: diff changeset	116 ├── blast.csv <------------tab delimited file, all-to-all comparison od reads within cluster
f6ebec6e235e Uploaded petrn parents: diff changeset	117 ├── CL11_directed_graph.RData <----directed graph representation of cluster saved as R igraph object
f6ebec6e235e Uploaded petrn parents: diff changeset	118 ├── CL11.GL <-----------------undirected graph representation of cluster saved as R igraph object
f6ebec6e235e Uploaded petrn parents: diff changeset	119 ├── CL11.png <-----------┐- images with graph visualization
f6ebec6e235e Uploaded petrn parents: diff changeset	120 ├── CL11_tmb.png <-----------┘
f6ebec6e235e Uploaded petrn parents: diff changeset	121 ├── dna_database_annotation.csv <-- annotation of cluster reads based on the DNA database of repeats
f6ebec6e235e Uploaded petrn parents: diff changeset	122 ├── reads_all.fas <---------------- all reads included in the cluster in fasta format
f6ebec6e235e Uploaded petrn parents: diff changeset	123 ├── reads.fas <---------------- subset of reads used for monomer reconstruction
f6ebec6e235e Uploaded petrn parents: diff changeset	124 ├── reads_oriented.fas <------------ subset of reads all in the same orientation
f6ebec6e235e Uploaded petrn parents: diff changeset	125 └── tarean
f6ebec6e235e Uploaded petrn parents: diff changeset	126 ├── consensus.fasta <----------- fasta file with tandem repeat consensus variants
f6ebec6e235e Uploaded petrn parents: diff changeset	127 ├── ggmin.RData
f6ebec6e235e Uploaded petrn parents: diff changeset	128 ├── img
f6ebec6e235e Uploaded petrn parents: diff changeset	129 │ ├── graph_11mer_1.png <-----┐
f6ebec6e235e Uploaded petrn parents: diff changeset	130 │ ├── graph_11mer_2.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	131 │ ├── graph_15mer_2.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	132 │ ├── graph_15mer_3.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	133 │ ├── graph_15mer_4.png <-----│ images of kmer-based graphs used for reconstruction of
f6ebec6e235e Uploaded petrn parents: diff changeset	134 │ ├── graph_19mer_2.png <-----│ monomer variants
f6ebec6e235e Uploaded petrn parents: diff changeset	135 │ ├── graph_19mer_4.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	136 │ ├── graph_19mer_5.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	137 │ ├── graph_23mer_2.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	138 │ ├── graph_27mer_3.png <-----┘
f6ebec6e235e Uploaded petrn parents: diff changeset	139 │ │
f6ebec6e235e Uploaded petrn parents: diff changeset	140 │ ├── logo_11mer_1.png <-----┐
f6ebec6e235e Uploaded petrn parents: diff changeset	141 │ ├── logo_11mer_2.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	142 │ ├── logo_15mer_2.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	143 │ ├── logo_15mer_3.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	144 │ ├── logo_15mer_4.png <-----│ images with DNA logos representing consensus sequences
f6ebec6e235e Uploaded petrn parents: diff changeset	145 │ ├── logo_19mer_2.png <-----│ of monomer variants
f6ebec6e235e Uploaded petrn parents: diff changeset	146 │ ├── logo_19mer_4.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	147 │ ├── logo_19mer_5.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	148 │ ├── logo_23mer_2.png <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	149 │ └── logo_27mer_3.png <-----┘
f6ebec6e235e Uploaded petrn parents: diff changeset	150 │
f6ebec6e235e Uploaded petrn parents: diff changeset	151 ├── ppm_11mer_1.csv <-----┐
f6ebec6e235e Uploaded petrn parents: diff changeset	152 ├── ppm_11mer_2.csv <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	153 ├── ppm_15mer_2.csv <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	154 ├── ppm_15mer_3.csv <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	155 ├── ppm_15mer_4.csv <-----│ position probability matrices for individual monomer
f6ebec6e235e Uploaded petrn parents: diff changeset	156 ├── ppm_19mer_2.csv <-----│ variants derived from k-mer frequencies
f6ebec6e235e Uploaded petrn parents: diff changeset	157 ├── ppm_19mer_4.csv <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	158 ├── ppm_19mer_5.csv <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	159 ├── ppm_23mer_2.csv <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	160 ├── ppm_27mer_3.csv <-----┘
f6ebec6e235e Uploaded petrn parents: diff changeset	161 │
f6ebec6e235e Uploaded petrn parents: diff changeset	162 ├── reads_oriented.fas_11.kmers <-----┐
f6ebec6e235e Uploaded petrn parents: diff changeset	163 ├── reads_oriented.fas_15.kmers <-----│
f6ebec6e235e Uploaded petrn parents: diff changeset	164 ├── reads_oriented.fas_19.kmers <-----│ k-mer frequencies calculated on oriented reads
f6ebec6e235e Uploaded petrn parents: diff changeset	165 ├── reads_oriented.fas_23.kmers <-----│ for k-mer lengths 11 - 27
f6ebec6e235e Uploaded petrn parents: diff changeset	166 ├── reads_oriented.fas_27.kmers <-----┘
f6ebec6e235e Uploaded petrn parents: diff changeset	167 ├── reads_oriented.fasblast_out.cvs <---------┐results of blastn search against database of tRNA
f6ebec6e235e Uploaded petrn parents: diff changeset	168 ├── reads_oriented.fasblast_out.cvs_L.csv <----│for purposes of LTR detection
f6ebec6e235e Uploaded petrn parents: diff changeset	169 ├── reads_oriented.fasblast_out.cvs_R.csv <----┘
f6ebec6e235e Uploaded petrn parents: diff changeset	170 └── report.html <--- cluster analysisHTML summary
f6ebec6e235e Uploaded petrn parents: diff changeset	171 #+END_SRC
f6ebec6e235e Uploaded petrn parents: diff changeset	172
f6ebec6e235e Uploaded petrn parents: diff changeset	173
f6ebec6e235e Uploaded petrn parents: diff changeset	174

Mercurial > repos > petrn > repeatexplorer

annotate lib/tarean_output_help.org @ 5:7e55ef6f9a05 draft