mutation_analysis: sequence_overview.r comparison

comparison sequence_overview.r @ 90:f0e8dac22c6e draft

Uploaded

author	davidvanzessen
date	Wed, 01 Jun 2016 05:03:24 -0400
parents	480fdd383fdb
children	5e237c243088

comparison

equal deleted inserted replaced

-:480fdd383fdb
+:f0e8dac22c6e
 library(reshape2)
 args <- commandArgs(trailingOnly = TRUE)
-gene.matches = args[1]
+input.file = args[1]
-sequence.file = args[2]
+outputdir = args[2]
-merged.file = args[3]
+gene.classes = unlist(strsplit(args[3], ","))
-outputdir = args[4]
+hotspot.analysis.sum.file = args[4]
-gene.classes = unlist(strsplit(args[5], ","))
-hotspot.analysis.sum.file = args[6]
 NToverview.file = paste(outputdir, "ntoverview.txt", sep="/")
 NTsum.file = paste(outputdir, "ntsum.txt", sep="/")
 main.html = "index.html"
 setwd(outputdir)
-genes = read.table(gene.matches, header=T, sep="\t", fill=T)
+merged = read.table(input.file, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
-sequences = read.table(sequence.file, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
-merged = read.table(merged.file, header=T, sep="\t", fill=T, stringsAsFactors=F, quote="")
 hotspot.analysis.sum = read.table(hotspot.analysis.sum.file, header=F, sep=",", fill=T, stringsAsFactors=F, quote="")
-dat = merge(sequences, genes, by="Sequence.ID")
+merged$seq_conc = paste(merged$CDR1.IMGT.seq, merged$FR2.IMGT.seq, merged$CDR2.IMGT.seq, merged$FR3.IMGT.seq, merged$CDR3.IMGT.seq)
-dat = dat[dat$Sequence.ID %in% merged$Sequence.ID,]
+IDs = merged[,c("Sequence.ID", "seq_conc", "best_match", "Functionality")]
-dat$seq_conc = paste(dat$CDR1.IMGT, dat$FR2.IMGT, dat$CDR2.IMGT, dat$FR3.IMGT, dat$CDR3.IMGT)
-#dat$seq_conc = paste(dat$CDR1.IMGT, dat$CDR2.IMGT, dat$CDR3.IMGT)
-IDs = dat[,c("Sequence.ID", "seq_conc", "best_match", "Functionality")]
 IDs$best_match = as.character(IDs$best_match)
 #dat = data.frame(data.table(dat)[, list(freq=.N), by=c("best_match", "seq_conc")])
-dat = data.frame(table(dat$seq_conc, dat$Functionality))
+dat = data.frame(table(merged$seq_conc, merged$Functionality))
 #dat = dat[dat$Freq > 1,]
 names(dat) = c("seq_conc", "Functionality", "Freq")
 #ACGT overview
-NToverview = genes[,c("Sequence.ID", "best_match")]
+NToverview = merged
-sequences$seq = paste(sequences$CDR1.IMGT, sequences$FR2.IMGT, sequences$CDR2.IMGT, sequences$FR3.IMGT, sep="_")
+NToverview$seq = paste(NToverview$CDR1.IMGT.seq, NToverview$FR2.IMGT.seq, NToverview$CDR2.IMGT.seq, NToverview$FR3.IMGT.seq, sep="_")
-NToverview = merge(NToverview, sequences[,c("Sequence.ID", "seq")], by="Sequence.ID")
-NToverview = NToverview[NToverview$Sequence.ID %in% merged$Sequence.ID,]
 NToverview$A = nchar(gsub("[^Aa]", "", NToverview$seq))
 NToverview$C = nchar(gsub("[^Cc]", "", NToverview$seq))
 NToverview$G = nchar(gsub("[^Gg]", "", NToverview$seq))
 NToverview$T = nchar(gsub("[^Tt]", "", NToverview$seq))
+print(sum(colSums(NToverview[,c("A", "C", "T", "G")])))
 #Nsum = data.frame(Sequence.ID="-", best_match="Sum", seq="-", A = sum(NToverview$A), C = sum(NToverview$C), G = sum(NToverview$G), T = sum(NToverview$T))
 #NToverview = rbind(NToverview, NTsum)

Mercurial > repos > davidvanzessen > mutation_analysis

comparison sequence_overview.r @ 90:f0e8dac22c6e draft