clonal_sequences_in_paired_samples: RScript.r annotate

annotate RScript.r @ 15:d137974763b3 draft

Uploaded

author	davidvanzessen
date	Thu, 05 Feb 2015 07:57:21 -0500
parents	1735e91a8f4b
children	7a9debac9a97

rev	line source
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	1 args <- commandArgs(trailingOnly = TRUE)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	2
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	3 inFile = args[1]
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	4 outDir = args[2]
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	5 logfile = args[3]
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	6 min_freq = as.numeric(args[4])
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	7 min_cells = as.numeric(args[5])
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	8
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	9 cat("<html><table><tr><td>Starting analysis</td></tr>", file=logfile, append=F)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	10
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	11 library(ggplot2)
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	12 library(reshape2)
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	13 library(data.table)
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	14 library(grid)
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	15 library(parallel)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	16 #require(xtable)
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	17 cat("<tr><td>Reading input</td></tr>", file=logfile, append=T)
13 576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	18 dat = read.table(inFile, header=T, sep="\t", dec=".", fill=T, stringsAsFactors=F)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	19 dat = dat[!is.na(dat$Patient),]
13 576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	20 dat$Related_to_leukemia_clone = F
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	21
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	22 setwd(outDir)
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	23 write(paste("TMP='", outDir, "'"), file=file.path(Sys.getenv('R_USER'), '.Renviron'))
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	24 cat("<tr><td>Selecting first V/J Genes</td></tr>", file=logfile, append=T)
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	25 dat$V_Segment_Major_Gene = as.factor(as.character(lapply(strsplit(as.character(dat$V_Segment_Major_Gene), "; "), "[[", 1)))
8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	26 dat$J_Segment_Major_Gene = as.factor(as.character(lapply(strsplit(as.character(dat$J_Segment_Major_Gene), "; "), "[[", 1)))
8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	27
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	28 cat("<tr><td>Calculating Frequency</td></tr>", file=logfile, append=T)
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	29
13 576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	30 dat$Frequency = ((10^dat$Log10_Frequency)*100)
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	31
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	32 dat = dat[dat$Frequency >= min_freq,]
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	33
13 576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	34 triplets = dat[grepl("VanDongen_cALL_14696", dat$Patient) \| grepl("(16278)\|(26402)\|(26759)", dat$Sample),]
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	35
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	36 cat("<tr><td>Normalizing to lowest cell count within locus</td></tr>", file=logfile, append=T)
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	37
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	38 dat$locus_V = substring(dat$V_Segment_Major_Gene, 0, 4)
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	39 dat$locus_J = substring(dat$J_Segment_Major_Gene, 0, 4)
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	40 min_cell_count = data.frame(data.table(dat)[, list(min_cell_count=min(.SD$Cell_Count)), by=c("Patient", "locus_V", "locus_J")])
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	41
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	42 dat$min_cell_paste = paste(dat$Patient, dat$locus_V, dat$locus_J)
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	43 min_cell_count$min_cell_paste = paste(min_cell_count$Patient, min_cell_count$locus_V, min_cell_count$locus_J)
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	44
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	45 min_cell_count = min_cell_count[,c("min_cell_paste", "min_cell_count")]
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	46
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	47 dat = merge(dat, min_cell_count, by="min_cell_paste")
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	48
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	49 dat$normalized_read_count = round(dat$Clone_Molecule_Count_From_Spikes / dat$Cell_Count * dat$min_cell_count / 2, digits=2) #??????????????????????????????????? wel of geen / 2
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	50
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	51 dat = dat[dat$normalized_read_count >= min_cells,]
13 576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	52
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	53 dat$paste = paste(dat$Sample, dat$Clone_Sequence)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	54
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	55 patients = split(dat, dat$Patient, drop=T)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	56 intervalReads = rev(c(0,10,25,50,100,250,500,750,1000,10000))
6 8313c6cc65c5 Uploaded davidvanzessen parents: 5 diff changeset	57 intervalFreq = rev(c(0,0.01,0.05,0.1,0.5,1,5))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	58 V_Segments = c(".*", "IGHV", "IGHD", "IGKV", "IGKV", "IgKINTR", "TRGV", "TRDV", "TRDD" , "TRBV")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	59 J_Segments = c(".", ".", ".", "IGKJ", "KDE", ".", ".", ".", ".", ".")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	60 Titles = c("Total", "IGH-Vh-Jh", "IGH-Dh-Jh", "Vk-Jk", "Vk-Kde" , "Intron-Kde", "TCRG", "TCRD-Vd-Dd", "TCRD-Dd-Dd", "TCRB-Vb-Jb")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	61 Titles = factor(Titles, levels=Titles)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	62 TitlesOrder = data.frame("Title"=Titles, "TitlesOrder"=1:length(Titles))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	63
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	64 patientCountOnColumn <- function(x, product, interval, on, appendtxt=F){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	65 x$Sample = factor(x$Sample, levels=unique(x$Sample))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	66 onShort = "reads"
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	67 if(on == "Frequency"){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	68 onShort = "freq"
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	69 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	70 splt = split(x, x$Sample, drop=T)
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	71 type="pair"
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	72 if(length(splt) == 1){
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	73 print(paste(paste(x[1,which(colnames(x) == "Patient")]), "has one sample"))
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	74 splt[[2]] = data.frame("Patient" = character(0), "Receptor" = character(0), "Sample" = character(0), "Cell_Count" = numeric(0), "Clone_Molecule_Count_From_Spikes" = numeric(0), "Log10_Frequency" = numeric(0), "Total_Read_Count" = numeric(0), "dsMol_per_1e6_cells" = numeric(0), "J_Segment_Major_Gene" = character(0), "V_Segment_Major_Gene" = character(0), "Clone_Sequence" = character(0), "CDR3_Sense_Sequence" = character(0), "Related_to_leukemia_clone" = logical(0), "Frequency"= numeric(0), "normalized_read_count" = numeric(0), "paste" = character(0))
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	75 type="single"
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	76 }
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	77 patient1 = splt[[1]]
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	78 patient2 = splt[[2]]
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	79
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	80 threshholdIndex = which(colnames(product) == "interval")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	81 V_SegmentIndex = which(colnames(product) == "V_Segments")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	82 J_SegmentIndex = which(colnames(product) == "J_Segments")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	83 titleIndex = which(colnames(product) == "Titles")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	84 sampleIndex = which(colnames(x) == "Sample")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	85 patientIndex = which(colnames(x) == "Patient")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	86 oneSample = paste(patient1[1,sampleIndex], sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	87 twoSample = paste(patient2[1,sampleIndex], sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	88 patient = paste(x[1,patientIndex])
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	89
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	90 switched = F
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	91 if(length(grep("._Right$", twoSample)) == 1 \|\| length(grep("._Dx_BM$", twoSample)) == 1 \|\| length(grep(".*_Dx$", twoSample)) == 1 ){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	92 tmp = twoSample
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	93 twoSample = oneSample
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	94 oneSample = tmp
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	95 tmp = patient1
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	96 patient1 = patient2
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	97 patient2 = tmp
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	98 switched = T
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	99 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	100 if(appendtxt){
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	101 cat(paste(patient, oneSample, twoSample, type, sep="\t"), file="patients.txt", append=T, sep="", fill=3)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	102 }
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	103 cat(paste("<tr><td>", patient, "</td></tr>", sep=""), file=logfile, append=T)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	104
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	105 #patient1$merge = paste(patient1$V_Segment_Major_Gene, patient1$J_Segment_Major_Gene, patient1$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	106 #patient2$merge = paste(patient2$V_Segment_Major_Gene, patient2$J_Segment_Major_Gene, patient2$CDR3_Sense_Sequence)
13 576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	107 patient1$merge = paste(patient1$Clone_Sequence)
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	108 patient2$merge = paste(patient2$Clone_Sequence)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	109
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	110 #patientMerge = merge(patient1, patient2, by.x="merge", by.y="merge")
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	111 patientMerge = merge(patient1, patient2, by.x="merge", by.y="merge")
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	112 res1 = vector()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	113 res2 = vector()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	114 resBoth = vector()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	115 read1Count = vector()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	116 read2Count = vector()
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	117 locussum1 = vector()
8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	118 locussum2 = vector()
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	119
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	120 print(patient)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	121 #for(iter in 1){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	122 for(iter in 1:length(product[,1])){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	123 threshhold = product[iter,threshholdIndex]
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	124 V_Segment = paste(".", as.character(product[iter,V_SegmentIndex]), ".", sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	125 J_Segment = paste(".", as.character(product[iter,J_SegmentIndex]), ".", sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	126 both = (grepl(V_Segment, patientMerge$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge$J_Segment_Major_Gene.x) & patientMerge[,paste(on, ".x", sep="")] > threshhold & patientMerge[,paste(on, ".y", sep="")] > threshhold)
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	127 one = (grepl(V_Segment, patient1$V_Segment_Major_Gene) & grepl(J_Segment, patient1$J_Segment_Major_Gene) & patient1[,on] > threshhold & !(patient1$Clone_Sequence %in% patientMerge[both,]$Clone_Sequence.x))
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	128 two = (grepl(V_Segment, patient2$V_Segment_Major_Gene) & grepl(J_Segment, patient2$J_Segment_Major_Gene) & patient2[,on] > threshhold & !(patient2$Clone_Sequence %in% patientMerge[both,]$Clone_Sequence.x))
14 1735e91a8f4b Uploaded davidvanzessen parents: 13 diff changeset	129 read1Count = append(read1Count, sum(patient1[one,]$normalized_read_count))
1735e91a8f4b Uploaded davidvanzessen parents: 13 diff changeset	130 read2Count = append(read2Count, sum(patient2[two,]$normalized_read_count))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	131 res1 = append(res1, sum(one))
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	132 res2 = append(res2, sum(two))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	133 resBoth = append(resBoth, sum(both))
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	134 locussum1 = append(locussum1, sum(patient1[(grepl(V_Segment, patient1$V_Segment_Major_Gene) & grepl(J_Segment, patient1$J_Segment_Major_Gene)),]$normalized_read_count))
8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	135 locussum2 = append(locussum2, sum(patient2[(grepl(V_Segment, patient2$V_Segment_Major_Gene) & grepl(J_Segment, patient2$J_Segment_Major_Gene)),]$normalized_read_count))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	136 #threshhold = 0
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	137 if(threshhold != 0){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	138 if(sum(one) > 0){
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	139 dfOne = patient1[one,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")]
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	140 colnames(dfOne) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "Clone Sequence", "Related_to_leukemia_clone")
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	141 filenameOne = paste(oneSample, "_", product[iter, titleIndex], "_", threshhold, sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	142 write.table(dfOne, file=paste(filenameOne, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	143 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	144 if(sum(two) > 0){
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	145 dfTwo = patient2[two,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")]
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	146 colnames(dfTwo) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "Clone Sequence", "Related_to_leukemia_clone")
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	147 filenameTwo = paste(twoSample, "_", product[iter, titleIndex], "_", threshhold, sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	148 write.table(dfTwo, file=paste(filenameTwo, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	149 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	150 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	151 if(sum(both) > 0){
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	152 dfBoth = patientMerge[both,c("V_Segment_Major_Gene.x", "J_Segment_Major_Gene.x", "normalized_read_count.x", "Frequency.x", "Related_to_leukemia_clone.x", "Clone_Sequence.x", "V_Segment_Major_Gene.y", "J_Segment_Major_Gene.y", "normalized_read_count.y", "Frequency.y", "Related_to_leukemia_clone.y")]
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	153 colnames(dfBoth) = c(paste("Proximal segment", oneSample), paste("Distal segment", oneSample), paste("Normalized_Read_Count", oneSample), paste("Frequency", oneSample), paste("Related_to_leukemia_clone", oneSample),"Clone Sequence", paste("Proximal segment", twoSample), paste("Distal segment", twoSample), paste("Normalized_Read_Count", twoSample), paste("Frequency", twoSample), paste("Related_to_leukemia_clone", twoSample))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	154 filenameBoth = paste(oneSample, "_", twoSample, "_", product[iter, titleIndex], "_", threshhold, sep="")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	155 write.table(dfBoth, file=paste(filenameBoth, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	156 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	157 }
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	158 patientResult = data.frame("Locus"=product$Titles, "J_Segment"=product$J_Segments, "V_Segment"=product$V_Segments, "cut_off_value"=paste(">", product$interval, sep=""), "Both"=resBoth, "tmp1"=res1, "read_count1" = round(read1Count), "tmp2"=res2, "read_count2"= round(read2Count), "Sum"=res1 + res2 + resBoth, "percentage" = round((resBoth/(res1 + res2 + resBoth)) * 100, digits=2), "Locus_sum1"=locussum1, "Locus_sum2"=locussum2)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	159 if(sum(is.na(patientResult$percentage)) > 0){
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	160 patientResult[is.na(patientResult$percentage),]$percentage = 0
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	161 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	162 colnames(patientResult)[6] = oneSample
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	163 colnames(patientResult)[8] = twoSample
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	164 colnamesBak = colnames(patientResult)
2 8d562506f4f9 Uploaded davidvanzessen parents: 0 diff changeset	165 colnames(patientResult) = c("Ig/TCR gene rearrangement type", "Distal Gene segment", "Proximal gene segment", "cut_off_value", paste("Number of sequences ", patient, "_Both", sep=""), paste("Number of sequences", oneSample, sep=""), paste("Normalized Read Count", oneSample), paste("Number of sequences", twoSample, sep=""), paste("Normalized Read Count", twoSample), paste("Sum number of sequences", patient), paste("Percentage of sequences ", patient, "_Both", sep=""), paste("Locus Sum", oneSample), paste("Locus Sum", twoSample))
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	166 write.table(patientResult, file=paste(patient, "_", onShort, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	167 colnames(patientResult) = colnamesBak
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	168
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	169 patientResult$Locus = factor(patientResult$Locus, Titles)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	170 patientResult$cut_off_value = factor(patientResult$cut_off_value, paste(">", interval, sep=""))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	171
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	172 plt = ggplot(patientResult[,c("Locus", "cut_off_value", "Both")])
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	173 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=Both), stat='identity', position="dodge", fill="#79c36a")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	174 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	175 plt = plt + geom_text(aes(ymax=max(Both), x=cut_off_value,y=Both,label=Both), angle=90, hjust=0)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	176 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("Number of clones in both")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	177 plt = plt + theme(plot.margin = unit(c(1,8.8,0.5,1.5), "lines"))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	178 png(paste(patient, "_", onShort, ".png", sep=""), width=1920, height=1080)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	179 print(plt)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	180 dev.off()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	181 #(t,r,b,l)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	182 plt = ggplot(patientResult[,c("Locus", "cut_off_value", "percentage")])
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	183 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=percentage), stat='identity', position="dodge", fill="#79c36a")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	184 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	185 plt = plt + geom_text(aes(ymax=max(percentage), x=cut_off_value,y=percentage,label=percentage), angle=90, hjust=0)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	186 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("% clones in both left and right")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	187 plt = plt + theme(plot.margin = unit(c(1,8.8,0.5,1.5), "lines"))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	188 png(paste(patient, "_percent_", onShort, ".png", sep=""), width=1920, height=1080)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	189 print(plt)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	190 dev.off()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	191
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	192 patientResult = melt(patientResult[,c('Locus','cut_off_value', oneSample, twoSample)] ,id.vars=1:2)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	193 patientResult$relativeValue = patientResult$value * 10
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	194 patientResult[patientResult$relativeValue == 0,]$relativeValue = 1
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	195 plt = ggplot(patientResult)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	196 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=relativeValue, fill=variable), stat='identity', position="dodge")
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	197 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	198 plt = plt + scale_y_continuous(trans="log", breaks=10^c(0:10), labels=c(0, 10^c(0:9)))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	199 plt = plt + geom_text(data=patientResult[patientResult$variable == oneSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=-0.2)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	200 plt = plt + geom_text(data=patientResult[patientResult$variable == twoSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=0.8)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	201 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle(paste("Number of clones in only ", oneSample, " and only ", twoSample, sep=""))
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	202 png(paste(patient, "_", onShort, "_both.png", sep=""), width=1920, height=1080)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	203 print(plt)
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	204 dev.off()
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	205 }
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	206
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	207 cat("<tr><td>Starting Frequency analysis</td></tr>", file=logfile, append=T)
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	208
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	209 interval = intervalFreq
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	210 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	211 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	212 mclapply(patients, FUN=patientCountOnColumn, product = product, interval=interval, on="Frequency", appendtxt=T)
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	213
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	214 cat("<tr><td>Starting Cell Count analysis</td></tr>", file=logfile, append=T)
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	215
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	216 interval = intervalReads
c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	217 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
4 f11df36f43bb Uploaded davidvanzessen parents: 3 diff changeset	218 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	219 mclapply(patients, FUN=patientCountOnColumn, product = product, interval=interval, on="normalized_read_count")
0 c5ac9a871b26 Uploaded davidvanzessen parents: diff changeset	220
3 f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	221 cat("</table></html>", file=logfile, append=T)
f9316f7676cc Uploaded davidvanzessen parents: 2 diff changeset	222
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	223
13 576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	224
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	225 tripletAnalysis <- function(patient1, label1, patient2, label2, patient3, label3, product, interval, on, appendTriplets= FALSE){
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	226 onShort = "reads"
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	227 if(on == "Frequency"){
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	228 onShort = "freq"
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	229 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	230 type="triplet"
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	231
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	232 threshholdIndex = which(colnames(product) == "interval")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	233 V_SegmentIndex = which(colnames(product) == "V_Segments")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	234 J_SegmentIndex = which(colnames(product) == "J_Segments")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	235 titleIndex = which(colnames(product) == "Titles")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	236 sampleIndex = which(colnames(patient1) == "Sample")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	237 patientIndex = which(colnames(patient1) == "Patient")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	238 oneSample = paste(patient1[1,sampleIndex], sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	239 twoSample = paste(patient2[1,sampleIndex], sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	240 threeSample = paste(patient3[1,sampleIndex], sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	241
12 eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	242 #patient1$merge = paste(patient1$V_Segment_Major_Gene, patient1$J_Segment_Major_Gene, patient1$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	243 #patient2$merge = paste(patient2$V_Segment_Major_Gene, patient2$J_Segment_Major_Gene, patient2$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	244 #patient3$merge = paste(patient3$V_Segment_Major_Gene, patient3$J_Segment_Major_Gene, patient3$CDR3_Sense_Sequence)
eb5b569b44dd Uploaded davidvanzessen parents: 11 diff changeset	245
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	246 patient1$merge = paste(patient1$Clone_Sequence)
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	247 patient2$merge = paste(patient2$Clone_Sequence)
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	248 patient3$merge = paste(patient3$Clone_Sequence)
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	249
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	250 patientMerge = merge(patient1, patient2, by="merge")
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	251 patientMerge = merge(patientMerge, patient3, by="merge")
13 576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	252 colnames(patientMerge)[30:length(colnames(patientMerge))] = paste(colnames(patientMerge)[30:length(colnames(patientMerge))], ".z", sep="")
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	253 res1 = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	254 res2 = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	255 res3 = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	256 resAll = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	257 read1Count = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	258 read2Count = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	259 read3Count = vector()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	260
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	261 if(appendTriplets){
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	262 cat(paste(label1, label2, label3, sep="\t"), file="triplets.txt", append=T, sep="", fill=3)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	263 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	264 for(iter in 1:length(product[,1])){
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	265 threshhold = product[iter,threshholdIndex]
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	266 V_Segment = paste(".", as.character(product[iter,V_SegmentIndex]), ".", sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	267 J_Segment = paste(".", as.character(product[iter,J_SegmentIndex]), ".", sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	268 all = (grepl(V_Segment, patientMerge$V_Segment_Major_Gene.x) & grepl(J_Segment, patientMerge$J_Segment_Major_Gene.x) & patientMerge[,paste(on, ".x", sep="")] > threshhold & patientMerge[,paste(on, ".y", sep="")] > threshhold & patientMerge[,paste(on, ".z", sep="")] > threshhold)
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	269 one = (grepl(V_Segment, patient1$V_Segment_Major_Gene) & grepl(J_Segment, patient1$J_Segment_Major_Gene) & patient1[,on] > threshhold & !(patient1$Clone_Sequence %in% patientMerge[all,]$Clone_Sequence.x))
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	270 two = (grepl(V_Segment, patient2$V_Segment_Major_Gene) & grepl(J_Segment, patient2$J_Segment_Major_Gene) & patient2[,on] > threshhold & !(patient2$Clone_Sequence %in% patientMerge[all,]$Clone_Sequence.x))
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	271 three = (grepl(V_Segment, patient3$V_Segment_Major_Gene) & grepl(J_Segment, patient3$J_Segment_Major_Gene) & patient3[,on] > threshhold & !(patient3$Clone_Sequence %in% patientMerge[all,]$Clone_Sequence.x))
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	272
14 1735e91a8f4b Uploaded davidvanzessen parents: 13 diff changeset	273 read1Count = append(read1Count, sum(patient1[one,]$normalized_read_count))
1735e91a8f4b Uploaded davidvanzessen parents: 13 diff changeset	274 read2Count = append(read2Count, sum(patient2[two,]$normalized_read_count))
1735e91a8f4b Uploaded davidvanzessen parents: 13 diff changeset	275 read3Count = append(read3Count, sum(patient3[three,]$normalized_read_count))
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	276 res1 = append(res1, sum(one))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	277 res2 = append(res2, sum(two))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	278 res3 = append(res3, sum(three))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	279 resAll = append(resAll, sum(all))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	280 #threshhold = 0
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	281 if(threshhold != 0){
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	282 if(sum(one) > 0){
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	283 dfOne = patient1[one,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")]
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	284 colnames(dfOne) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "Clone Sequence", "Related_to_leukemia_clone")
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	285 filenameOne = paste(label1, "_", product[iter, titleIndex], "_", threshhold, sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	286 write.table(dfOne, file=paste(filenameOne, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	287 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	288 if(sum(two) > 0){
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	289 dfTwo = patient2[two,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")]
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	290 colnames(dfTwo) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "Clone Sequence", "Related_to_leukemia_clone")
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	291 filenameTwo = paste(label2, "_", product[iter, titleIndex], "_", threshhold, sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	292 write.table(dfTwo, file=paste(filenameTwo, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	293 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	294 if(sum(three) > 0){
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	295 dfThree = patient3[three,c("V_Segment_Major_Gene", "J_Segment_Major_Gene", "normalized_read_count", "Frequency", "Clone_Sequence", "Related_to_leukemia_clone")]
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	296 colnames(dfThree) = c("Proximal segment", "Distal segment", "normalized_read_count", "Frequency", "Clone Sequence", "Related_to_leukemia_clone")
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	297 filenameThree = paste(label3, "_", product[iter, titleIndex], "_", threshhold, sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	298 write.table(dfThree, file=paste(filenameThree, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	299 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	300 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	301 if(sum(all) > 0){
15 d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	302 dfAll = patientMerge[all,c("V_Segment_Major_Gene.x", "J_Segment_Major_Gene.x", "normalized_read_count.x", "Frequency.x", "Related_to_leukemia_clone.x", "Clone_Sequence.x", "V_Segment_Major_Gene.y", "J_Segment_Major_Gene.y", "normalized_read_count.y", "Frequency.y", "Related_to_leukemia_clone.y", "V_Segment_Major_Gene.z", "J_Segment_Major_Gene.z", "normalized_read_count.z", "Frequency.z", "Related_to_leukemia_clone.z")]
d137974763b3 Uploaded davidvanzessen parents: 14 diff changeset	303 colnames(dfAll) = c(paste("Proximal segment", oneSample), paste("Distal segment", oneSample), paste("Normalized_Read_Count", oneSample), paste("Frequency", oneSample), paste("Related_to_leukemia_clone", oneSample),"Clone Sequence", paste("Proximal segment", twoSample), paste("Distal segment", twoSample), paste("Normalized_Read_Count", twoSample), paste("Frequency", twoSample), paste("Related_to_leukemia_clone", twoSample), paste("Proximal segment", threeSample), paste("Distal segment", threeSample), paste("Normalized_Read_Count", threeSample), paste("Frequency", threeSample), paste("Related_to_leukemia_clone", threeSample))
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	304 filenameAll = paste(label1, "_", label2, "_", label3, "_", product[iter, titleIndex], "_", threshhold, sep="")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	305 write.table(dfAll, file=paste(filenameAll, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	306 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	307 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	308 patientResult = data.frame("Locus"=product$Titles, "J_Segment"=product$J_Segments, "V_Segment"=product$V_Segments, "cut_off_value"=paste(">", product$interval, sep=""), "All"=resAll, "tmp1"=res1, "read_count1" = round(read1Count), "tmp2"=res2, "read_count2"= round(read2Count), "tmp3"=res3, "read_count3"=round(read3Count))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	309 colnames(patientResult)[6] = oneSample
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	310 colnames(patientResult)[8] = twoSample
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	311 colnames(patientResult)[10] = threeSample
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	312
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	313 colnamesBak = colnames(patientResult)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	314 colnames(patientResult) = c("Ig/TCR gene rearrangement type", "Distal Gene segment", "Proximal gene segment", "cut_off_value", "Number of sequences All", paste("Number of sequences", oneSample), paste("Normalized Read Count", oneSample), paste("Number of sequences", twoSample), paste("Normalized Read Count", twoSample), paste("Number of sequences", threeSample), paste("Normalized Read Count", threeSample))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	315 write.table(patientResult, file=paste(label1, "_", label2, "_", label3, "_", onShort, ".txt", sep=""), quote=F, sep="\t", dec=",", row.names=F, col.names=T)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	316 colnames(patientResult) = colnamesBak
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	317
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	318 patientResult$Locus = factor(patientResult$Locus, Titles)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	319 patientResult$cut_off_value = factor(patientResult$cut_off_value, paste(">", interval, sep=""))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	320
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	321 plt = ggplot(patientResult[,c("Locus", "cut_off_value", "All")])
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	322 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=All), stat='identity', position="dodge", fill="#79c36a")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	323 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	324 plt = plt + geom_text(aes(ymax=max(All), x=cut_off_value,y=All,label=All), angle=90, hjust=0)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	325 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("Number of clones in All")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	326 plt = plt + theme(plot.margin = unit(c(1,8.8,0.5,1.5), "lines"))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	327 png(paste(label1, "_", label2, "_", label3, "_", onShort, "_total_all.png", sep=""), width=1920, height=1080)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	328 print(plt)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	329 dev.off()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	330
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	331 fontSize = 4
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	332
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	333 bak = patientResult
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	334 patientResult = melt(patientResult[,c('Locus','cut_off_value', oneSample, twoSample, threeSample)] ,id.vars=1:2)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	335 patientResult$relativeValue = patientResult$value * 10
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	336 patientResult[patientResult$relativeValue == 0,]$relativeValue = 1
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	337 plt = ggplot(patientResult)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	338 plt = plt + geom_bar( aes( x=factor(cut_off_value), y=relativeValue, fill=variable), stat='identity', position="dodge")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	339 plt = plt + facet_grid(.~Locus) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	340 plt = plt + scale_y_continuous(trans="log", breaks=10^c(0:10), labels=c(0, 10^c(0:9)))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	341 plt = plt + geom_text(data=patientResult[patientResult$variable == oneSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=-0.7, size=fontSize)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	342 plt = plt + geom_text(data=patientResult[patientResult$variable == twoSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=0.4, size=fontSize)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	343 plt = plt + geom_text(data=patientResult[patientResult$variable == threeSample,], aes(ymax=max(value), x=cut_off_value,y=relativeValue,label=value), angle=90, position=position_dodge(width=0.9), hjust=0, vjust=1.5, size=fontSize)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	344 plt = plt + xlab("Reads per locus") + ylab("Count") + ggtitle("Number of clones in only one sample")
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	345 png(paste(label1, "_", label2, "_", label3, "_", onShort, "_indiv_all.png", sep=""), width=1920, height=1080)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	346 print(plt)
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	347 dev.off()
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	348 }
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	349
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	350 triplets$uniqueID = "ID"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	351
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	352 triplets[grepl("16278_Left", triplets$Sample),]$uniqueID = "16278_26402_26759_Left"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	353 triplets[grepl("26402_Left", triplets$Sample),]$uniqueID = "16278_26402_26759_Left"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	354 triplets[grepl("26759_Left", triplets$Sample),]$uniqueID = "16278_26402_26759_Left"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	355
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	356 triplets[grepl("16278_Right", triplets$Sample),]$uniqueID = "16278_26402_26759_Right"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	357 triplets[grepl("26402_Right", triplets$Sample),]$uniqueID = "16278_26402_26759_Right"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	358 triplets[grepl("26759_Right", triplets$Sample),]$uniqueID = "16278_26402_26759_Right"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	359
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	360 triplets[grepl("14696", triplets$Patient),]$uniqueID = "14696"
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	361
13 576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	362 triplets$locus_V = substring(triplets$V_Segment_Major_Gene, 0, 4)
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	363 triplets$locus_J = substring(triplets$J_Segment_Major_Gene, 0, 4)
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	364 min_cell_count = data.frame(data.table(triplets)[, list(min_cell_count=min(.SD$Cell_Count)), by=c("uniqueID", "locus_V", "locus_J")])
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	365
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	366 triplets$min_cell_paste = paste(triplets$uniqueID, triplets$locus_V, triplets$locus_J)
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	367 min_cell_count$min_cell_paste = paste(min_cell_count$uniqueID, min_cell_count$locus_V, min_cell_count$locus_J)
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	368
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	369 min_cell_count = min_cell_count[,c("min_cell_paste", "min_cell_count")]
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	370
13 576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	371 triplets = merge(triplets, min_cell_count, by="min_cell_paste")
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	372
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	373 triplets$normalized_read_count = round(triplets$Clone_Molecule_Count_From_Spikes / triplets$Cell_Count * triplets$min_cell_count / 2, digits=2) #??????????????????????????????????? wel of geen / 2
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	374
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	375 triplets = triplets[triplets$normalized_read_count >= min_cells,]
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	376
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	377 column_drops = c("locus_V", "locus_J", "min_cell_count", "min_cell_paste")
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	378
576de7c96c4f Uploaded davidvanzessen parents: 12 diff changeset	379 triplets = triplets[,!(colnames(triplets) %in% column_drops)]
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	380
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	381 interval = intervalReads
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	382 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	383 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	384
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	385 one = triplets[triplets$Sample == "14696_reg_BM",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	386 two = triplets[triplets$Sample == "24536_reg_BM",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	387 three = triplets[triplets$Sample == "24062_reg_BM",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	388 tripletAnalysis(one, "14696_1", two, "14696_2", three, "14696_3", product=product, interval=interval, on="normalized_read_count", T)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	389
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	390 one = triplets[triplets$Sample == "16278_Left",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	391 two = triplets[triplets$Sample == "26402_Left",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	392 three = triplets[triplets$Sample == "26759_Left",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	393 tripletAnalysis(one, "16278_Left", two, "26402_Left", three, "26759_Left", product=product, interval=interval, on="normalized_read_count", T)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	394
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	395 one = triplets[triplets$Sample == "16278_Right",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	396 two = triplets[triplets$Sample == "26402_Right",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	397 three = triplets[triplets$Sample == "26759_Right",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	398 tripletAnalysis(one, "16278_Right", two, "26402_Right", three, "26759_Right", product=product, interval=interval, on="normalized_read_count", T)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	399
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	400
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	401 interval = intervalFreq
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	402 intervalOrder = data.frame("interval"=paste(">", interval, sep=""), "intervalOrder"=1:length(interval))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	403 product = data.frame("Titles"=rep(Titles, each=length(interval)), "interval"=rep(interval, times=10), "V_Segments"=rep(V_Segments, each=length(interval)), "J_Segments"=rep(J_Segments, each=length(interval)))
68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	404
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	405 one = triplets[triplets$Sample == "14696_reg_BM",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	406 two = triplets[triplets$Sample == "24536_reg_BM",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	407 three = triplets[triplets$Sample == "24062_reg_BM",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	408 tripletAnalysis(one, "14696_1", two, "14696_2", three, "14696_3", product=product, interval=interval, on="Frequency", F)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	409
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	410 one = triplets[triplets$Sample == "16278_Left",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	411 two = triplets[triplets$Sample == "26402_Left",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	412 three = triplets[triplets$Sample == "26759_Left",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	413 tripletAnalysis(one, "16278_Left", two, "26402_Left", three, "26759_Left", product=product, interval=interval, on="Frequency", F)
7 68c6c7624ffc Uploaded davidvanzessen parents: 6 diff changeset	414
9 58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	415 one = triplets[triplets$Sample == "16278_Right",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	416 two = triplets[triplets$Sample == "26402_Right",]
58a28427930e Uploaded davidvanzessen parents: 8 diff changeset	417 three = triplets[triplets$Sample == "26759_Right",]
8 fa240d1c57a9 Uploaded davidvanzessen parents: 7 diff changeset	418 tripletAnalysis(one, "16278_Right", two, "26402_Right", three, "26759_Right", product=product, interval=interval, on="Frequency", F)

Mercurial > repos > davidvanzessen > clonal_sequences_in_paired_samples

annotate RScript.r @ 15:d137974763b3 draft