combined_immune_repertoire_imgt: immunerepertoirecombined

author	davidvanzessen
date	Mon, 09 Dec 2013 03:45:21 -0500
parents
children

rev	line source
0 e71c59b72669 Uploaded davidvanzessen parents: diff changeset	1 #options( show.error.messages=F, error = function () { cat( geterrmessage(), file=stderr() ); q( "no", 1, F ) } )
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	2
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	3 args <- commandArgs(trailingOnly = TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	4
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	5 inFile = args[1]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	6 outFile = args[2]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	7 outDir = args[3]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	8 clonalType = args[4]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	9
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	10 if (!("gridExtra" %in% rownames(installed.packages()))) {
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	11 install.packages("gridExtra", repos="http://cran.xl-mirror.nl/")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	12 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	13 library(gridExtra)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	14 if (!("ggplot2" %in% rownames(installed.packages()))) {
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	15 install.packages("ggplot2", repos="http://cran.xl-mirror.nl/")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	16 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	17 require(ggplot2)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	18 if (!("plyr" %in% rownames(installed.packages()))) {
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	19 install.packages("plyr", repos="http://cran.xl-mirror.nl/")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	20 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	21 require(plyr)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	22
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	23 if (!("data.table" %in% rownames(installed.packages()))) {
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	24 install.packages("data.table", repos="http://cran.xl-mirror.nl/")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	25 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	26 library(data.table)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	27
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	28
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	29 test = read.table(inFile, sep="\t", header=TRUE, fill=T)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	30
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	31 test = test[test$Sample != "",]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	32
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	33 test$Top.V.Gene = gsub("[*]([0-9]+)", "", test$Top.V.Gene)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	34 test$Top.D.Gene = gsub("[*]([0-9]+)", "", test$Top.D.Gene)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	35 test$Top.J.Gene = gsub("[*]([0-9]+)", "", test$Top.J.Gene)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	36
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	37 #test$VDJCDR3 = do.call(paste, c(test[c("Top.V.Gene", "Top.D.Gene", "Top.J.Gene","CDR3.Seq.DNA")], sep = ":"))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	38 test$VDJCDR3 = do.call(paste, c(test[unlist(strsplit(clonalType, ","))], sep = ":"))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	39
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	40 PROD = test[test$VDJ.Frame != "In-frame with stop codon" & test$VDJ.Frame != "Out-of-frame" & test$CDR3.Found.How != "NOT_FOUND" , ]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	41
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	42 NONPROD = test[test$VDJ.Frame == "In-frame with stop codon" \| test$VDJ.Frame == "Out-of-frame" \| test$CDR3.Found.How == "NOT_FOUND" , ]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	43
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	44 #PRODF = PROD[ -1]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	45
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	46 PRODF = PROD
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	47
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	48 #PRODF = unique(PRODF)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	49 PRODF = PRODF[!duplicated(PRODF$VDJCDR3), ]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	50
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	51 PRODFV = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Sample", "Top.V.Gene")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	52 PRODFV$Length = as.numeric(PRODFV$Length)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	53 Total = 0
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	54 Total = ddply(PRODFV, .(Sample), function(x) data.frame(Total = sum(x$Length)))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	55 PRODFV = merge(PRODFV, Total, by.x='Sample', by.y='Sample', all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	56 PRODFV = ddply(PRODFV, c("Sample", "Top.V.Gene"), summarise, relFreq= (Length*100 / Total))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	57
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	58 PRODFD = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Sample", "Top.D.Gene")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	59 PRODFD$Length = as.numeric(PRODFD$Length)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	60 Total = 0
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	61 Total = ddply(PRODFD, .(Sample), function(x) data.frame(Total = sum(x$Length)))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	62 PRODFD = merge(PRODFD, Total, by.x='Sample', by.y='Sample', all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	63 PRODFD = ddply(PRODFD, c("Sample", "Top.D.Gene"), summarise, relFreq= (Length*100 / Total))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	64
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	65 PRODFJ = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Sample", "Top.J.Gene")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	66 PRODFJ$Length = as.numeric(PRODFJ$Length)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	67 Total = 0
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	68 Total = ddply(PRODFJ, .(Sample), function(x) data.frame(Total = sum(x$Length)))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	69 PRODFJ = merge(PRODFJ, Total, by.x='Sample', by.y='Sample', all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	70 PRODFJ = ddply(PRODFJ, c("Sample", "Top.J.Gene"), summarise, relFreq= (Length*100 / Total))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	71
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	72 V = c("v.name\tchr.orderV\nIGHV7-81\t1\nIGHV3-74\t2\nIGHV3-73\t3\nIGHV3-72\t4\nIGHV2-70\t6\nIGHV1-69\t7\nIGHV3-66\t8\nIGHV3-64\t9\nIGHV4-61\t10\nIGHV4-59\t11\nIGHV1-58\t12\nIGHV3-53\t13\nIGHV5-a\t15\nIGHV5-51\t16\nIGHV3-49\t17\nIGHV3-48\t18\nIGHV1-46\t20\nIGHV1-45\t21\nIGHV3-43\t22\nIGHV4-39\t23\nIGHV3-35\t24\nIGHV4-34\t25\nIGHV3-33\t26\nIGHV4-31\t27\nIGHV4-30-4\t28\nIGHV4-30-2\t29\nIGHV3-30-3\t30\nIGHV3-30\t31\nIGHV4-28\t32\nIGHV2-26\t33\nIGHV1-24\t34\nIGHV3-23\t35\nIGHV3-21\t37\nIGHV3-20\t38\nIGHV1-18\t40\nIGHV3-15\t41\nIGHV3-13\t42\nIGHV3-11\t43\nIGHV3-9\t44\nIGHV1-8\t45\nIGHV3-7\t46\nIGHV2-5\t47\nIGHV7-4-1\t48\nIGHV4-4\t49\nIGHV4-b\t50\nIGHV1-3\t51\nIGHV1-2\t52\nIGHV6-1\t53")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	73 tcV = textConnection(V)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	74 Vchain = read.table(tcV, sep="\t", header=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	75 PRODFV = merge(PRODFV, Vchain, by.x='Top.V.Gene', by.y='v.name', all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	76 close(tcV)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	77
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	78 D = c("v.name\tchr.orderD\nIGHD1-1\t1\nIGHD2-2\t2\nIGHD3-3\t3\nIGHD6-6\t4\nIGHD1-7\t5\nIGHD2-8\t6\nIGHD3-9\t7\nIGHD3-10\t8\nIGHD4-11\t9\nIGHD5-12\t10\nIGHD6-13\t11\nIGHD1-14\t12\nIGHD2-15\t13\nIGHD3-16\t14\nIGHD4-17\t15\nIGHD5-18\t16\nIGHD6-19\t17\nIGHD1-20\t18\nIGHD2-21\t19\nIGHD3-22\t20\nIGHD4-23\t21\nIGHD5-24\t22\nIGHD6-25\t23\nIGHD1-26\t24\nIGHD7-27\t25")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	79 tcD = textConnection(D)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	80 Dchain = read.table(tcD, sep="\t", header=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	81 PRODFD = merge(PRODFD, Dchain, by.x='Top.D.Gene', by.y='v.name', all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	82 close(tcD)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	83
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	84
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	85 J = c("v.name\tchr.orderJ\nIGHJ1\t1\nIGHJ2\t2\nIGHJ3\t3\nIGHJ4\t4\nIGHJ5\t5\nIGHJ6\t6")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	86 tcJ = textConnection(J)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	87 Jchain = read.table(tcJ, sep="\t", header=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	88 PRODFJ = merge(PRODFJ, Jchain, by.x='Top.J.Gene', by.y='v.name', all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	89 close(tcJ)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	90
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	91 setwd(outDir)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	92
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	93 pV = ggplot(PRODFV)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	94 pV = pV + geom_bar( aes( x=factor(reorder(Top.V.Gene, chr.orderV)), y=relFreq, fill=Sample), stat='identity', position="dodge") + theme(axis.text.x = element_text(angle = 90, hjust = 1))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	95 pV = pV + xlab("Summary of V gene") + ylab("Frequency") + ggtitle("Relative frequency of V gene usage")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	96
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	97 png("VPlot.png",width = 1280, height = 720)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	98 pV
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	99 dev.off();
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	100
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	101 pD = ggplot(PRODFD)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	102 pD = pD + geom_bar( aes( x=factor(reorder(Top.D.Gene, chr.orderD)), y=relFreq, fill=Sample), stat='identity', position="dodge") + theme(axis.text.x = element_text(angle = 90, hjust = 1))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	103 pD = pD + xlab("Summary of D gene") + ylab("Frequency") + ggtitle("Relative frequency of D gene usage")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	104
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	105 png("DPlot.png",width = 800, height = 600)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	106 pD
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	107 dev.off();
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	108
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	109 pJ = ggplot(PRODFJ)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	110 pJ = pJ + geom_bar( aes( x=factor(reorder(Top.J.Gene, chr.orderJ)), y=relFreq, fill=Sample), stat='identity', position="dodge") + theme(axis.text.x = element_text(angle = 90, hjust = 1))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	111 pJ = pJ + xlab("Summary of J gene") + ylab("Frequency") + ggtitle("Relative frequency of J gene usage")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	112
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	113 png("JPlot.png",width = 800, height = 600)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	114 pJ
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	115 dev.off();
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	116
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	117 revVchain = Vchain
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	118 revDchain = Dchain
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	119 revVchain$chr.orderV = rev(revVchain$chr.orderV)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	120 revDchain$chr.orderD = rev(revDchain$chr.orderD)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	121
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	122 plotVD <- function(dat){
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	123 if(length(dat[,1]) == 0){
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	124 return()
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	125 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	126 img = ggplot() +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	127 geom_tile(data=dat, aes(x=factor(reorder(Top.D.Gene, chr.orderD)), y=factor(reorder(Top.V.Gene, chr.orderV)), fill=relLength)) +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	128 theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	129 scale_fill_gradient(low="gold", high="blue", na.value="white") +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	130 ggtitle(paste(unique(dat$Sample), " (N=" , sum(dat$Length, na.rm=T) ,")", sep="")) +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	131 xlab("D genes") +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	132 ylab("V Genes")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	133
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	134 png(paste("HeatmapVD_", unique(dat[3])[1,1] , ".png", sep=""), width=150+(15length(Dchain$v.name)), height=100+(15length(Vchain$v.name)))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	135 print(img)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	136 dev.off()
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	137 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	138
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	139 VandDCount = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Top.V.Gene", "Top.D.Gene", "Sample")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	140
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	141 VandDCount$l = log(VandDCount$Length)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	142 maxVD = data.frame(data.table(VandDCount)[, list(max=max(l)), by=c("Sample")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	143 VandDCount = merge(VandDCount, maxVD, by.x="Sample", by.y="Sample", all.x=T)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	144 VandDCount$relLength = VandDCount$l / VandDCount$max
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	145
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	146 cartegianProductVD = expand.grid(Top.V.Gene = Vchain$v.name, Top.D.Gene = Dchain$v.name, Sample = unique(test$Sample))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	147
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	148 completeVD = merge(VandDCount, cartegianProductVD, all.y=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	149 completeVD = merge(completeVD, revVchain, by.x="Top.V.Gene", by.y="v.name", all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	150 completeVD = merge(completeVD, Dchain, by.x="Top.D.Gene", by.y="v.name", all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	151 VDList = split(completeVD, f=completeVD[,"Sample"])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	152
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	153 lapply(VDList, FUN=plotVD)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	154
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	155
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	156
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	157 plotVJ <- function(dat){
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	158 if(length(dat[,1]) == 0){
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	159 return()
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	160 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	161 img = ggplot() +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	162 geom_tile(data=dat, aes(x=factor(reorder(Top.J.Gene, chr.orderJ)), y=factor(reorder(Top.V.Gene, chr.orderV)), fill=relLength)) +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	163 theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	164 scale_fill_gradient(low="gold", high="blue", na.value="white") +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	165 ggtitle(paste(unique(dat$Sample), " (N=" , sum(dat$Length, na.rm=T) ,")", sep="")) +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	166 xlab("J genes") +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	167 ylab("V Genes")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	168
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	169 png(paste("HeatmapVJ_", unique(dat[3])[1,1] , ".png", sep=""), width=150+(15length(Jchain$v.name)), height=100+(15length(Vchain$v.name)))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	170 print(img)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	171 dev.off()
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	172 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	173
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	174 VandJCount = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Top.V.Gene", "Top.J.Gene", "Sample")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	175
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	176 VandJCount$l = log(VandJCount$Length)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	177 maxVJ = data.frame(data.table(VandJCount)[, list(max=max(l)), by=c("Sample")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	178 VandJCount = merge(VandJCount, maxVJ, by.x="Sample", by.y="Sample", all.x=T)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	179 VandJCount$relLength = VandJCount$l / VandJCount$max
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	180
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	181 cartegianProductVJ = expand.grid(Top.V.Gene = Vchain$v.name, Top.J.Gene = Jchain$v.name, Sample = unique(test$Sample))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	182
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	183 completeVJ = merge(VandJCount, cartegianProductVJ, all.y=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	184 completeVJ = merge(completeVJ, revVchain, by.x="Top.V.Gene", by.y="v.name", all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	185 completeVJ = merge(completeVJ, Jchain, by.x="Top.J.Gene", by.y="v.name", all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	186 VJList = split(completeVJ, f=completeVJ[,"Sample"])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	187 lapply(VJList, FUN=plotVJ)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	188
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	189 plotDJ <- function(dat){
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	190 if(length(dat[,1]) == 0){
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	191 return()
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	192 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	193 img = ggplot() +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	194 geom_tile(data=dat, aes(x=factor(reorder(Top.J.Gene, chr.orderJ)), y=factor(reorder(Top.D.Gene, chr.orderD)), fill=relLength)) +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	195 theme(axis.text.x = element_text(angle = 90, hjust = 1)) +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	196 scale_fill_gradient(low="gold", high="blue", na.value="white") +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	197 ggtitle(paste(unique(dat$Sample), " (N=" , sum(dat$Length, na.rm=T) ,")", sep="")) +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	198 xlab("J genes") +
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	199 ylab("D Genes")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	200
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	201 png(paste("HeatmapDJ_", unique(dat[3])[1,1] , ".png", sep=""), width=150+(15length(Jchain$v.name)), height=100+(15length(Dchain$v.name)))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	202 print(img)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	203 dev.off()
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	204 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	205
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	206 DandJCount = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Top.D.Gene", "Top.J.Gene", "Sample")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	207
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	208 DandJCount$l = log(DandJCount$Length)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	209 maxDJ = data.frame(data.table(DandJCount)[, list(max=max(l)), by=c("Sample")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	210 DandJCount = merge(DandJCount, maxDJ, by.x="Sample", by.y="Sample", all.x=T)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	211 DandJCount$relLength = DandJCount$l / DandJCount$max
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	212
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	213 cartegianProductDJ = expand.grid(Top.D.Gene = Dchain$v.name, Top.J.Gene = Jchain$v.name, Sample = unique(test$Sample))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	214
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	215 completeDJ = merge(DandJCount, cartegianProductDJ, all.y=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	216 completeDJ = merge(completeDJ, revDchain, by.x="Top.D.Gene", by.y="v.name", all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	217 completeDJ = merge(completeDJ, Jchain, by.x="Top.J.Gene", by.y="v.name", all.x=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	218 DJList = split(completeDJ, f=completeDJ[,"Sample"])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	219 lapply(DJList, FUN=plotDJ)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	220
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	221
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	222 sampleFile <- file("samples.txt")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	223 un = unique(test$Sample)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	224 un = paste(un, sep="\n")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	225 writeLines(un, sampleFile)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	226 close(sampleFile)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	227
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	228
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	229 if("Replicate" %in% colnames(test))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	230 {
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	231 clonalityFrame = PROD
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	232 clonalityFrame$ReplicateConcat = do.call(paste, c(clonalityFrame[c("VDJCDR3", "Sample", "Replicate")], sep = ":"))
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	233 clonalityFrame = clonalityFrame[!duplicated(clonalityFrame$ReplicateConcat), ]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	234 clonalFreq = data.frame(data.table(clonalityFrame)[, list(Type=.N), by=c("Sample", "VDJCDR3")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	235 clonalFreqCount = data.frame(data.table(clonalFreq)[, list(Count=.N), by=c("Sample", "Type")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	236 clonalFreqCount$realCount = clonalFreqCount$Type * clonalFreqCount$Count
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	237 clonalSum = data.frame(data.table(clonalFreqCount)[, list(Reads=sum(realCount)), by=c("Sample")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	238 clonalFreqCount = merge(clonalFreqCount, clonalSum, by.x="Sample", by.y="Sample")
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	239
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	240 ct = c('Type\tWeight\n2\t1\n3\t3\n4\t6\n5\t10\n6\t15')
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	241 tcct = textConnection(ct)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	242 CT = read.table(tcct, sep="\t", header=TRUE)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	243 close(tcct)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	244 clonalFreqCount = merge(clonalFreqCount, CT, by.x="Type", by.y="Type", all.x=T)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	245 clonalFreqCount$WeightedCount = clonalFreqCount$Count * clonalFreqCount$Weight
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	246
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	247 ReplicateReads = data.frame(data.table(clonalityFrame)[, list(Type=.N), by=c("Sample", "Replicate", "VDJCDR3")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	248 ReplicateReads = data.frame(data.table(ReplicateReads)[, list(Reads=.N), by=c("Sample", "Replicate")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	249 ReplicateReads$squared = ReplicateReads$Reads * ReplicateReads$Reads
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	250
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	251 ReplicatePrint <- function(dat){
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	252 write.table(dat[-1], paste("ReplicateReads_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	253 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	254
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	255 ReplicateSplit = split(ReplicateReads, f=ReplicateReads[,"Sample"])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	256 lapply(ReplicateSplit, FUN=ReplicatePrint)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	257
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	258 ReplicateReads = data.frame(data.table(ReplicateReads)[, list(ReadsSum=sum(Reads), ReadsSquaredSum=sum(squared)), by=c("Sample")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	259 clonalFreqCount = merge(clonalFreqCount, ReplicateReads, by.x="Sample", by.y="Sample", all.x=T)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	260
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	261
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	262 ReplicateSumPrint <- function(dat){
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	263 write.table(dat[-1], paste("ReplicateSumReads_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	264 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	265
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	266 ReplicateSumSplit = split(ReplicateReads, f=ReplicateReads[,"Sample"])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	267 lapply(ReplicateSumSplit, FUN=ReplicateSumPrint)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	268
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	269 clonalFreqCountSum = data.frame(data.table(clonalFreqCount)[, list(Numerator=sum(WeightedCount, na.rm=T)), by=c("Sample")])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	270 clonalFreqCount = merge(clonalFreqCount, clonalFreqCountSum, by.x="Sample", by.y="Sample", all.x=T)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	271
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	272 clonalFreqCount$Denominator = (((clonalFreqCount$ReadsSum * clonalFreqCount$ReadsSum) - clonalFreqCount$ReadsSquaredSum) / 2)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	273 clonalFreqCount$Result = (clonalFreqCount$Numerator + 1) / (clonalFreqCount$Denominator + 1)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	274
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	275 ClonalityScorePrint <- function(dat){
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	276 write.table(dat$Result, paste("ClonalityScore_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	277 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	278
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	279 clonalityScore = clonalFreqCount[c("Sample", "Result")]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	280 clonalityScore = unique(clonalityScore)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	281
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	282 clonalityScoreSplit = split(clonalityScore, f=clonalityScore[,"Sample"])
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	283 lapply(clonalityScoreSplit, FUN=ClonalityScorePrint)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	284
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	285 clonalityOverview = clonalFreqCount[c("Sample", "Type", "Count", "Weight", "WeightedCount")]
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	286
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	287
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	288
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	289 ClonalityOverviewPrint <- function(dat){
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	290 write.table(dat[-1], paste("ClonalityOverView_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	291 }
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	292
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	293 clonalityOverviewSplit = split(clonalityOverview, f=clonalityOverview$Sample)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	294 lapply(clonalityOverviewSplit, FUN=ClonalityOverviewPrint)
e71c59b72669 Uploaded davidvanzessen parents: diff changeset	295 }

0

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

1 #options( show.error.messages=F, error = function () { cat( geterrmessage(), file=stderr() ); q( "no", 1, F ) } )

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

2

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

3 args <- commandArgs(trailingOnly = TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

4

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

5 inFile = args[1]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

6 outFile = args[2]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

7 outDir = args[3]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

8 clonalType = args[4]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

9

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

10 if (!("gridExtra" %in% rownames(installed.packages()))) {

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

11 install.packages("gridExtra", repos="http://cran.xl-mirror.nl/")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

12 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

13 library(gridExtra)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

14 if (!("ggplot2" %in% rownames(installed.packages()))) {

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

15 install.packages("ggplot2", repos="http://cran.xl-mirror.nl/")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

16 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

17 require(ggplot2)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

18 if (!("plyr" %in% rownames(installed.packages()))) {

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

19 install.packages("plyr", repos="http://cran.xl-mirror.nl/")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

20 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

21 require(plyr)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

22

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

23 if (!("data.table" %in% rownames(installed.packages()))) {

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

24 install.packages("data.table", repos="http://cran.xl-mirror.nl/")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

25 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

26 library(data.table)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

27

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

28

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

29 test = read.table(inFile, sep="\t", header=TRUE, fill=T)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

30

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

31 test = test[test$Sample != "",]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

32

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

33 test$Top.V.Gene = gsub("[*]([0-9]+)", "", test$Top.V.Gene)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

34 test$Top.D.Gene = gsub("[*]([0-9]+)", "", test$Top.D.Gene)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

35 test$Top.J.Gene = gsub("[*]([0-9]+)", "", test$Top.J.Gene)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

36

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

37 #test$VDJCDR3 = do.call(paste, c(test[c("Top.V.Gene", "Top.D.Gene", "Top.J.Gene","CDR3.Seq.DNA")], sep = ":"))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

38 test$VDJCDR3 = do.call(paste, c(test[unlist(strsplit(clonalType, ","))], sep = ":"))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

39

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

40 PROD = test[test$VDJ.Frame != "In-frame with stop codon" & test$VDJ.Frame != "Out-of-frame" & test$CDR3.Found.How != "NOT_FOUND" , ]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

41

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

42 NONPROD = test[test$VDJ.Frame == "In-frame with stop codon" | test$VDJ.Frame == "Out-of-frame" | test$CDR3.Found.How == "NOT_FOUND" , ]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

43

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

44 #PRODF = PROD[ -1]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

45

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

46 PRODF = PROD

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

47

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

48 #PRODF = unique(PRODF)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

49 PRODF = PRODF[!duplicated(PRODF$VDJCDR3), ]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

50

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

51 PRODFV = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Sample", "Top.V.Gene")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

52 PRODFV$Length = as.numeric(PRODFV$Length)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

53 Total = 0

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

54 Total = ddply(PRODFV, .(Sample), function(x) data.frame(Total = sum(x$Length)))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

55 PRODFV = merge(PRODFV, Total, by.x='Sample', by.y='Sample', all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

56 PRODFV = ddply(PRODFV, c("Sample", "Top.V.Gene"), summarise, relFreq= (Length*100 / Total))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

57

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

58 PRODFD = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Sample", "Top.D.Gene")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

59 PRODFD$Length = as.numeric(PRODFD$Length)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

60 Total = 0

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

61 Total = ddply(PRODFD, .(Sample), function(x) data.frame(Total = sum(x$Length)))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

62 PRODFD = merge(PRODFD, Total, by.x='Sample', by.y='Sample', all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

63 PRODFD = ddply(PRODFD, c("Sample", "Top.D.Gene"), summarise, relFreq= (Length*100 / Total))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

64

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

65 PRODFJ = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Sample", "Top.J.Gene")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

66 PRODFJ$Length = as.numeric(PRODFJ$Length)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

67 Total = 0

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

68 Total = ddply(PRODFJ, .(Sample), function(x) data.frame(Total = sum(x$Length)))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

69 PRODFJ = merge(PRODFJ, Total, by.x='Sample', by.y='Sample', all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

70 PRODFJ = ddply(PRODFJ, c("Sample", "Top.J.Gene"), summarise, relFreq= (Length*100 / Total))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

71

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

72 V = c("v.name\tchr.orderV\nIGHV7-81\t1\nIGHV3-74\t2\nIGHV3-73\t3\nIGHV3-72\t4\nIGHV2-70\t6\nIGHV1-69\t7\nIGHV3-66\t8\nIGHV3-64\t9\nIGHV4-61\t10\nIGHV4-59\t11\nIGHV1-58\t12\nIGHV3-53\t13\nIGHV5-a\t15\nIGHV5-51\t16\nIGHV3-49\t17\nIGHV3-48\t18\nIGHV1-46\t20\nIGHV1-45\t21\nIGHV3-43\t22\nIGHV4-39\t23\nIGHV3-35\t24\nIGHV4-34\t25\nIGHV3-33\t26\nIGHV4-31\t27\nIGHV4-30-4\t28\nIGHV4-30-2\t29\nIGHV3-30-3\t30\nIGHV3-30\t31\nIGHV4-28\t32\nIGHV2-26\t33\nIGHV1-24\t34\nIGHV3-23\t35\nIGHV3-21\t37\nIGHV3-20\t38\nIGHV1-18\t40\nIGHV3-15\t41\nIGHV3-13\t42\nIGHV3-11\t43\nIGHV3-9\t44\nIGHV1-8\t45\nIGHV3-7\t46\nIGHV2-5\t47\nIGHV7-4-1\t48\nIGHV4-4\t49\nIGHV4-b\t50\nIGHV1-3\t51\nIGHV1-2\t52\nIGHV6-1\t53")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

73 tcV = textConnection(V)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

74 Vchain = read.table(tcV, sep="\t", header=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

75 PRODFV = merge(PRODFV, Vchain, by.x='Top.V.Gene', by.y='v.name', all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

76 close(tcV)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

77

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

78 D = c("v.name\tchr.orderD\nIGHD1-1\t1\nIGHD2-2\t2\nIGHD3-3\t3\nIGHD6-6\t4\nIGHD1-7\t5\nIGHD2-8\t6\nIGHD3-9\t7\nIGHD3-10\t8\nIGHD4-11\t9\nIGHD5-12\t10\nIGHD6-13\t11\nIGHD1-14\t12\nIGHD2-15\t13\nIGHD3-16\t14\nIGHD4-17\t15\nIGHD5-18\t16\nIGHD6-19\t17\nIGHD1-20\t18\nIGHD2-21\t19\nIGHD3-22\t20\nIGHD4-23\t21\nIGHD5-24\t22\nIGHD6-25\t23\nIGHD1-26\t24\nIGHD7-27\t25")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

79 tcD = textConnection(D)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

80 Dchain = read.table(tcD, sep="\t", header=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

81 PRODFD = merge(PRODFD, Dchain, by.x='Top.D.Gene', by.y='v.name', all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

82 close(tcD)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

83

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

84

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

85 J = c("v.name\tchr.orderJ\nIGHJ1\t1\nIGHJ2\t2\nIGHJ3\t3\nIGHJ4\t4\nIGHJ5\t5\nIGHJ6\t6")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

86 tcJ = textConnection(J)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

87 Jchain = read.table(tcJ, sep="\t", header=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

88 PRODFJ = merge(PRODFJ, Jchain, by.x='Top.J.Gene', by.y='v.name', all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

89 close(tcJ)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

90

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

91 setwd(outDir)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

92

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

93 pV = ggplot(PRODFV)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

94 pV = pV + geom_bar( aes( x=factor(reorder(Top.V.Gene, chr.orderV)), y=relFreq, fill=Sample), stat='identity', position="dodge") + theme(axis.text.x = element_text(angle = 90, hjust = 1))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

95 pV = pV + xlab("Summary of V gene") + ylab("Frequency") + ggtitle("Relative frequency of V gene usage")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

96

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

97 png("VPlot.png",width = 1280, height = 720)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

98 pV

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

99 dev.off();

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

100

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

101 pD = ggplot(PRODFD)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

102 pD = pD + geom_bar( aes( x=factor(reorder(Top.D.Gene, chr.orderD)), y=relFreq, fill=Sample), stat='identity', position="dodge") + theme(axis.text.x = element_text(angle = 90, hjust = 1))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

103 pD = pD + xlab("Summary of D gene") + ylab("Frequency") + ggtitle("Relative frequency of D gene usage")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

104

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

105 png("DPlot.png",width = 800, height = 600)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

106 pD

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

107 dev.off();

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

108

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

109 pJ = ggplot(PRODFJ)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

110 pJ = pJ + geom_bar( aes( x=factor(reorder(Top.J.Gene, chr.orderJ)), y=relFreq, fill=Sample), stat='identity', position="dodge") + theme(axis.text.x = element_text(angle = 90, hjust = 1))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

111 pJ = pJ + xlab("Summary of J gene") + ylab("Frequency") + ggtitle("Relative frequency of J gene usage")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

112

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

113 png("JPlot.png",width = 800, height = 600)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

114 pJ

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

115 dev.off();

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

116

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

117 revVchain = Vchain

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

118 revDchain = Dchain

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

119 revVchain$chr.orderV = rev(revVchain$chr.orderV)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

120 revDchain$chr.orderD = rev(revDchain$chr.orderD)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

121

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

122 plotVD <- function(dat){

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

123 if(length(dat[,1]) == 0){

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

124 return()

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

125 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

126 img = ggplot() +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

127 geom_tile(data=dat, aes(x=factor(reorder(Top.D.Gene, chr.orderD)), y=factor(reorder(Top.V.Gene, chr.orderV)), fill=relLength)) +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

128 theme(axis.text.x = element_text(angle = 90, hjust = 1)) +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

129 scale_fill_gradient(low="gold", high="blue", na.value="white") +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

130 ggtitle(paste(unique(dat$Sample), " (N=" , sum(dat$Length, na.rm=T) ,")", sep="")) +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

131 xlab("D genes") +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

132 ylab("V Genes")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

133

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

134 png(paste("HeatmapVD_", unique(dat[3])[1,1] , ".png", sep=""), width=150+(15*length(Dchain$v.name)), height=100+(15*length(Vchain$v.name)))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

135 print(img)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

136 dev.off()

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

137 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

138

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

139 VandDCount = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Top.V.Gene", "Top.D.Gene", "Sample")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

140

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

141 VandDCount$l = log(VandDCount$Length)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

142 maxVD = data.frame(data.table(VandDCount)[, list(max=max(l)), by=c("Sample")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

143 VandDCount = merge(VandDCount, maxVD, by.x="Sample", by.y="Sample", all.x=T)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

144 VandDCount$relLength = VandDCount$l / VandDCount$max

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

145

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

146 cartegianProductVD = expand.grid(Top.V.Gene = Vchain$v.name, Top.D.Gene = Dchain$v.name, Sample = unique(test$Sample))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

147

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

148 completeVD = merge(VandDCount, cartegianProductVD, all.y=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

149 completeVD = merge(completeVD, revVchain, by.x="Top.V.Gene", by.y="v.name", all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

150 completeVD = merge(completeVD, Dchain, by.x="Top.D.Gene", by.y="v.name", all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

151 VDList = split(completeVD, f=completeVD[,"Sample"])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

152

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

153 lapply(VDList, FUN=plotVD)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

154

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

155

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

156

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

157 plotVJ <- function(dat){

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

158 if(length(dat[,1]) == 0){

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

159 return()

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

160 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

161 img = ggplot() +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

162 geom_tile(data=dat, aes(x=factor(reorder(Top.J.Gene, chr.orderJ)), y=factor(reorder(Top.V.Gene, chr.orderV)), fill=relLength)) +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

163 theme(axis.text.x = element_text(angle = 90, hjust = 1)) +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

164 scale_fill_gradient(low="gold", high="blue", na.value="white") +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

165 ggtitle(paste(unique(dat$Sample), " (N=" , sum(dat$Length, na.rm=T) ,")", sep="")) +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

166 xlab("J genes") +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

167 ylab("V Genes")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

168

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

169 png(paste("HeatmapVJ_", unique(dat[3])[1,1] , ".png", sep=""), width=150+(15*length(Jchain$v.name)), height=100+(15*length(Vchain$v.name)))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

170 print(img)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

171 dev.off()

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

172 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

173

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

174 VandJCount = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Top.V.Gene", "Top.J.Gene", "Sample")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

175

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

176 VandJCount$l = log(VandJCount$Length)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

177 maxVJ = data.frame(data.table(VandJCount)[, list(max=max(l)), by=c("Sample")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

178 VandJCount = merge(VandJCount, maxVJ, by.x="Sample", by.y="Sample", all.x=T)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

179 VandJCount$relLength = VandJCount$l / VandJCount$max

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

180

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

181 cartegianProductVJ = expand.grid(Top.V.Gene = Vchain$v.name, Top.J.Gene = Jchain$v.name, Sample = unique(test$Sample))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

182

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

183 completeVJ = merge(VandJCount, cartegianProductVJ, all.y=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

184 completeVJ = merge(completeVJ, revVchain, by.x="Top.V.Gene", by.y="v.name", all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

185 completeVJ = merge(completeVJ, Jchain, by.x="Top.J.Gene", by.y="v.name", all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

186 VJList = split(completeVJ, f=completeVJ[,"Sample"])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

187 lapply(VJList, FUN=plotVJ)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

188

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

189 plotDJ <- function(dat){

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

190 if(length(dat[,1]) == 0){

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

191 return()

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

192 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

193 img = ggplot() +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

194 geom_tile(data=dat, aes(x=factor(reorder(Top.J.Gene, chr.orderJ)), y=factor(reorder(Top.D.Gene, chr.orderD)), fill=relLength)) +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

195 theme(axis.text.x = element_text(angle = 90, hjust = 1)) +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

196 scale_fill_gradient(low="gold", high="blue", na.value="white") +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

197 ggtitle(paste(unique(dat$Sample), " (N=" , sum(dat$Length, na.rm=T) ,")", sep="")) +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

198 xlab("J genes") +

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

199 ylab("D Genes")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

200

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

201 png(paste("HeatmapDJ_", unique(dat[3])[1,1] , ".png", sep=""), width=150+(15*length(Jchain$v.name)), height=100+(15*length(Dchain$v.name)))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

202 print(img)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

203 dev.off()

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

204 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

205

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

206 DandJCount = data.frame(data.table(PRODF)[, list(Length=.N), by=c("Top.D.Gene", "Top.J.Gene", "Sample")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

207

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

208 DandJCount$l = log(DandJCount$Length)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

209 maxDJ = data.frame(data.table(DandJCount)[, list(max=max(l)), by=c("Sample")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

210 DandJCount = merge(DandJCount, maxDJ, by.x="Sample", by.y="Sample", all.x=T)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

211 DandJCount$relLength = DandJCount$l / DandJCount$max

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

212

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

213 cartegianProductDJ = expand.grid(Top.D.Gene = Dchain$v.name, Top.J.Gene = Jchain$v.name, Sample = unique(test$Sample))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

214

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

215 completeDJ = merge(DandJCount, cartegianProductDJ, all.y=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

216 completeDJ = merge(completeDJ, revDchain, by.x="Top.D.Gene", by.y="v.name", all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

217 completeDJ = merge(completeDJ, Jchain, by.x="Top.J.Gene", by.y="v.name", all.x=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

218 DJList = split(completeDJ, f=completeDJ[,"Sample"])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

219 lapply(DJList, FUN=plotDJ)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

220

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

221

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

222 sampleFile <- file("samples.txt")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

223 un = unique(test$Sample)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

224 un = paste(un, sep="\n")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

225 writeLines(un, sampleFile)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

226 close(sampleFile)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

227

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

228

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

229 if("Replicate" %in% colnames(test))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

230 {

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

231 clonalityFrame = PROD

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

232 clonalityFrame$ReplicateConcat = do.call(paste, c(clonalityFrame[c("VDJCDR3", "Sample", "Replicate")], sep = ":"))

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

233 clonalityFrame = clonalityFrame[!duplicated(clonalityFrame$ReplicateConcat), ]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

234 clonalFreq = data.frame(data.table(clonalityFrame)[, list(Type=.N), by=c("Sample", "VDJCDR3")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

235 clonalFreqCount = data.frame(data.table(clonalFreq)[, list(Count=.N), by=c("Sample", "Type")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

236 clonalFreqCount$realCount = clonalFreqCount$Type * clonalFreqCount$Count

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

237 clonalSum = data.frame(data.table(clonalFreqCount)[, list(Reads=sum(realCount)), by=c("Sample")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

238 clonalFreqCount = merge(clonalFreqCount, clonalSum, by.x="Sample", by.y="Sample")

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

239

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

240 ct = c('Type\tWeight\n2\t1\n3\t3\n4\t6\n5\t10\n6\t15')

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

241 tcct = textConnection(ct)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

242 CT = read.table(tcct, sep="\t", header=TRUE)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

243 close(tcct)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

244 clonalFreqCount = merge(clonalFreqCount, CT, by.x="Type", by.y="Type", all.x=T)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

245 clonalFreqCount$WeightedCount = clonalFreqCount$Count * clonalFreqCount$Weight

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

246

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

247 ReplicateReads = data.frame(data.table(clonalityFrame)[, list(Type=.N), by=c("Sample", "Replicate", "VDJCDR3")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

248 ReplicateReads = data.frame(data.table(ReplicateReads)[, list(Reads=.N), by=c("Sample", "Replicate")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

249 ReplicateReads$squared = ReplicateReads$Reads * ReplicateReads$Reads

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

250

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

251 ReplicatePrint <- function(dat){

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

252 write.table(dat[-1], paste("ReplicateReads_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

253 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

254

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

255 ReplicateSplit = split(ReplicateReads, f=ReplicateReads[,"Sample"])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

256 lapply(ReplicateSplit, FUN=ReplicatePrint)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

257

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

258 ReplicateReads = data.frame(data.table(ReplicateReads)[, list(ReadsSum=sum(Reads), ReadsSquaredSum=sum(squared)), by=c("Sample")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

259 clonalFreqCount = merge(clonalFreqCount, ReplicateReads, by.x="Sample", by.y="Sample", all.x=T)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

260

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

261

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

262 ReplicateSumPrint <- function(dat){

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

263 write.table(dat[-1], paste("ReplicateSumReads_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

264 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

265

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

266 ReplicateSumSplit = split(ReplicateReads, f=ReplicateReads[,"Sample"])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

267 lapply(ReplicateSumSplit, FUN=ReplicateSumPrint)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

268

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

269 clonalFreqCountSum = data.frame(data.table(clonalFreqCount)[, list(Numerator=sum(WeightedCount, na.rm=T)), by=c("Sample")])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

270 clonalFreqCount = merge(clonalFreqCount, clonalFreqCountSum, by.x="Sample", by.y="Sample", all.x=T)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

271

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

272 clonalFreqCount$Denominator = (((clonalFreqCount$ReadsSum * clonalFreqCount$ReadsSum) - clonalFreqCount$ReadsSquaredSum) / 2)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

273 clonalFreqCount$Result = (clonalFreqCount$Numerator + 1) / (clonalFreqCount$Denominator + 1)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

274

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

275 ClonalityScorePrint <- function(dat){

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

276 write.table(dat$Result, paste("ClonalityScore_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

277 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

278

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

279 clonalityScore = clonalFreqCount[c("Sample", "Result")]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

280 clonalityScore = unique(clonalityScore)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

281

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

282 clonalityScoreSplit = split(clonalityScore, f=clonalityScore[,"Sample"])

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

283 lapply(clonalityScoreSplit, FUN=ClonalityScorePrint)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

284

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

285 clonalityOverview = clonalFreqCount[c("Sample", "Type", "Count", "Weight", "WeightedCount")]

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

286

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

287

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

288

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

289 ClonalityOverviewPrint <- function(dat){

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

290 write.table(dat[-1], paste("ClonalityOverView_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

291 }

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

292

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

293 clonalityOverviewSplit = split(clonalityOverview, f=clonalityOverview$Sample)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

294 lapply(clonalityOverviewSplit, FUN=ClonalityOverviewPrint)

e71c59b72669 Uploaded

davidvanzessen

parents:

diff changeset

295 }

Mercurial > repos > davidvanzessen > combined_immune_repertoire_imgt

annotate immunerepertoirecombined_imgt/RScript.r @ 0:e71c59b72669 draft