complete_immunerepertoire_igg: RScript.r comparison

comparison RScript.r @ 10:b8db36cfe6ad draft

Uploaded

author	davidvanzessen
date	Mon, 12 Jan 2015 11:07:58 -0500
parents	7dbc9ebcefce
children

comparison

equal deleted inserted replaced

-:7dbc9ebcefce
+:b8db36cfe6ad
 infile = args[1] #path to input file
 outfile = args[2] #path to output file
 outdir = args[3] #path to output folder (html/images/data)
 clonaltype = args[4] #clonaltype definition, or 'none' for no unique filtering
+ct = unlist(strsplit(clonaltype, ","))
 species = args[5] #human or mouse
 locus = args[6] # IGH, IGK, IGL, TRB, TRA, TRG or TRD
 filterproductive = ifelse(args[7] == "yes", T, F) #should unproductive sequences be filtered out? (yes/no)
 # ---------------------- Data preperation ----------------------
 inputdata = read.table(infile, sep="\t", header=TRUE, fill=T, comment.char="")
 setwd(outdir)
 # remove weird rows
 inputdata = inputdata[inputdata$Sample != "",]
 #remove the allele from the V,D and J genes
 inputdata$Top.V.Gene = gsub("[*]([0-9]+)", "", inputdata$Top.V.Gene)
 inputdata$Top.D.Gene = gsub("[*]([0-9]+)", "", inputdata$Top.D.Gene)
 inputdata$Top.J.Gene = gsub("[*]([0-9]+)", "", inputdata$Top.J.Gene)
 inputdata$clonaltype = 1:nrow(inputdata)
 PRODF = inputdata
 UNPROD = inputdata
 if(filterproductive){
 if("Functionality" %in% colnames(inputdata)) { # "Functionality" is an IMGT column
 PRODF = inputdata[inputdata$Functionality == "productive" | inputdata$Functionality == "productive (see comment)", ]
 }
 }
 #remove duplicates based on the clonaltype
 if(clonaltype != "none"){
+clonaltype = paste(clonaltype, ",Sample", sep="") #add sample column to clonaltype, unique within samples
 PRODF$clonaltype = do.call(paste, c(PRODF[unlist(strsplit(clonaltype, ","))], sep = ":"))
 PRODF = PRODF[!duplicated(PRODF$clonaltype), ]
-UNPROD$clonaltype = do.call(paste, c(UNPROD[unlist(strsplit(clonaltype, ","))], sep = ":"))
-UNPROD = UNPROD[!duplicated(UNPROD$clonaltype), ]
 }
 PRODF$freq = 1
 if(any(grepl(pattern="_", x=PRODF$ID))){ #the frequency can be stored in the ID with the pattern ".*_freq_.*"
 # ---------------------- Counting the productive/unproductive and unique sequences ----------------------
 inputdata.dt = data.table(inputdata) #for speed
-ct = unlist(strsplit(clonaltype, ","))
 if(clonaltype == "none"){
-	ct = c("ID")
+ct = c("clonaltype")
 }
 inputdata.dt$samples_replicates = paste(inputdata.dt$Sample, inputdata.dt$Replicate, sep="_")
 samples_replicates = c(unique(inputdata.dt$samples_replicates), unique(as.character(inputdata.dt$Sample)))
 frequency_table = data.frame(ID = samples_replicates[order(samples_replicates)])
 if("Replicate" %in% colnames(inputdata)) #can only calculate clonality score when replicate information is available
 {
 clonalityFrame = inputdata
 if(clonaltype != "none"){
+clonalityFrame$clonaltype = do.call(paste, c(clonalityFrame[unlist(strsplit(clonaltype, ","))], sep = ":"))
 clonalityFrame$ReplicateConcat = paste(clonalityFrame$clonaltype, clonalityFrame$Sample, clonalityFrame$Replicate, sep = ":")
 clonalityFrame = clonalityFrame[!duplicated(clonalityFrame$ReplicateConcat), ]
 }
 write.table(clonalityFrame, "clonalityComplete.csv", sep=",",quote=F,row.names=F,col.names=T)
 }
 ReplicateSplit = split(ReplicateReads, f=ReplicateReads[,"Sample"])
 lapply(ReplicateSplit, FUN=ReplicatePrint)
-ReplicateReads = data.frame(data.table(ReplicateReads)[, list(ReadsSum=sum(Reads), ReadsSquaredSum=sum(squared)), by=c("Sample")])
+ReplicateReads = data.frame(data.table(ReplicateReads)[, list(ReadsSum=sum(as.numeric(Reads)), ReadsSquaredSum=sum(as.numeric(squared))), by=c("Sample")])
 clonalFreqCount = merge(clonalFreqCount, ReplicateReads, by.x="Sample", by.y="Sample", all.x=T)
 ReplicateSumPrint <- function(dat){
 write.table(dat[-1], paste("ReplicateSumReads_", unique(dat[1])[1,1] , ".csv", sep=""), sep=",",quote=F,na="-",row.names=F,col.names=F)
 imgtcolumns = c("X3V.REGION.trimmed.nt.nb","P3V.nt.nb", "N1.REGION.nt.nb", "P5D.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "P3D.nt.nb", "N2.REGION.nt.nb", "P5J.nt.nb", "X5J.REGION.trimmed.nt.nb", "X3V.REGION.trimmed.nt.nb", "X5D.REGION.trimmed.nt.nb", "X3D.REGION.trimmed.nt.nb", "X5J.REGION.trimmed.nt.nb", "N1.REGION.nt.nb", "N2.REGION.nt.nb", "P3V.nt.nb", "P5D.nt.nb", "P3D.nt.nb", "P5J.nt.nb")
 if(all(imgtcolumns %in% colnames(inputdata)))
 {
 newData = data.frame(data.table(PRODF)[,list(unique=.N,
 VH.DEL=mean(X3V.REGION.trimmed.nt.nb, na.rm=T),
 P1=mean(P3V.nt.nb, na.rm=T),
 N1=mean(N1.REGION.nt.nb, na.rm=T),
 P2=mean(P5D.nt.nb, na.rm=T),
 DEL.DH=mean(X5D.REGION.trimmed.nt.nb, na.rm=T),
 DH.DEL=mean(X3D.REGION.trimmed.nt.nb, na.rm=T),
 P3=mean(P3D.nt.nb, na.rm=T),
 N2=mean(N2.REGION.nt.nb, na.rm=T),
 P4=mean(P5J.nt.nb, na.rm=T),
 DEL.JH=mean(X5J.REGION.trimmed.nt.nb, na.rm=T),
 Total.Del=(	mean(X3V.REGION.trimmed.nt.nb, na.rm=T) +
 mean(X5D.REGION.trimmed.nt.nb, na.rm=T) +
 mean(X3D.REGION.trimmed.nt.nb, na.rm=T) +
 mean(X5J.REGION.trimmed.nt.nb, na.rm=T)),
 Total.N=(	mean(N1.REGION.nt.nb, na.rm=T) +
 mean(N2.REGION.nt.nb, na.rm=T)),
 Total.P=(	mean(P3V.nt.nb, na.rm=T) +
 mean(P5D.nt.nb, na.rm=T) +
 mean(P3D.nt.nb, na.rm=T) +
 mean(P5J.nt.nb, na.rm=T))),
 by=c("Sample")])
 write.table(newData, "junctionAnalysisProd.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)
-	newData = data.frame(data.table(UNPROD)[,list(unique=.N,
+newData = data.frame(data.table(UNPROD)[,list(unique=.N,
 VH.DEL=mean(X3V.REGION.trimmed.nt.nb, na.rm=T),
 P1=mean(P3V.nt.nb, na.rm=T),
 N1=mean(N1.REGION.nt.nb, na.rm=T),
 P2=mean(P5D.nt.nb, na.rm=T),
 DEL.DH=mean(X5D.REGION.trimmed.nt.nb, na.rm=T),
 DH.DEL=mean(X3D.REGION.trimmed.nt.nb, na.rm=T),
 P3=mean(P3D.nt.nb, na.rm=T),
 N2=mean(N2.REGION.nt.nb, na.rm=T),
 P4=mean(P5J.nt.nb, na.rm=T),
 DEL.JH=mean(X5J.REGION.trimmed.nt.nb, na.rm=T),
 Total.Del=(	mean(X3V.REGION.trimmed.nt.nb, na.rm=T) +
 mean(X5D.REGION.trimmed.nt.nb, na.rm=T) +
 mean(X3D.REGION.trimmed.nt.nb, na.rm=T) +
 mean(X5J.REGION.trimmed.nt.nb, na.rm=T)),
 Total.N=(	mean(N1.REGION.nt.nb, na.rm=T) +
 mean(N2.REGION.nt.nb, na.rm=T)),
 Total.P=(	mean(P3V.nt.nb, na.rm=T) +
 mean(P5D.nt.nb, na.rm=T) +
 mean(P3D.nt.nb, na.rm=T) +
 mean(P5J.nt.nb, na.rm=T))),
 by=c("Sample")])
 write.table(newData, "junctionAnalysisUnProd.csv" , sep=",",quote=F,na="-",row.names=F,col.names=F)
 }

Mercurial > repos > davidvanzessen > complete_immunerepertoire_igg

comparison RScript.r @ 10:b8db36cfe6ad draft