extract_duplicates: extract_duplicates.r comparison

Uploaded

comparison

equal deleted inserted replaced

-:a3c4e3e62e10
+:1f1640608245
 args <- commandArgs(trailingOnly = TRUE)
 input=args[1]
 column=as.numeric(args[2])
 header=(args[3] == "yes")
-out_file=args[4]
+regex_filter=args[4]
+out_file=args[5]
+print(regex_filter)
 dat = read.table(input, header=header, sep="\t", fill=T, stringsAsFactors=F, quote="")
-duplicates = dat[duplicated(dat[,column]),column]
+dat.names = names(dat)
-dat = dat[dat[,column] %in% duplicates,]
+dat$filtered = gsub("\\(.*", "", dat[,column])
-dat = dat[order(dat[,column]),]
+duplicates = dat[duplicated(dat$filtered),"filtered"]
-write.table(dat, out_file, sep="\t", row.names=F, col.names=header, quote=F)
+dat = dat[dat[,"filtered"] %in% duplicates,]
+dat = dat[order(dat[,"filtered"]),]
+write.table(dat[,dat.names], out_file, sep="\t", row.names=F, col.names=header, quote=F)

Mercurial > repos > davidvanzessen > extract_duplicates