Mercurial > repos > davidvanzessen > extract_duplicates

diff extract_duplicates.r @ 2:1f1640608245 draft default tip
Uploaded
author: davidvanzessen
date: Tue, 01 Sep 2015 08:34:27 -0400
parents: a3c4e3e62e10
--- a/extract_duplicates.r	Tue Sep 01 07:49:47 2015 -0400
+++ b/extract_duplicates.r	Tue Sep 01 08:34:27 2015 -0400
@@ -3,14 +3,21 @@
 input=args[1]
 column=as.numeric(args[2])
 header=(args[3] == "yes")
-out_file=args[4]
+regex_filter=args[4]
+out_file=args[5]
+
+print(regex_filter)
 
 dat = read.table(input, header=header, sep="\t", fill=T, stringsAsFactors=F, quote="")
 
-duplicates = dat[duplicated(dat[,column]),column]
+dat.names = names(dat)
 
-dat = dat[dat[,column] %in% duplicates,]
+dat$filtered = gsub("\\(.*", "", dat[,column])
+
+duplicates = dat[duplicated(dat$filtered),"filtered"]
 
-dat = dat[order(dat[,column]),]
+dat = dat[dat[,"filtered"] %in% duplicates,]
 
-write.table(dat, out_file, sep="\t", row.names=F, col.names=header, quote=F)
+dat = dat[order(dat[,"filtered"]),]
+
+write.table(dat[,dat.names], out_file, sep="\t", row.names=F, col.names=header, quote=F)