multilocus_genotype: multilocus

annotate multilocus_genotype.R @ 16:c4ec8727b50c draft

Uploaded

author	greg
date	Fri, 15 Feb 2019 10:25:04 -0500
parents	62ad61eac1ff
children	85f8fc57eee4

rev	line source
0 725b160c91f0 Uploaded greg parents: diff changeset	1 #!/usr/bin/env Rscript
725b160c91f0 Uploaded greg parents: diff changeset	2
725b160c91f0 Uploaded greg parents: diff changeset	3 suppressPackageStartupMessages(library("adegenet"))
725b160c91f0 Uploaded greg parents: diff changeset	4 suppressPackageStartupMessages(library("ape"))
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	5 suppressPackageStartupMessages(library("data.table"))
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	6 suppressPackageStartupMessages(library("dbplyr"))
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	7 suppressPackageStartupMessages(library("dplyr"))
0 725b160c91f0 Uploaded greg parents: diff changeset	8 suppressPackageStartupMessages(library("ggplot2"))
725b160c91f0 Uploaded greg parents: diff changeset	9 suppressPackageStartupMessages(library("knitr"))
4 a7cce4091e80 Uploaded greg parents: 3 diff changeset	10 suppressPackageStartupMessages(library("optparse"))
a7cce4091e80 Uploaded greg parents: 3 diff changeset	11 suppressPackageStartupMessages(library("poppr"))
a7cce4091e80 Uploaded greg parents: 3 diff changeset	12 suppressPackageStartupMessages(library("RColorBrewer"))
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	13 suppressPackageStartupMessages(library("RPostgres"))
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	14 suppressPackageStartupMessages(library("tidyr"))
4 a7cce4091e80 Uploaded greg parents: 3 diff changeset	15 suppressPackageStartupMessages(library("vcfR"))
a7cce4091e80 Uploaded greg parents: 3 diff changeset	16 suppressPackageStartupMessages(library("vegan"))
0 725b160c91f0 Uploaded greg parents: diff changeset	17
725b160c91f0 Uploaded greg parents: diff changeset	18 option_list <- list(
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	19 make_option(c("--database_connection_string"), action="store", dest="database_connection_string", help="Corals (stag) database connection string"),
18001e7cb199 Uploaded greg parents: 4 diff changeset	20 make_option(c("--input_affy_metadata"), action="store", dest="input_affy_metadata", help="Affymetrix 96 well plate input file"),
4 a7cce4091e80 Uploaded greg parents: 3 diff changeset	21 make_option(c("--input_pop_info"), action="store", dest="input_pop_info", help="Population information input file"),
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	22 make_option(c("--input_vcf"), action="store", dest="input_vcf", help="VCF input file"),
18001e7cb199 Uploaded greg parents: 4 diff changeset	23 make_option(c("--output_stag_db_report"), action="store", dest="output_stag_db_report", help="stag db report output file")
0 725b160c91f0 Uploaded greg parents: diff changeset	24 )
725b160c91f0 Uploaded greg parents: diff changeset	25
725b160c91f0 Uploaded greg parents: diff changeset	26 parser <- OptionParser(usage="%prog [options] file", option_list=option_list);
725b160c91f0 Uploaded greg parents: diff changeset	27 args <- parse_args(parser, positional_arguments=TRUE);
725b160c91f0 Uploaded greg parents: diff changeset	28 opt <- args$options;
725b160c91f0 Uploaded greg parents: diff changeset	29
725b160c91f0 Uploaded greg parents: diff changeset	30 get_file_path = function(file_name) {
725b160c91f0 Uploaded greg parents: diff changeset	31 file_path = paste("output_plots_dir", file_name, sep="/");
725b160c91f0 Uploaded greg parents: diff changeset	32 return(file_path);
725b160c91f0 Uploaded greg parents: diff changeset	33 }
725b160c91f0 Uploaded greg parents: diff changeset	34
8 d2057e183772 Uploaded greg parents: 7 diff changeset	35 get_database_connection <- function(db_conn_string) {
d2057e183772 Uploaded greg parents: 7 diff changeset	36 # Instantiate database connection.
d2057e183772 Uploaded greg parents: 7 diff changeset	37 # The connection string has this format:
d2057e183772 Uploaded greg parents: 7 diff changeset	38 # postgresql://user:password@host/dbname
d2057e183772 Uploaded greg parents: 7 diff changeset	39 conn_items <- strsplit(db_conn_string, "://")[[1]];
d2057e183772 Uploaded greg parents: 7 diff changeset	40 string_needed <- conn_items[2];
d2057e183772 Uploaded greg parents: 7 diff changeset	41 items_needed <- strsplit(string_needed, "@")[[1]];
d2057e183772 Uploaded greg parents: 7 diff changeset	42 user_pass_string <- items_needed[1];
d2057e183772 Uploaded greg parents: 7 diff changeset	43 host_dbname_string <- items_needed[2];
d2057e183772 Uploaded greg parents: 7 diff changeset	44 user_pass_items <- strsplit(user_pass_string, ":")[[1]];
d2057e183772 Uploaded greg parents: 7 diff changeset	45 host_dbname_items <- strsplit(host_dbname_string, "/")[[1]];
d2057e183772 Uploaded greg parents: 7 diff changeset	46 user <- user_pass_items[1];
d2057e183772 Uploaded greg parents: 7 diff changeset	47 pass <- user_pass_items[2];
d2057e183772 Uploaded greg parents: 7 diff changeset	48 host <- host_dbname_items[1];
d2057e183772 Uploaded greg parents: 7 diff changeset	49 dbname <- host_dbname_items[2];
d2057e183772 Uploaded greg parents: 7 diff changeset	50 # FIXME: is there a way to not hard-code the port?
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	51 conn <- DBI::dbConnect(RPostgres::Postgres(), host=host, port="5432", dbname=dbname, user=user, password=pass);
8 d2057e183772 Uploaded greg parents: 7 diff changeset	52 return (conn);
d2057e183772 Uploaded greg parents: 7 diff changeset	53 }
d2057e183772 Uploaded greg parents: 7 diff changeset	54
3 1bc815d9c8c5 Uploaded greg parents: 2 diff changeset	55 # Read in VCF input file.
2 86aaadf36a4f Uploaded greg parents: 0 diff changeset	56 vcf <- read.vcfR(opt$input_vcf);
0 725b160c91f0 Uploaded greg parents: diff changeset	57
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	58 # Convert VCF file into a genind for the Poppr package.
18001e7cb199 Uploaded greg parents: 4 diff changeset	59 # TODO: probably should not hard-code 2 cores.
18001e7cb199 Uploaded greg parents: 4 diff changeset	60 gl <- vcfR2genlight(vcf, n.cores=2);
8 d2057e183772 Uploaded greg parents: 7 diff changeset	61 gind <- new("genind", (as.matrix(gl)));
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	62
0 725b160c91f0 Uploaded greg parents: diff changeset	63 # Add population information to the genind object.
10 6c93244a36e2 Uploaded greg parents: 9 diff changeset	64 poptab <- read.table(opt$input_pop_info, check.names=FALSE, header=F, na.strings=c("", "NA"), stringsAsFactors=FALSE, sep="\t");
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	65 colnames(poptab) <- c("row_id", "affy_id", "user_specimen_id", "region");
8 d2057e183772 Uploaded greg parents: 7 diff changeset	66 gind@pop <- as.factor(poptab$region);
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	67
18001e7cb199 Uploaded greg parents: 4 diff changeset	68 # Convert genind object to a genclone object.
8 d2057e183772 Uploaded greg parents: 7 diff changeset	69 obj2 <- as.genclone(gind);
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	70
18001e7cb199 Uploaded greg parents: 4 diff changeset	71 # Calculate the bitwise distance between individuals.
8 d2057e183772 Uploaded greg parents: 7 diff changeset	72 xdis <- bitwise.dist(obj2);
0 725b160c91f0 Uploaded greg parents: diff changeset	73
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	74 # Multilocus genotypes (threshold of 16%).
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	75 mlg.filter(obj2, distance=xdis) <- 0.016;
8 d2057e183772 Uploaded greg parents: 7 diff changeset	76 m <- mlg.table(obj2, background=TRUE, color=TRUE);
0 725b160c91f0 Uploaded greg parents: diff changeset	77
725b160c91f0 Uploaded greg parents: diff changeset	78 # Create table of MLGs.
8 d2057e183772 Uploaded greg parents: 7 diff changeset	79 id <- mlg.id(obj2);
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	80 dt <- data.table(id, keep.rownames=TRUE);
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	81 setnames(dt, c("id"), c("affy_id"));
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	82
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	83 # Read user's Affymetrix 96 well plate tabular file.
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	84 pinfo <- read.table(opt$input_affy_metadata, header=FALSE, stringsAsFactors=FALSE, sep="\t");
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	85 colnames(pinfo) <- c("user_specimen_id", "field_call", "bcoral_genet_id", "bsym_genet_id", "reef",
c4ec8727b50c Uploaded greg parents: 15 diff changeset	86 "region", "latitude", "longitude", "geographic_origin", "sample_location",
c4ec8727b50c Uploaded greg parents: 15 diff changeset	87 "latitude_outplant", "longitude_outplant", "depth", "dist_shore", "disease_resist",
c4ec8727b50c Uploaded greg parents: 15 diff changeset	88 "bleach_resist", "mortality","tle", "spawning", "collector_last_name",
c4ec8727b50c Uploaded greg parents: 15 diff changeset	89 "collector_first_name", "org", "collection_date", "contact_email", "seq_facility",
c4ec8727b50c Uploaded greg parents: 15 diff changeset	90 "array_version", "public", "public_after_date", "sperm_motility", "healing_time",
c4ec8727b50c Uploaded greg parents: 15 diff changeset	91 "dna_extraction_method", "dna_concentration");
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	92 pinfo$user_specimen_id <- as.character(pinfo$user_specimen_id);
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	93 pinfo2 <- as.character(pinfo$user_specimen_id);
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	94 pi <- data.table(pinfo2);
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	95 setnames(pi, c("pinfo2"), c("user_specimen_id"));
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	96
8 d2057e183772 Uploaded greg parents: 7 diff changeset	97 # Connect to database.
d2057e183772 Uploaded greg parents: 7 diff changeset	98 conn <- get_database_connection(opt$database_connection_string);
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	99
18001e7cb199 Uploaded greg parents: 4 diff changeset	100 # Import the sample table.
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	101 sample_table <- tbl(conn, "sample");
c4ec8727b50c Uploaded greg parents: 15 diff changeset	102
c4ec8727b50c Uploaded greg parents: 15 diff changeset	103 # Import the genotype table.
c4ec8727b50c Uploaded greg parents: 15 diff changeset	104 genotype_table <- tbl(conn, "genotype");
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	105
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	106 # Select columns from the sample table and the
c4ec8727b50c Uploaded greg parents: 15 diff changeset	107 # genotype table joined by genotype_id.
c4ec8727b50c Uploaded greg parents: 15 diff changeset	108 sample_table_columns <- sample_table %>% select(user_specimen_id, affy_id, genotype_id);
c4ec8727b50c Uploaded greg parents: 15 diff changeset	109 smlg <- sample_table_columns %>%
c4ec8727b50c Uploaded greg parents: 15 diff changeset	110 left_join(genotype_table %>%
c4ec8727b50c Uploaded greg parents: 15 diff changeset	111 select("id", "coral_mlg_clonal_id", "symbio_mlg_clonal_id"),
c4ec8727b50c Uploaded greg parents: 15 diff changeset	112 by=c("genotype_id" = "id"));
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	113
18001e7cb199 Uploaded greg parents: 4 diff changeset	114 # Convert to dataframe.
18001e7cb199 Uploaded greg parents: 4 diff changeset	115 sm <- data.frame(smlg);
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	116 # Name the columns.
c4ec8727b50c Uploaded greg parents: 15 diff changeset	117 colnames(sm) <- c("user_specimen_id", "affy_id", "genotype_id", "coral_mlg_clonal_id", "symbio_mlg_clonal_id");
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	118
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	119 # Missing GT in samples submitted.
ea2914ddea50 Uploaded greg parents: 10 diff changeset	120 gt <- extract.gt(vcf, element="GT", as.numeric=FALSE);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	121 myMiss <- apply(gt, MARGIN=2, function(x){ sum(is.na(x))});
ea2914ddea50 Uploaded greg parents: 10 diff changeset	122 myMiss <- (myMiss / nrow(vcf)) * 100;
ea2914ddea50 Uploaded greg parents: 10 diff changeset	123 miss <- data.frame(myMiss);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	124
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	125 # Convert missing data into data table.
8 d2057e183772 Uploaded greg parents: 7 diff changeset	126 mi <-setDT(miss, keep.rownames=TRUE)[];
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	127 setnames(mi, c("rn"), c("affy_id"));
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	128 setnames(mi, c("myMiss"), c("percent_missing_data_coral"));
18001e7cb199 Uploaded greg parents: 4 diff changeset	129 # Round missing data to two digits.
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	130 mi$percent_missing_data_coral <- round(mi$percent_missing_data_coral, digits=2);
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	131
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	132 hets <- apply(gt, MARGIN=2, function(x) {sum(lengths(regmatches(x, gregexpr("0/1", x))))} );
ea2914ddea50 Uploaded greg parents: 10 diff changeset	133 hets <- (hets / nrow(vcf)) * 100;
ea2914ddea50 Uploaded greg parents: 10 diff changeset	134 ht <- data.frame(hets);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	135
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	136 # Convert heterozygosity data into data table.
18001e7cb199 Uploaded greg parents: 4 diff changeset	137 ht <-setDT(ht, keep.rownames=TRUE)[];
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	138 setnames(ht, c("rn"), c("affy_id"));
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	139 setnames(ht, c("hets"), c("percent_mixed_coral"));
18001e7cb199 Uploaded greg parents: 4 diff changeset	140 # Round missing data to two digits.
18001e7cb199 Uploaded greg parents: 4 diff changeset	141 ht$percent_mixed<-round(ht$percent_mixed, digits=2);
18001e7cb199 Uploaded greg parents: 4 diff changeset	142
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	143 refA <- apply(gt, MARGIN=2, function(x) {sum(lengths(regmatches(x, gregexpr("0/0", x))))} );
ea2914ddea50 Uploaded greg parents: 10 diff changeset	144 refA <- (refA / nrow(vcf)) * 100;
ea2914ddea50 Uploaded greg parents: 10 diff changeset	145 rA <- data.frame(refA);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	146
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	147 # Convert refA data into data.table.
18001e7cb199 Uploaded greg parents: 4 diff changeset	148 rA <-setDT(rA, keep.rownames=TRUE)[];
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	149 setnames(rA, c("rn"), c("affy_id"));
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	150 setnames(rA, c("refA"), c("percent_reference_coral"));
18001e7cb199 Uploaded greg parents: 4 diff changeset	151 # round missing data to two digits.
18001e7cb199 Uploaded greg parents: 4 diff changeset	152 rA$percent_reference<-round(rA$percent_reference, digits=2);
18001e7cb199 Uploaded greg parents: 4 diff changeset	153
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	154 altB <- apply(gt, MARGIN=2, function(x) {sum(lengths(regmatches(x, gregexpr("1/1", x))))} );
ea2914ddea50 Uploaded greg parents: 10 diff changeset	155 altB <- (altB / nrow(vcf)) * 100;
ea2914ddea50 Uploaded greg parents: 10 diff changeset	156 aB <- data.frame(altB);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	157
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	158 # Convert altB data into data table.
18001e7cb199 Uploaded greg parents: 4 diff changeset	159 aB <-setDT(aB, keep.rownames=TRUE)[];
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	160 setnames(aB, c("rn"), c("affy_id"));
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	161 setnames(aB, c("altB"), c("percent_alternative_coral"));
18001e7cb199 Uploaded greg parents: 4 diff changeset	162 # Round missing data to two digits.
18001e7cb199 Uploaded greg parents: 4 diff changeset	163 aB$percent_alternative<-round(aB$percent_alternative, digits=2);
18001e7cb199 Uploaded greg parents: 4 diff changeset	164
18001e7cb199 Uploaded greg parents: 4 diff changeset	165 #convert mlg id to data.table format
18001e7cb199 Uploaded greg parents: 4 diff changeset	166 dt <- data.table(id, keep.rownames=TRUE);
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	167 setnames(dt, c("id"), c("affy_id"));
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	168
18001e7cb199 Uploaded greg parents: 4 diff changeset	169 # Transform.
18001e7cb199 Uploaded greg parents: 4 diff changeset	170 df3 <- dt %>%
18001e7cb199 Uploaded greg parents: 4 diff changeset	171 group_by(row_number()) %>%
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	172 dplyr::rename(group="row_number()") %>%
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	173 unnest (affy_id) %>%
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	174 # Join with mlg table.
18001e7cb199 Uploaded greg parents: 4 diff changeset	175 left_join(sm %>%
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	176 select("affy_id","coral_mlg_clonal_id"),
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	177 by="affy_id");
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	178
18001e7cb199 Uploaded greg parents: 4 diff changeset	179 # If found in database, group members on previous mlg id.
18001e7cb199 Uploaded greg parents: 4 diff changeset	180 uniques <- unique(df3[c("group", "coral_mlg_clonal_id")]);
18001e7cb199 Uploaded greg parents: 4 diff changeset	181 uniques <- uniques[!is.na(uniques$coral_mlg_clonal_id),];
18001e7cb199 Uploaded greg parents: 4 diff changeset	182 na.mlg <- which(is.na(df3$coral_mlg_clonal_id));
18001e7cb199 Uploaded greg parents: 4 diff changeset	183 na.group <- df3$group[na.mlg];
18001e7cb199 Uploaded greg parents: 4 diff changeset	184 df3$coral_mlg_clonal_id[na.mlg] <- uniques$coral_mlg_clonal_id[match(na.group, uniques$group)];
18001e7cb199 Uploaded greg parents: 4 diff changeset	185
18001e7cb199 Uploaded greg parents: 4 diff changeset	186 # Determine if the sample mlg matched previous genotyped sample.
18001e7cb199 Uploaded greg parents: 4 diff changeset	187 df4<- df3 %>%
18001e7cb199 Uploaded greg parents: 4 diff changeset	188 group_by(group) %>%
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	189 mutate(DB_match = ifelse(is.na(coral_mlg_clonal_id),"no_match", "match"));
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	190
18001e7cb199 Uploaded greg parents: 4 diff changeset	191 # Create new mlg id for samples that did not match those in the database.
18001e7cb199 Uploaded greg parents: 4 diff changeset	192 none <- unique(df4[c("group", "coral_mlg_clonal_id")]);
18001e7cb199 Uploaded greg parents: 4 diff changeset	193 none <- none[is.na(none$coral_mlg_clonal_id),];
18001e7cb199 Uploaded greg parents: 4 diff changeset	194 na.mlg2 <- which(is.na(df4$coral_mlg_clonal_id));
18001e7cb199 Uploaded greg parents: 4 diff changeset	195 n.g <- df4$group[na.mlg2];
18001e7cb199 Uploaded greg parents: 4 diff changeset	196 ct <- length(unique(n.g));
18001e7cb199 Uploaded greg parents: 4 diff changeset	197
18001e7cb199 Uploaded greg parents: 4 diff changeset	198 # List of new group ids, the sequence starts at the number of
18001e7cb199 Uploaded greg parents: 4 diff changeset	199 # ids present in df4$coral_mlg_clonal_ids plus 1. Not sure if
18001e7cb199 Uploaded greg parents: 4 diff changeset	200 # the df4 file contains all ids. If it doesn't then look below
18001e7cb199 Uploaded greg parents: 4 diff changeset	201 # to change the seq() function.
18001e7cb199 Uploaded greg parents: 4 diff changeset	202 n.g_ids <- sprintf("HG%04d", seq((sum(!is.na(unique(df4["coral_mlg_clonal_id"]))) + 1), by=1, length=ct));
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	203 # Pair group with new ids.
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	204 rat <- cbind(unique(n.g), n.g_ids);
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	205 # Assign the new id iteratively for all that have NA.
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	206 for (i in 1:length(na.mlg2)) {
18001e7cb199 Uploaded greg parents: 4 diff changeset	207 df4$coral_mlg_clonal_id[na.mlg2[i]] <- n.g_ids[match(df4$group[na.mlg2[i]], unique(n.g))];
18001e7cb199 Uploaded greg parents: 4 diff changeset	208 }
18001e7cb199 Uploaded greg parents: 4 diff changeset	209
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	210 # Subset poptab for all samples.
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	211 subpop <- poptab[c(2, 3)];
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	212
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	213 # Merge data frames for final table.
18001e7cb199 Uploaded greg parents: 4 diff changeset	214 report_user <- pi %>%
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	215 left_join(subpop %>%
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	216 select("affy_id", "user_specimen_id"),
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	217 by="user_specimen_id") %>%
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	218 left_join(df4 %>%
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	219 select("affy_id", "coral_mlg_clonal_id", "DB_match"),
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	220 by="affy_id") %>%
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	221 left_join(mi %>%
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	222 select("affy_id", "percent_missing_data_coral"),
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	223 by="affy_id") %>%
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	224 left_join(ht %>%
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	225 select("affy_id", "percent_mixed_coral"),
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	226 by="affy_id") %>%
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	227 left_join(rA %>%
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	228 select("affy_id", "percent_reference_coral"),
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	229 by="affy_id") %>%
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	230 left_join(aB %>%
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	231 select("affy_id", "percent_alternative_coral"),
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	232 by="affy_id") %>%
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	233 mutate(DB_match = ifelse(is.na(DB_match), "failed", DB_match))%>%
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	234 mutate(coral_mlg_clonal_id = ifelse(is.na(coral_mlg_clonal_id), "failed", coral_mlg_clonal_id)) %>%
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	235 ungroup() %>%
18001e7cb199 Uploaded greg parents: 4 diff changeset	236 select(-group);
18001e7cb199 Uploaded greg parents: 4 diff changeset	237
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	238 write.csv(report_user, file=opt$output_stag_db_report, quote=FALSE);
0 725b160c91f0 Uploaded greg parents: diff changeset	239
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	240 # Combine sample information for database.
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	241 report_db <- pinfo %>%
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	242 left_join(report_user %>%
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	243 select("user_specimen_id", "affy_id", "coral_mlg_clonal_id", "DB_match",
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	244 "percent_missing_data_coral", "percent_mixed_coral", "percent_reference_coral",
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	245 "percent_alternative_coral"),
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	246 by="user_specimen_id");
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	247
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	248 # Create vector indicating number of individuals desired
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	249 # made from affy_id collumn of report_user data table.
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	250 i <- report_user[[2]];
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	251 sub96 <- obj2[i, mlg.reset=FALSE, drop=FALSE];
0 725b160c91f0 Uploaded greg parents: diff changeset	252
4 a7cce4091e80 Uploaded greg parents: 3 diff changeset	253 # Create a phylogeny of samples based on distance matrices.
16 c4ec8727b50c Uploaded greg parents: 15 diff changeset	254 cols <- palette(brewer.pal(n=12, name="Set3"));
4 a7cce4091e80 Uploaded greg parents: 3 diff changeset	255 set.seed(999);
a7cce4091e80 Uploaded greg parents: 3 diff changeset	256 # Start PDF device driver.
a7cce4091e80 Uploaded greg parents: 3 diff changeset	257 dev.new(width=10, height=7);
a7cce4091e80 Uploaded greg parents: 3 diff changeset	258 file_path = get_file_path("nj_phylogeny.pdf");
a7cce4091e80 Uploaded greg parents: 3 diff changeset	259 pdf(file=file_path, width=10, height=7);
a7cce4091e80 Uploaded greg parents: 3 diff changeset	260 # Organize branches by clade.
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	261 theTree <- sub96 %>%
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	262 aboot(dist=provesti.dist, sample=1, tree="nj", cutoff=50, quiet=TRUE) %>%
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	263 ladderize();
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	264 theTree$tip.label <- report_user$user_specimen_id[match(theTree$tip.label, report_user$affy_id)];
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	265 plot.phylo(theTree, tip.color=cols[sub96$pop], label.offset=0.0125, cex=0.3, font=2, lwd=4, align.tip.label=F, no.margin=T);
4 a7cce4091e80 Uploaded greg parents: 3 diff changeset	266 # Add a scale bar showing 5% difference..
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	267 add.scale.bar(0, 0.95, length=0.05, cex=0.65, lwd=3);
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	268 nodelabels(theTree$node.label, cex=.5, adj=c(1.5, -0.1), frame="n", font=3, xpd=TRUE);
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	269 legend("topright", legend=c("Antigua", "Bahamas", "Belize", "Cuba", "Curacao", "Florida", "PuertoRico", "USVI"), text.col=cols, xpd=T, cex=0.8);
7 18001e7cb199 Uploaded greg parents: 4 diff changeset	270 dev.off();
0 725b160c91f0 Uploaded greg parents: diff changeset	271
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	272 # Missing data barplot.
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	273 poptab$miss <- report_user$percent_missing_data_coral[match(miss$affy_id, report_user$affy_id)];
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	274 test2 <- which(!is.na(poptab$miss));
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	275 miss96 <- poptab$miss[test2];
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	276 name96 <- poptab$user_specimen_id[test2];
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	277 dev.new(width=10, height=7);
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	278 file_path = get_file_path("missing_data.pdf");
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	279 pdf (file=file_path, width=10, height=7);
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	280 par(mar = c(8, 4, 4, 2));
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	281 x <- barplot(miss96, las=2, col=cols, ylim=c(0, 3), cex.axis=0.8, space=0.8, ylab="Missingness (%)", xaxt="n");
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	282 text(cex=0.6, x=x-0.25, y=-.05, name96, xpd=TRUE, srt=60, adj=1);
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	283 dev.off()
8f2f346a5e1c Uploaded greg parents: 8 diff changeset	284
15 62ad61eac1ff Uploaded greg parents: 14 diff changeset	285 # Generate a pie chart for each sample with a genotype.
62ad61eac1ff Uploaded greg parents: 14 diff changeset	286 # Store the numerical and user_specimen_id values from
62ad61eac1ff Uploaded greg parents: 14 diff changeset	287 # report_user for the charts (user_specimen_id names
62ad61eac1ff Uploaded greg parents: 14 diff changeset	288 # will be used to label each chart).
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	289 dt1 <- data.table(report_user);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	290 dt1 <- report_user[c(-2, -3, -4)];
ea2914ddea50 Uploaded greg parents: 10 diff changeset	291 dt1 <- na.omit(dt1);
15 62ad61eac1ff Uploaded greg parents: 14 diff changeset	292 # Translate to N (i.e., number of samples with a
62ad61eac1ff Uploaded greg parents: 14 diff changeset	293 # genotype) columns and 5 rows.
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	294 tdt1 <- t(dt1);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	295 # Make another data table and transpose it the same as dt1 to
15 62ad61eac1ff Uploaded greg parents: 14 diff changeset	296 # get numerics. These will feed into the creation of N vectors.
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	297 dt2 <- data.table(report_user);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	298 dt2 <- report_user[c(-1, -2, -3, -4)];
15 62ad61eac1ff Uploaded greg parents: 14 diff changeset	299 # Translate to N columns and 5 rows.
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	300 tdt2 <- t(dt2);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	301 tdt1_matrix <- as.matrix(tdt1[-1,]);
15 62ad61eac1ff Uploaded greg parents: 14 diff changeset	302 # The number of columns is the number of samples with genotypes.
62ad61eac1ff Uploaded greg parents: 14 diff changeset	303 nc <- ncol(tdt1_matrix);
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	304 mode(tdt1_matrix) <- "numeric";
ea2914ddea50 Uploaded greg parents: 10 diff changeset	305 spy <- rowMeans(tdt1_matrix);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	306 dev.new(width=10, height=7);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	307 file_path = get_file_path("percent_breakdown.pdf");
ea2914ddea50 Uploaded greg parents: 10 diff changeset	308 pdf(file=file_path, width=10, height=7);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	309 # Average pie of all samples.
ea2914ddea50 Uploaded greg parents: 10 diff changeset	310 labels <- paste(c("missing data", "mixed", "reference", "alternative"), " (", round(spy, 1), "%)", sep="");
ea2914ddea50 Uploaded greg parents: 10 diff changeset	311 col <- c("GREY", "#006DDB", "#24FF24", "#920000");
ea2914ddea50 Uploaded greg parents: 10 diff changeset	312 main <- "Average breakdown of SNP assignments across all samples";
ea2914ddea50 Uploaded greg parents: 10 diff changeset	313 pie(spy, labels=labels, radius=0.60, col=col, main=main, cex.main=.75);
ea2914ddea50 Uploaded greg parents: 10 diff changeset	314 par(mfrow=c(3, 2));
14 96ee9122823e Uploaded greg parents: 12 diff changeset	315 col <- c("GREY", "#006DDB", "#24FF24", "#920000");
15 62ad61eac1ff Uploaded greg parents: 14 diff changeset	316 for (i in 1:nc) {
14 96ee9122823e Uploaded greg parents: 12 diff changeset	317 tmp_labels <- paste(labels, " (", round(tdt1_matrix[,i], 1), "%)", sep="");
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	318 main <- paste("Breakdown of SNP assignments for", tdt1[1, i]);
14 96ee9122823e Uploaded greg parents: 12 diff changeset	319 pie(tdt1_matrix[,i], labels=tmp_labels, radius=0.90, col=col, main=main, cex.main=.85, cex=0.75);
12 ea2914ddea50 Uploaded greg parents: 10 diff changeset	320 }
ea2914ddea50 Uploaded greg parents: 10 diff changeset	321 dev.off()
9 8f2f346a5e1c Uploaded greg parents: 8 diff changeset	322

Mercurial > repos > greg > multilocus_genotype

annotate multilocus_genotype.R @ 16:c4ec8727b50c draft