mqppep_anova: mqppep_anova_script.Rmd comparison

comparison mqppep_anova_script.Rmd @ 24:8582a9797c18 draft

planemo upload for repository https://github.com/galaxyproteomics/tools-galaxyp/tree/master/tools/mqppep commit c9e47049958ea3b12e30b9bd8884d48147c45edd

author	eschen42
date	Thu, 14 Jul 2022 02:12:33 +0000
parents	61adb8801b73
children	f9cd87ac8006

comparison

equal deleted inserted replaced

-:3911581e639a
+:8582a9797c18
 params:
 alphaFile:            "test-data/alpha_levels.tabular"
 inputFile:            "test-data/test_input_for_anova.tabular"
 preprocDb:            "test-data/test_input_for_anova.sqlite"
 kseaAppPrepDb:        !r c(":memory:", "test-data/mqppep.sqlite")[2]
+regexSampleNames:     "\\.\\d+[A-Z]$"
+regexSampleGrouping:  "\\d+"
 show_toc:             true
 firstDataColumn:      "^Intensity[^_]"
-imputationMethod:     !r c("group-median", "median", "mean", "random")[1]
+imputationMethod:     !r c("group-median", "median", "mean", "random")[4]
 meanPercentile:       1
 sdPercentile:         1.0
-regexSampleNames:     "\\.\\d+[A-Z]$"
-regexSampleGrouping:  "\\d+"
 imputedDataFilename:  "test-data/limbo/imputedDataFilename.txt"
 imputedQNLTDataFile:  "test-data/limbo/imputedQNLTDataFile.txt"
 anovaKseaMetadata:    "test-data/limbo/anovaKseaMetadata.txt"
 oneWayManyCategories: !r c("aov", "kruskal.test", "oneway.test")[1]
 oneWayTwoCategories:  !r c("aov", "kruskal.test", "oneway.test")[3]
 kseaCutoffThreshold:  !r c( 0.1, 0.05)[2]
 kseaMinKinaseCount:   1
 intensityHeatmapRows: 75
 ---
 <!--
-kseaCutoffStatistic:  !r c("p.value", "FDR")[2]
-kseaCutoffThreshold:  !r c(0.05, 0.1)[1]
 alphaFile:            "test-data/alpha_levels.tabular"
 inputFile:            "test-data/test_input_for_anova.tabular"
 preprocDb:            "test-data/test_input_for_anova.sqlite"
 kseaAppPrepDb:        !r c(":memory:", "test-data/mqppep.sqlite")[2]
+regexSampleNames:     "\\.\\d+[A-Z]$"
+regexSampleGrouping:  "\\d+"
+alphaFile:            "test-data/alpha_levels.tabular"
+inputFile:            "test-data/PDX_pST_by_trt.ppep_intensities.ppep_map.preproc_tab.tabular"
+preprocDb:            "test-data/PDX_pST_by_trt.ppep_intensities.ppep_map.preproc_sqlite.sqlite"
+kseaAppPrepDb:        !r c(":memory:", "test-data/mqppep.sqlite")[2]
+regexSampleNames:     "\\.\\w+\\.\\d+[A-Z]$"
+regexSampleGrouping:  "\\w+"
+kseaCutoffStatistic:  !r c("p.value", "FDR")[2]
+kseaCutoffThreshold:  !r c(0.05, 0.1)[1]
 alphaFile:            "test-data/alpha_levels.tabular"
 inputFile:            "test-data/UT_phospho_ST_sites.preproc.tabular"
 preprocDb:            "test-data/UT_phospho_ST_sites.preproc.sqlite"
 kseaAppPrepDb:        !r c(":memory:", "test-data/UT_phospho_ST_sites.ksea.sqlite")[2]
+regexSampleNames:     "\\.\\d+[A-Z]$"
+regexSampleGrouping:  "\\d+"
 alphaFile:            "test-data/alpha_levels.tabular"
 inputFile:            "test-data/pY_Sites_NancyDu.txt.ppep_intensities.ppep_map.preproc.tabular"
 preprocDb:            "test-data/pY_Sites_NancyDu.txt.ppep_intensities.ppep_map.preproc.sqlite"
-kseaAppPrepDb:        !r c(":memory:", "test-data/pST_Sites_NancyDu.ksea.sqlite")[2]
+kseaAppPrepDb:        !r c(":memory:", "test-data/pY_Sites_NancyDu.ksea.sqlite")[2]
+regexSampleNames:     "\\.\\d+[A-Z]$"
+regexSampleGrouping:  "\\d+"
 alphaFile:            "test-data/alpha_levels.tabular"
 inputFile:            "test-data/pST_Sites_NancyDu.txt.preproc.tabular"
 preprocDb:            "test-data/pST_Sites_NancyDu.txt.preproc.sqlite"
 kseaAppPrepDb:        !r c(":memory:", "test-data/pST_Sites_NancyDu.ksea.sqlite")[2]
 )
 )
 k <- k[selector < ksea_cutoff_threshold, ]
-if (nrow(k) > 1) {
+if (nrow(k) > 0) {
 op <- par(mai = c(1, 1.5, 0.4, 0.4))
 numeric_z_score <- as.numeric(k$z_score)
 z_score_order <- order(numeric_z_score)
 kinase_name <- k$kinase_gene
 long_caption <-
 barplot(
 height = numeric_z_score[z_score_order],
 border = NA,
 xpd = FALSE,
 cex.names = 1.0,
-cex.axis = 1.0,
 main = long_caption,
 cex.main = my_cex_caption,
 names.arg = kinase_name[z_score_order],
 horiz = TRUE,
 srt = 45,
-las = 1)
+las = 1,
+cex.axis = 0.9
+)
 par(op)
 }
 }
 }
 }
 }
 # create_breaks is a helper for ksea_heatmap
 create_breaks <- function(merged_scores) {
+if (sum(!is.na(merged_scores)) < 2)
+return(NULL)
 if (min(merged_scores, na.rm = TRUE) < -1.6) {
 breaks_neg <- seq(-1.6, 0, length.out = 30)
 breaks_neg <-
 append(
 seq(min(merged_scores, na.rm = TRUE), -1.6, length.out = 10),
 typeof(x),
 "' rather than 'matrix'.\n\n"
 )
 )
 } else if (nrow(x) < 2) {
-cat("No plot because matrix x has ", nrow(x), " rows.\n\n")
+cat("No plot because matrix has ", nrow(x), " rows.\n\n")
-cat("\\begin{verbatim}\n")
+return(FALSE)
-str(x)
-cat("\\end{verbatim}\n")
 } else if (ncol(x) < 2) {
 cat("No plot because matrix x has ", ncol(x), " columns.\n\n")
-cat("\\begin{verbatim}\n")
+return(FALSE)
-str(x)
-cat("\\end{verbatim}\n")
 } else {
+my_limit <- 25
+my_cex_col <- my_limit / (my_limit + ncol(x))
+my_cex_row <- my_limit / (my_limit + nrow(x))
+my_scale <- 12.0
+if (ncol(x) < 10 && nrow(x) < 10)
+my_scale <- my_scale * 10 / (10 - nrow(x)) * 10 / (10 - ncol(x))
 gplots::heatmap.2(
 x            = merged_scores,
 Colv         = sample_cluster,
+breaks       = color_breaks[[1]],
+cellnote     = merged_asterisk,
+cexCol       = 0.9 * my_cex_col,
+cexRow       = 2 * my_cex_row,
+col          = color_breaks[[2]],
+density.info = "none",
+key          = FALSE,
+lhei         = c(0.4, 8.0, 1.1),
+lmat         = rbind(c(0, 3), c(2, 1), c(0, 4)),
+lwid         = c(0.5, 3),
+margins      = margins,
+notecex      = my_scale * my_cex_row * my_cex_col,
+notecol      = "white",
 scale        = "none",
-cellnote     = merged_asterisk,
-notecol      = "white",
-cexCol       = 0.9,
-# Heuristically assign size of row labels
-cexRow       = min(1.0, ((3 * my_cex_row) ^ 1.7) / 2.25),
 srtCol       = 45,
 srtRow       = 45,
-notecex      = 3 * my_cex_row,
-col          = color_breaks[[2]],
-density.info = "none",
 trace        = "none",
-breaks       = color_breaks[[1]],
-lmat         = rbind(c(0, 3), c(2, 1), c(0, 4)),
-lhei         = c(0.4, 8.0, 1.1),
-lwid         = c(0.5, 3),
-key          = FALSE,
-margins      = margins,
 ...
 )
+return(TRUE)
 }
 }
 # Adapted from KSEAapp::KSEA.Heatmap
 ksea_heatmap <- function(
 paste(names, i, sep = ".")
 }
 master <-
 Reduce(
 f = function(...) {
-base::merge(..., by = "Kinase.Gene", all = FALSE)
+base::merge(..., by = "Kinase.Gene", all = TRUE)
 },
 x = score_list_m
 )
 row.names(master) <- master$Kinase.Gene
 asterisk_rows <- rowSums(merged_asterisk == "*") > 0
 all_rows <- rownames(merged_stats)
 names(asterisk_rows) <- all_rows
 non_asterisk_rows <- names(asterisk_rows[asterisk_rows == FALSE])
 asterisk_rows <- names(asterisk_rows[asterisk_rows == TRUE])
-merged_scores_asterisk <- merged_scores[names(asterisk_rows), ]
+merged_scores_asterisk <- merged_scores[names(asterisk_rows), , drop = FALSE]
-merged_scores_non_asterisk <- merged_scores[names(non_asterisk_rows), ]
+merged_scores_non_asterisk <- merged_scores[names(non_asterisk_rows), , drop = FALSE]
 # end hack to print only significant rows
 row_list <- list()
 row_list[[const_ksea_astrsk_kinases]] <- asterisk_rows
 row_list[[const_ksea_all_kinases]] <- all_rows
 row_list[[const_ksea_nonastrsk_kinases]] <- non_asterisk_rows
 i <- which_kinases
 my_row_names <- row_list[[i]]
-scrs <- merged_scores[my_row_names, ]
+scrs <- merged_scores[my_row_names, , drop = FALSE]
-stts <- merged_stats[my_row_names, ]
+stts <- merged_stats[my_row_names, , drop = FALSE]
 merged_asterisk <- as.matrix(asterisk(stts, p_cutoff))
 color_breaks <- create_breaks(scrs)
+if (is.null(color_breaks)) {
+cat("No plot because matrix has too many missing values.\n\n")
+return(NULL)
+}
 plot_height <- nrow(scrs) ^ 0.55
 plot_width <- ncol(scrs) ^ 0.7
 my_cex_row <- 0.25 * 16 / plot_height
 if (export == "TRUE") {
 png(
 height = 2 * plot_height * 300,
 res = 300,
 pointsize = 14
 )
 }
-draw_kseaapp_summary_heatmap(
+did_draw <- draw_kseaapp_summary_heatmap(
 x               = scrs,
 sample_cluster  = sample_cluster,
 merged_asterisk = merged_asterisk,
 my_cex_row      = my_cex_row,
 color_breaks    = color_breaks,
 margins         = margins
 )
 if (export == "TRUE") {
 dev.off()
 }
+if (!did_draw)
+return(NULL)
 return(my_row_names)
 }
 # helper for heatmaps of phosphopeptide intensities
-draw_intensity_heatmap <-
+draw_ppep_heatmap <-
 function(
 m,                              # matrix with rownames already formatted
 cutoff,                         # cutoff used by hm_heading_function
 hm_heading_function,            # construct and cat heading from m and cutoff
 hm_main_title,                  # main title for plot (drawn below heading)
 ) {
 peptide_count <- 0
 # emit the heading for the heatmap
 if (hm_heading_function(m, cutoff)) {
 peptide_count <- min(max_peptide_count, nrow(m))
-if (nrow(m) > 1) {
+if (nrow(m) > 0) {
 m_margin <- m[peptide_count:1, ]
 # Margin setting was heuristically derived
 margins <-
 c(0.5, # col
 max(80, sqrt(nchar(rownames(m_margin)))) * 5 / 16  # row
 )
 }
-if (nrow(m) > 1) {
+if (nrow(m) > 0) {
+hm_call <- NULL
 tryCatch(
 {
 old_oma <- par("oma")
 par(cex.main = 0.6)
 # Heuristically determined character size adjustment formula
-char_contractor <-
+my_cex_row <-
 250000 / (
 max(4500, (nchar(rownames(m_margin)))^2) * intensity_hm_rows
 )
-heatmap(
+m_hm <-  m[peptide_count:1, , drop = FALSE]
-m[peptide_count:1, ],
+my_limit <- 60
-Rowv = if (suppress_row_dendrogram) NA else NULL,
+my_cex_col <- 0.75 * my_limit / (my_limit + ncol(m_hm))
-Colv = NA,
+hm_call <- function(x, scaling, title) {
-cexRow = char_contractor,
+heatmap(
-cexCol = char_contractor * 50 / max_peptide_count,
+x,
-scale = "row",
+Rowv = if (suppress_row_dendrogram) NA else NULL,
-margins = margins,
+Colv = NA,
-main =
+cexRow = my_cex_row,
-"Unimputed, unnormalized log(intensities)",
+cexCol = my_cex_col,
-xlab = "",
+scale = scaling,
-las = 1,
+margins = margins,
-...
+main = title,
-)
+xlab = "",
+las = 1,
+...
+)
+}
+if (sum(rowSums(!is.na(m_hm)) < 2))
+hm_call(
+m_hm,
+"none",
+"log(intensities), unscaled, unimputed, and unnormalized"
+)
+else
+hm_call(
+m_hm,
+"row",
+"log(intensities), row-scaled, unimputed, and unnormalized"
+)
 },
 error = function(e) {
-cat(
+if (!is.null(hm_call)) {
-sprintf(
+m_hm[is.na(m_hm)] <- 0
-"\nCould not draw heatmap, possibly because of too many missing values.  Internal message: %s\n",
+tryCatch(
-e$message
+{
+if (nrow(m_hm) > 1)
+hm_call(
+m_hm,
+"none",
+paste(
+"log(intensities), unscaled, unimputed,",
+"NAs zeroed, unnormalized"
+)
+)
+else
+cat("\nThere are too few peptides to produce a heatmap.\n")
+},
+error = function(r) {
+cat(
+sprintf(
+"\n%s %s Internal message: %s\n",
+"Could not draw heatmap,",
+"possibly because of too many missing values.",
+r$message
+)
+)
+}
+)
+} else {
+cat(
+"\nCould not draw heatmap, possibly because of too many missing values.\n"
 )
-)
+}
 },
 finally = par(old_oma)
 )
 }
 }
 return(peptide_count)
 quote = "",
 check.names = FALSE
 )
 ```
-# Extract Sample Names and Treatment Levels
+# Extract Sample Classes and Names
-Column names parsed from input file are shown in Table 1; sample names and treatment levels, in Table 2.
+Column names parsed from input file are shown in Table 1; sample classes and names, in Table 2.
 ```{r echo = FALSE, results = 'asis'}
 data_column_indices <- grep(first_data_column, names(full_data), perl = TRUE)
 # Write column names as a LaTeX enumerated list.
 column_name_df <- data.frame(
 column = seq_len(length(colnames(full_data))),
 name = paste0("\\verb@", colnames(full_data), "@")
 )
+cat("\n\\begin{tiny}\n")
 data_frame_latex(
 x = column_name_df,
 justification = "l l",
 centered = TRUE,
 caption = "Input data column names",
 anchor = const_table_anchor_bp,
 underscore_whack = FALSE
 )
+cat("\n\\end{tiny}\n")
 ```
 ```{r echo = FALSE, results = 'asis'}
 quant_data <- full_data[first_data_column:length(full_data)]
 rx_match <- regexpr(regex_sample_grouping, sample_name_matches, perl = TRUE)
 sample_treatment_levels <- as.factor(regmatches(sample_name_matches, rx_match))
 number_of_samples <- length(sample_name_matches)
 sample_treatment_df <- data.frame(
-level = sample_treatment_levels,
+class = sample_treatment_levels,
+sample = sample_name_matches
+)
+# reorder data
+if (TRUE) {
+my_order <- with(sample_treatment_df, order(class, sample))
+quant_data <- quant_data[, my_order]
+sample_name_matches <- sample_name_matches[my_order]
+sample_treatment_levels <- sample_treatment_levels[my_order]
+}
+sample_treatment_df <- data.frame(
+class = sample_treatment_levels,
 sample = sample_name_matches
 )
 data_frame_latex(
 x = sample_treatment_df,
 justification = "rp{0.2\\linewidth} lp{0.3\\linewidth}",
 centered = TRUE,
-caption = "Treatment levels",
+caption = "Sample classes",
 anchor = const_table_anchor_tbp,
 underscore_whack = FALSE
 )
+sample_name_shrink <- 10 / (10 + max(nchar(sample_name_matches)))
 ```
 ```{r echo = FALSE, results = 'asis'}
 cat("\\newpage\n")
 ```
 )
 # ref: https://r-charts.com/distribution/add-points-boxplot/
 # Vertical plot
 boxplot(
 quant_data_log
-, las = 1
+, las = 2
+, cex.axis = 0.9 * sample_name_shrink
 , col = const_boxplot_fill
 , ylab = latex2exp::TeX("$log_{10}$(peptide intensity)")
 , xlab = "Sample"
 )
 par(old_par)
 # Vertical plot
 colnames(blue_dots) <- sample_name_matches
 boxplot(
 blue_dots
-, las = 1 # "always horizontal"
+, las = 2 # "always vertical"
+, cex.axis = 0.9 * sample_name_shrink
 , col = const_boxplot_fill
 , ylim = ylim
 , main = "Peptide intensities after eliminating unusable peptides"
 , sub = boxplot_sub
 , xlab = "Sample"
 side = "left",
 plotCentre = "line",
 ylim = ylim_save,
 main = "Distributions of observed and imputed data",
 sub = "Light blue = observed data; Pink = imputed data",
+las = 2,
+cex.axis = 0.9 * sample_name_shrink,
 xlab = "Sample",
 ylab = latex2exp::TeX("$log_{10}$(peptide intensity)")
 )
 red_violins <- lapply(red_dots, function(x) x[!is.na(x)])
 cols_to_delete <- c()
 # ref: https://r-charts.com/distribution/add-points-boxplot/
 # Vertical plot
 colnames(quant_data_log) <- sample_name_matches
 boxplot(
 quant_data_log
-, las = 1
+, las = 2
+, cex.axis = 0.9 * sample_name_shrink
 , col = const_boxplot_fill
 , ylab = latex2exp::TeX("$log_{10}$(peptide intensity)")
 , xlab = "Sample"
 )
 par(old_par)
 , data_table_imp_qn_lt[, first_data_column]
 )
 colnames(connect_df) <- c("Phosphopeptide", "Intensity")
 ```
-```{r echo = FALSE, fig.dim = c(9, 10), results = 'asis'}
+```{r anova, echo = FALSE, fig.dim = c(9, 10), results = 'asis'}
 count_of_treatment_levels <- length(levels(sample_treatment_levels))
 if (count_of_treatment_levels < 2) {
 nuke_control_sequences <-
 function(s) {
 s <- gsub("[\\]", "xyzzy_plugh", s)
 )
 p_value_data_anova_ps_fdr <-
 p.adjust(p_value_data_anova_ps, method = "fdr")
 p_value_data <- data.frame(
-phosphopeptide = full_data[, 1]
+phosphopeptide = full_data[, 1],
-,
+raw_anova_p = p_value_data_anova_ps,
-raw_anova_p = p_value_data_anova_ps
-,
 fdr_adjusted_anova_p = p_value_data_anova_ps_fdr
 )
 # output ANOVA file to constructed filename,
 #   e.g.    "Outputfile_pST_ANOVA_STEP5.txt"
 colnames(filtered_data_filtered) <- sample_name_matches
 tryCatch(
 boxplot(
 filtered_data_filtered,
 main = "Imputed, normalized intensities", # no line plot
-las = 1,
+las = 2,
+cex.axis = 0.9 * sample_name_shrink,
 col = const_boxplot_fill,
 ylab = latex2exp::TeX("$log_{10}$(peptide intensity)")
 ),
 error = function(e) print(e)
 )
 anova_filtered_merge_format <- sapply(
 X = filtered_p$fdr_adjusted_anova_p
 ,
 FUN = function(x) {
-if (x > 0.0001)
+if (x > 0.01)
-paste0("(%0.", 1 + ceiling(-log10(x)), "f) %s")
+paste0("%s (%0.", 1 + ceiling(-log10(x)), "f)")
 else
-paste0("(%0.4e) %s")
+paste0("%s (%0.2e)")
 }
 )
 cat_hm_heading <- function(m, cutoff) {
-cat("\\newpage\n")
 if (nrow(m) > intensity_hm_rows) {
+cat("\\newpage\n")
 subsection_header(
 paste(
 sprintf("Heatmap for the %d most-significant peptides",
 intensity_hm_rows),
 sprintf("whose adjusted p-value < %0.2f\n", cutoff)
 )
 )
 } else {
-if (nrow(m) == 1) {
+if (nrow(m) == 0) {
 return(FALSE)
 } else {
 subsection_header(
 paste(
 sprintf("Heatmap for %d usable peptides whose", nrow(m)),
 X = seq_len(nrow(m))
 ,
 FUN = function(i) {
 sprintf(
 anova_filtered_merge_format[i],
-filtered_p$fdr_adjusted_anova_p[i],
+rownames_m[i],
-rownames_m[i]
+signif(filtered_p$fdr_adjusted_anova_p[i], 2)
 )
 }
 )
 }
 # draw the heading and heatmap
 if (nrow(m) > 0) {
 number_of_peptides_found <-
-draw_intensity_heatmap(
+draw_ppep_heatmap(
 m                       = m,
 cutoff                  = cutoff,
 hm_heading_function     = cat_hm_heading,
-hm_main_title           = "Unimputed, unnormalized log(intensities)",
+hm_main_title           =
+"log(intensities), row-scaled, unimputed, unnormalized",
 suppress_row_dendrogram = FALSE
 )
 }
 }
 }
 }
-cat("\\leavevmode\n\n\n")
+cat("\\leavevmode\n")
+cat("The adjusted ANOVA \\textit{p}-value is shown in parentheses
+after the phosphopeptide sequence.\n\n")
 ```
 ```{r sqlite, echo = FALSE, fig.dim = c(9, 10), results = 'asis'}
 if (count_of_treatment_levels > 1) {
 apply(
 X = contrast_cast_data,
 MARGIN = 1, # apply to rows
 FUN = anova_func,
 grouping_factor =
-as.factor(as.numeric(grouping_factor$level)), # anova_func arg2
+as.factor(grouping_factor$level), # anova_func arg2
 one_way_f = one_way_two_categories, # anova_func arg3
 simplify = TRUE # TRUE is the default for simplify
 )
 contrast_data_adj_p_values <- p.adjust(
 p = p_value_data_contrast_ps,
 cntrst_b_level <- contrast_metadata_df[i_cntrst, "b_level"]
 cntrst_fold_change <- contrast_metadata_df[i_cntrst, 6]
 contrast_label <- sprintf("%s -> %s", cntrst_b_level, cntrst_a_level)
 contrast_longlabel <- (
 sprintf(
-"Trt %s {%s} -> Trt %s {%s}",
+"Class %s -> Class %s",
 contrast_metadata_df[i_cntrst, "b_level"],
-gsub(
+contrast_metadata_df[i_cntrst, "a_level"]
-pattern = ";",
-replacement = ", ",
-x = contrast_metadata_df[i_cntrst, "b_samples"],
-fixed = TRUE
-),
-contrast_metadata_df[i_cntrst, "a_level"],
-gsub(
-pattern = ";",
-replacement = ", ",
-x = contrast_metadata_df[i_cntrst, "a_samples"],
-fixed = TRUE
-)
 )
 )
 kseaapp_input <-
 sqldf::sqldf(
 x = sprintf("
 # - 1 : all kinases
 # - 2 : significant kinases
 # - 3 : non-significant kinases
 which_kinases = which_kinases
 )
-cat("\\begin{center}\n")
+if (!is.null(plotted_kinases)) {
-cat("Color intensities reflects $z$-score magnitudes; hue reflects $z$-score sign.  Asterisks reflect significance.\n")
+cat("\\begin{center}\n")
-cat("\\end{center}\n")
+cat("Color intensity reflects $z$-score magnitudes; hue reflects $z$-score sign.  Asterisks reflect significance.\n")
+cat("\\end{center}\n")
+}
 } # end for (i in ...
 } # end if (length ...
 for (i_cntrst in seq_len(length(rslt$score_list))) {
 next_index <- i_cntrst
 cntrst_b_level <- contrast_metadata_df[i_cntrst, "b_level"]
 cntrst_fold_change <- contrast_metadata_df[i_cntrst, 6]
 contrast_label <- sprintf("%s -> %s", cntrst_b_level, cntrst_a_level)
 contrast_longlabel <- (
 sprintf(
-"Trt %s {%s} -> Trt %s {%s}",
+"Class %s -> Class %s",
 contrast_metadata_df[i_cntrst, "b_level"],
-gsub(
+contrast_metadata_df[i_cntrst, "a_level"]
-pattern = ";",
-replacement = ", ",
-x = contrast_metadata_df[i_cntrst, "b_samples"],
-fixed = TRUE
-),
-contrast_metadata_df[i_cntrst, "a_level"],
-gsub(
-pattern = ";",
-replacement = ", ",
-x = contrast_metadata_df[i_cntrst, "a_samples"],
-fixed = TRUE
-)
 )
 )
 main_title <- (
 sprintf(
 "Change from treatment %s to treatment %s",
 enriched_kinases <- data.frame(kinase = ls(ksea_asterisk_hash))
 all_enriched_substrates <- sqldf("
 SELECT
 gene AS kinase,
 ppep,
-'('||group_concat(gene||'-'||sub_gene)||') '||ppep AS label
+sub_gene,
+'('||group_concat(gene||'-'||sub_gene)||') '||ppep AS label,
+fdr_adjusted_anova_p
 FROM (
 SELECT DISTINCT gene, sub_gene, SUB_MOD_RSD AS ppep
 FROM pseudo_ksdata
-WHERE GENE IN (SELECT kinase FROM enriched_kinases)
+WHERE gene IN (SELECT kinase FROM enriched_kinases)
-)
+),
+p_value_data
+WHERE ppep = phosphopeptide
 GROUP BY ppep
+ORDER BY fdr_adjusted_anova_p
 ")
 # helper used to label per-kinase substrate enrichment figure
 cat_enriched_heading <- function(m, cut_args) {
 cutoff <- cut_args$cutoff
 ),
 sprintf(" KSEA %s < %0.2f\n", statistic, threshold)
 )
 )
 } else {
-if (nrow(m) == 1) {
+if (nrow(m) == 0) {
 return(FALSE)
 } else {
 subsection_header(
 paste(
 sprintf(
 cat("\n\n\n")
 return(TRUE)
 }
 # Disabling heatmaps for substrates pending decision whether to eliminate them altogether
-if (FALSE)
+if (TRUE)
 for (kinase_name in sort(enriched_kinases$kinase)) {
 enriched_substrates <-
 all_enriched_substrates[
 all_enriched_substrates$kinase == kinase_name,
 ,
 drop = FALSE
 ]
+enriched_substrates$label <- with(
+enriched_substrates,
+sprintf(
+"(%s-%s) %s (%0.2g)",
+kinase,
+sub("$FAILED_MATCH_GENE_NAME", "unidentified", sub_gene, fixed = TRUE),
+ppep,
+fdr_adjusted_anova_p
+)
+)
 # Get the intensity values for the heatmap
 enriched_intensities <-
 as.matrix(unimputed_quant_data_log[enriched_substrates$ppep, , drop = FALSE])
 # Remove rows having too many NA values to be relevant
-na_counter <- is.na(enriched_intensities)
-na_counts <- apply(na_counter, 1, sum)
-enriched_intensities <-
-enriched_intensities[na_counts < ncol(enriched_intensities) / 2, , drop = FALSE]
 # Rename the rows with the display-name for the heatmap
 rownames(enriched_intensities) <-
 sapply(
 X = rownames(enriched_intensities),
 FUN = function(rn) {
 cut_args$cutoff <- cutoff
 cut_args$kinase <- kinase_name
 cut_args$statistic <- ksea_cutoff_statistic
 cut_args$threshold <- ksea_cutoff_threshold
 number_of_peptides_found <-
-draw_intensity_heatmap(
+draw_ppep_heatmap(
 m                       = m,
 cutoff                  = cut_args,
 hm_heading_function     = cat_enriched_heading,
 hm_main_title
 = "Unnormalized (zero-imputed) intensities of enriched kinase-substrates",
 suppress_row_dendrogram = FALSE
 )
+if (number_of_peptides_found > 1) {
+cat("\\leavevmode\n")
+cat("The kinase-subsrate pair is shown in parentheses
+before the phosphopeptide sequence.\n\n")
+cat("The adjusted ANOVA \\textit{p}-value is shown in parentheses
+after the phosphopeptide sequence.\n\n")
+}
+if (nrow(m) == 1) {
+cat(
+sprintf(
+"\n\nSubstrate is %s,
+\nphopshopeptide is %s,
+\n\nand adjusted ANOVA \\textit{p}-value is %0.2g.\n",
+enriched_substrates[1, "sub_gene"],
+enriched_substrates[1, "ppep"],
+enriched_substrates[1, "fdr_adjusted_anova_p"]
+)
+)
+}
 }
 }
 # Write output tabular files
 # write parameters to report
 param_unlist <- unlist(as.list(params))
 param_df <- data.frame(
 parameter = paste0("\\verb@", names(param_unlist), "@"),
-value = paste0("\\verb@", gsub("$", "\\$", param_unlist, fixed = TRUE), "@")
+value = paste0(
+"\n\\begin{tiny}\n\\verb@",
+gsub("$", "\\$", param_unlist, fixed = TRUE),
+"@\n\\end{tiny}"
+)
 )
 data_frame_latex(
 x = param_df,
 justification = "p{0.35\\linewidth} p{0.6\\linewidth}",

Mercurial > repos > eschen42 > mqppep_anova

comparison mqppep_anova_script.Rmd @ 24:8582a9797c18 draft