sklearn_train_test_split: keras_train_and

comparison keras_train_and_eval.py @ 6:81ab4951f2a3 draft

"planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/tools/sklearn commit ca87db9c038a6fcf96aa39da50f384865fd932ff"

author	bgruening
date	Tue, 20 Apr 2021 17:09:29 +0000
parents	c0ed68e280a7
children	82f89e379413

comparison

equal deleted inserted replaced

-:c0ed68e280a7
+:81ab4951f2a3
 import numpy as np
 import pandas as pd
 from galaxy_ml.externals.selene_sdk.utils import compute_score
 from galaxy_ml.keras_galaxy_models import _predict_generator
 from galaxy_ml.model_validations import train_test_split
-from galaxy_ml.utils import (
+from galaxy_ml.utils import (clean_params, get_main_estimator,
-clean_params,
+get_module, get_scoring, load_model, read_columns,
-get_main_estimator,
+SafeEval, try_get_attr)
-get_module,
-get_scoring,
-load_model,
-read_columns,
-SafeEval,
-try_get_attr,
-)
 from scipy.io import mmread
 from sklearn.metrics.scorer import _check_multimetric_scoring
 from sklearn.model_selection import _search, _validation
 from sklearn.model_selection._validation import _score
 from sklearn.pipeline import Pipeline
 from sklearn.utils import indexable, safe_indexing
 _fit_and_score = try_get_attr("galaxy_ml.model_validations", "_fit_and_score")
 setattr(_search, "_fit_and_score", _fit_and_score)
 setattr(_validation, "_fit_and_score", _fit_and_score)
 if swap_value == "":
 continue
 param_name = p["sp_name"]
 if param_name.lower().endswith(NON_SEARCHABLE):
-warnings.warn("Warning: `%s` is not eligible for search and was " "omitted!" % param_name)
+warnings.warn(
+"Warning: `%s` is not eligible for search and was "
+"omitted!" % param_name
+)
 continue
 if not swap_value.startswith(":"):
 safe_eval = SafeEval(load_scipy=True, load_numpy=True)
 ev = safe_eval(swap_value)
 groups = kwargs["labels"]
 n_samples = new_arrays[0].shape[0]
 index_arr = np.arange(n_samples)
 test = index_arr[np.isin(groups, group_names)]
 train = index_arr[~np.isin(groups, group_names)]
-rval = list(chain.from_iterable((safe_indexing(a, train), safe_indexing(a, test)) for a in new_arrays))
+rval = list(
+chain.from_iterable(
+(safe_indexing(a, train), safe_indexing(a, test)) for a in new_arrays
+)
+)
 else:
 rval = train_test_split(*new_arrays, **kwargs)
 for pos in nones:
 rval[pos * 2: 2] = [None, None]
 if y_true.ndim == 1 or y_true.shape[-1] == 1:
 pred_probas = pred_probas.ravel()
 pred_labels = (pred_probas > 0.5).astype("int32")
 targets = y_true.ravel().astype("int32")
 if not is_multimetric:
-preds = pred_labels if scorer.__class__.__name__ == "_PredictScorer" else pred_probas
+preds = (
+pred_labels
+if scorer.__class__.__name__ == "_PredictScorer"
+else pred_probas
+)
 score = scorer._score_func(targets, preds, **scorer._kwargs)
 return score
 else:
 scores = {}
 for name, one_scorer in scorer.items():
-preds = pred_labels if one_scorer.__class__.__name__ == "_PredictScorer" else pred_probas
+preds = (
+pred_labels
+if one_scorer.__class__.__name__ == "_PredictScorer"
+else pred_probas
+)
 score = one_scorer._score_func(targets, preds, **one_scorer._kwargs)
 scores[name] = score
 # TODO: multi-class metrics
 # multi-label
 else:
 pred_labels = (pred_probas > 0.5).astype("int32")
 targets = y_true.astype("int32")
 if not is_multimetric:
-preds = pred_labels if scorer.__class__.__name__ == "_PredictScorer" else pred_probas
+preds = (
+pred_labels
+if scorer.__class__.__name__ == "_PredictScorer"
+else pred_probas
+)
 score, _ = compute_score(preds, targets, scorer._score_func)
 return score
 else:
 scores = {}
 for name, one_scorer in scorer.items():
-preds = pred_labels if one_scorer.__class__.__name__ == "_PredictScorer" else pred_probas
+preds = (
+pred_labels
+if one_scorer.__class__.__name__ == "_PredictScorer"
+else pred_probas
+)
 score, _ = compute_score(preds, targets, one_scorer._score_func)
 scores[name] = score
 return scores
 input_type = params["input_options"]["selected_input"]
 # tabular input
 if input_type == "tabular":
 header = "infer" if params["input_options"]["header1"] else None
-column_option = params["input_options"]["column_selector_options_1"]["selected_column_selector_option"]
+column_option = params["input_options"]["column_selector_options_1"][
+"selected_column_selector_option"
+]
 if column_option in [
 "by_index_number",
 "all_but_by_index_number",
 "by_header_name",
 "all_but_by_header_name",
 n_intervals = sum(1 for line in open(intervals))
 X = np.arange(n_intervals)[:, np.newaxis]
 # Get target y
 header = "infer" if params["input_options"]["header2"] else None
-column_option = params["input_options"]["column_selector_options_2"]["selected_column_selector_option2"]
+column_option = params["input_options"]["column_selector_options_2"][
+"selected_column_selector_option2"
+]
 if column_option in [
 "by_index_number",
 "all_but_by_index_number",
 "by_header_name",
 "all_but_by_header_name",
 infile2 = loaded_df[df_key]
 else:
 infile2 = pd.read_csv(infile2, sep="\t", header=header, parse_dates=True)
 loaded_df[df_key] = infile2
-y = read_columns(infile2,
+y = read_columns(
-c=c,
+infile2, c=c, c_option=column_option, sep="\t", header=header, parse_dates=True
-c_option=column_option,
+)
-sep='\t',
-header=header,
-parse_dates=True)
 if len(y.shape) == 2 and y.shape[1] == 1:
 y = y.ravel()
 if input_type == "refseq_and_interval":
 estimator.set_params(data_batch_generator__features=y.ravel().tolist())
 y = None
 # end y
 # load groups
 if groups:
-groups_selector = (params["experiment_schemes"]["test_split"]["split_algos"]).pop("groups_selector")
+groups_selector = (
+params["experiment_schemes"]["test_split"]["split_algos"]
+).pop("groups_selector")
 header = "infer" if groups_selector["header_g"] else None
-column_option = groups_selector["column_selector_options_g"]["selected_column_selector_option_g"]
+column_option = groups_selector["column_selector_options_g"][
+"selected_column_selector_option_g"
+]
 if column_option in [
 "by_index_number",
 "all_but_by_index_number",
 "by_header_name",
 "all_but_by_header_name",
 df_key = groups + repr(header)
 if df_key in loaded_df:
 groups = loaded_df[df_key]
-groups = read_columns(groups,
+groups = read_columns(
-c=c,
+groups,
-c_option=column_option,
+c=c,
-sep='\t',
+c_option=column_option,
-header=header,
+sep="\t",
-parse_dates=True)
+header=header,
+parse_dates=True,
+)
 groups = groups.ravel()
 # del loaded_df
 del loaded_df
 main_est = get_main_estimator(estimator)
 if main_est.__class__.__name__ == "IRAPSClassifier":
 main_est.set_params(memory=memory)
 # handle scorer, convert to scorer dict
-scoring = params['experiment_schemes']['metrics']['scoring']
+scoring = params["experiment_schemes"]["metrics"]["scoring"]
 if scoring is not None:
 # get_scoring() expects secondary_scoring to be a comma separated string (not a list)
 # Check if secondary_scoring is specified
 secondary_scoring = scoring.get("secondary_scoring", None)
 if secondary_scoring is not None:
 test_split_options["labels"] = groups
 if test_split_options["shuffle"] == "stratified":
 if y is not None:
 test_split_options["labels"] = y
 else:
-raise ValueError("Stratified shuffle split is not " "applicable on empty target values!")
+raise ValueError(
+"Stratified shuffle split is not " "applicable on empty target values!"
+)
 (
 X_train,
 X_test,
 y_train,
 val_split_options["labels"] = groups_train
 if val_split_options["shuffle"] == "stratified":
 if y_train is not None:
 val_split_options["labels"] = y_train
 else:
-raise ValueError("Stratified shuffle split is not " "applicable on empty target values!")
+raise ValueError(
+"Stratified shuffle split is not "
+"applicable on empty target values!"
+)
 (
 X_train,
 X_val,
 y_train,
 estimator.fit(X_train, y_train)
 if hasattr(estimator, "evaluate"):
 steps = estimator.prediction_steps
 batch_size = estimator.batch_size
-generator = estimator.data_generator_.flow(X_test, y=y_test, batch_size=batch_size)
+generator = estimator.data_generator_.flow(
-predictions, y_true = _predict_generator(estimator.model_, generator, steps=steps)
+X_test, y=y_test, batch_size=batch_size
+)
+predictions, y_true = _predict_generator(
+estimator.model_, generator, steps=steps
+)
 scores = _evaluate(y_true, predictions, scorer, is_multimetric=True)
 else:
 if hasattr(estimator, "predict_proba"):
 predictions = estimator.predict_proba(X_test)

Mercurial > repos > bgruening > sklearn_train_test_split

comparison keras_train_and_eval.py @ 6:81ab4951f2a3 draft