sklearn_numeric_clustering: numeric_clustering.xml comparison

comparison numeric_clustering.xml @ 19:8a7b460ab534 draft

planemo upload for repository https://github.com/bgruening/galaxytools/tree/master/tools/sklearn commit 5d71c93a3dd804b1469852240a86021ab9130364

author	bgruening
date	Mon, 09 Jul 2018 14:27:04 -0400
parents	4edccd1eaaf0
children	60d1b396cea2

comparison

equal deleted inserted replaced

-:06d67d77907c
+:8a7b460ab534
 import sklearn.cluster
 import pandas
 from sklearn import metrics
 from scipy.io import mmread
+@COLUMNS_FUNCTION@
 input_json_path = sys.argv[1]
 params = json.load(open(input_json_path, "r"))
 selected_algorithm = params["input_types"]["algorithm_options"]["selected_algorithm"]
 #if $input_types.selected_input_type == "sparse":
 data_matrix = mmread(open("$infile", 'r'))
 #else:
 data = pandas.read_csv("$infile", sep='\t', header=0, index_col=None, parse_dates=True, encoding=None, tupleize_cols=False )
+header = 'infer' if params["input_types"]["header"] else None
-start_column = $input_types.start_column
+column_option = params["input_types"]["column_selector_options"]["selected_column_selector_option"]
-end_column = $input_types.end_column
+if column_option in ["by_index_number", "all_but_by_index_number", "by_header_name", "all_but_by_header_name"]:
+c = params["input_types"]["column_selector_options"]["col"]
-if end_column and start_column:
-if  end_column >= start_column:
-data_matrix = data.values[:, start_column-1:end_column]
-else:
-data_matrix = data.values
 else:
-data_matrix = data.values
+c = None
+data_matrix = read_columns(
+"$infile",
+c = c,
+c_option = column_option,
+sep='\t',
+header=header,
+parse_dates=True,
+encoding=None,
+tupleize_cols=False
+)
 #end if
 prediction = cluster_object.fit_predict( data_matrix )
 if len(np.unique(prediction)) > 1:
 <param name="infile" type="data" format="txt" label="Sparse vector (scipy.sparse.csr_matrix) file:" help="The following clustering algorithms support sparse matrix operations: ''Birch'', ''DBSCAN'', ''KMeans'', ''Mini BatchK Means'', and ''Spectral Clustering''. If your data is in tabular format, please use other clustering algorithms."/>
 <expand macro="clustering_algorithms_options"/>
 </when>
 <when value="tabular">
 <param name="infile" type="data" format="tabular" label="Data file with numeric values"/>
-<param name="start_column" type="data_column" data_ref="infile" optional="True" label="Select a subset of data. Start column:" />
+<param name="header" type="boolean" optional="true" truevalue="booltrue" falsevalue="boolfalse" checked="True" label="Does the dataset contain header:" />
-<param name="end_column" type="data_column" data_ref="infile" optional="True" label="End column:" />
+<conditional name="column_selector_options">
+<expand macro="samples_column_selector_options" col_name="col" multiple="true" infile="infile"/>
+</conditional>
 <!--expand macro="clustering_algorithms_options"-->
 <conditional name="algorithm_options">
 <param name="selected_algorithm" type="select" label="Clustering Algorithm">
 <option value="AgglomerativeClustering">Hierarchical Agglomerative Clustering</option>
 <option value="AffinityPropagation">Affinity Propagation</option>
 <tests>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_input_type" value="tabular"/>
 <param name="selected_algorithm" value="KMeans"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="n_clusters" value="4" />
 <param name="init" value="k-means++" />
 <param name="random_state" value="100"/>
 <output name="outfile" file="cluster_result01.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="KMeans"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="n_clusters" value="4" />
 <param name="init" value="random" />
 <param name="random_state" value="100"/>
 <output name="outfile" file="cluster_result02.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="DBSCAN"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="algorithm" value="kd_tree"/>
 <param name="leaf_size" value="10"/>
 <param name="eps" value="1.0"/>
 <output name="outfile" file="cluster_result03.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="Birch"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="n_clusters" value="4"/>
 <param name="threshold" value="0.008"/>
 <output name="outfile" file="cluster_result04.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="Birch"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="branching_factor" value="20"/>
 <output name="outfile" file="cluster_result05.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="AffinityPropagation"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="affinity" value="euclidean"/>
 <param name="copy" value="false"/>
 <output name="outfile" file="cluster_result06.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="AffinityPropagation"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="damping" value="0.8"/>
 <output name="outfile" file="cluster_result07.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="MeanShift"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="min_bin_freq" value="3"/>
 <output name="outfile" file="cluster_result08.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="MeanShift"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="cluster_all" value="False"/>
 <output name="outfile" file="cluster_result09.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="AgglomerativeClustering"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="affinity" value="euclidean"/>
 <param name="linkage" value="average"/>
 <param name="n_clusters" value="4"/>
 <output name="outfile" file="cluster_result10.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="AgglomerativeClustering"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="linkage" value="complete"/>
 <param name="n_clusters" value="4"/>
 <output name="outfile" file="cluster_result11.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="SpectralClustering"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="eigen_solver" value="arpack"/>
 <param name="n_neighbors" value="12"/>
 <param name="n_clusters" value="4"/>
 <param name="assign_labels" value="discretize"/>
 <param name="random_state" value="100"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="SpectralClustering"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="assign_labels" value="discretize"/>
 <param name="random_state" value="100"/>
 <param name="degree" value="2"/>
 <output name="outfile" file="cluster_result13.txt" compare="sim_size" />
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="MiniBatchKMeans"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="tol" value="0.5"/>
 <param name="random_state" value="100"/>
 <output name="outfile" file="cluster_result14.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="MiniBatchKMeans"/>
 <param name="selected_input_type" value="tabular"/>
 <param name="n_init" value="5"/>
-<param name="start_column" value="2" />
+<param name="col" value="2,3,4" />
-<param name="end_column" value="4" />
 <param name="batch_size" value="10"/>
 <param name="n_clusters" value="4"/>
 <param name="random_state" value="100"/>
 <param name="reassignment_ratio" value="1.0"/>
 <output name="outfile" file="cluster_result15.txt"/>
 </test>
 <test>
 <param name="infile" value="numeric_values.tabular" ftype="tabular"/>
 <param name="selected_algorithm" value="KMeans"/>
 <param name="selected_input_type" value="tabular"/>
-<param name="start_column" value="1" />
+<param name="col" value="1" />
-<param name="end_column" value="1" />
 <param name="n_clusters" value="4" />
 <param name="random_state" value="100"/>
 <output name="outfile" file="cluster_result16.txt"/>
 </test>
 <test>

Mercurial > repos > bgruening > sklearn_numeric_clustering

comparison numeric_clustering.xml @ 19:8a7b460ab534 draft