text_processing: sed.xml annotate

annotate sed.xml @ 0:ec66f9d90ef0 draft

initial uploaded

author	bgruening
date	Thu, 05 Sep 2013 04:58:21 -0400
parents
children	a4ad586d1403

rev	line source
0 ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	1 <tool id="unixtools_sed_tool" name="Text transformation" version="0.1.1">
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	2 <description>with sed</description>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	3 <requirements>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	4 <requirement type="package" version="4.2.2-sandbox">gnu_sed</requirement>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	5 </requirements>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	6 <command>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	7 sed --sandbox -r $silent -f '$sed_script' '$input' > '$output'
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	8 </command>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	9 <inputs>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	10 <param format="txt" name="input" type="data" label="File to process" />
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	11
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	12 <param name="url_paste" type="text" area="true" size="5x35" label="SED Program" help="">
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	13 <sanitizer>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	14 <valid initial="string.printable">
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	15 <remove value="'"/>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	16 </valid>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	17 </sanitizer>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	18 </param>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	19
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	20 <param name="silent" type="select" label="operation mode" help="(Same as 'sed -n', leave at 'normal' unless you know what you're doing)" >
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	21 <option value="">normal</option>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	22 <option value="-n">silent</option>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	23 </param>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	24
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	25 </inputs>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	26 <configfiles>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	27 <configfile name="sed_script">
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	28 $url_paste
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	29 </configfile>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	30 </configfiles>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	31 <tests>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	32 <test>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	33 <param name="input" value="unix_sed_input1.txt" />
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	34 <output name="output" file="unix_sed_output1.txt" />
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	35 <param name="url_paste" value="1d ; s/foo/bar/" />
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	36 <param name="silent" value="" />
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	37 </test>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	38 <test>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	39 <param name="input" value="unix_sed_input1.txt" />
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	40 <output name="output" file="unix_sed_output2.txt" />
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	41 <param name="url_paste" value="/foo/ { s/foo/baz/g ; p }" />
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	42 <param name="silent" value="silent" />
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	43 </test>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	44 </tests>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	45 <outputs>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	46 <data format="input" name="output" metadata_source="input" />
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	47 </outputs>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	48 <help>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	49
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	50 What it does
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	51
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	52 This tool runs the unix sed command on the selected data file.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	53
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	54 .. class:: infomark
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	55
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	56 TIP: This tool uses the extended regular expression syntax (same as running 'sed -r').
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	57
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	58
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	59
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	60 Further reading
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	61
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	62 - Short sed tutorial (http://www.linuxhowtos.org/System/sed_tutorial.htm)
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	63 - Long sed tutorial (http://www.grymoire.com/Unix/Sed.html)
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	64 - sed faq with good examples (http://sed.sourceforge.net/sedfaq.html)
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	65 - sed cheat-sheet (http://www.catonmat.net/download/sed.stream.editor.cheat.sheet.pdf)
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	66 - Collection of useful sed one-liners (http://student.northpark.edu/pemente/sed/sed1line.txt)
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	67
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	68 -----
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	69
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	70 Sed commands
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	71
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	72 The most useful sed command is s (substitute).
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	73
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	74 Examples
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	75
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	76 - s/hsa// will remove the first instance of 'hsa' in every line.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	77 - s/hsa//g will remove all instances (beacuse of the g) of 'hsa' in every line.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	78 - s/A{4,}/--&--/g will find sequences of 4 or more consecutive A's, and once found, will surround them with two dashes from each side. The & marker is a place holder for 'whatever matched the regular expression'.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	79 - s/hsa-mir-([^ ]+)/short name: \\1 full name: &/ will find strings such as 'hsa-mir-43a' (the regular expression is 'hsa-mir-' followed by non-space characters) and will replace it will string such as 'short name: 43a full name: hsa-mir-43a'. The \\1 marker is a place holder for 'whatever matched the first parenthesis' (similar to perl's $1) .
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	80
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	81
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	82 sed's Regular Expression Syntax
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	83
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	84 The select tool searches the data for lines containing or not containing a match to the given pattern. A Regular Expression is a pattern descibing a certain amount of text.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	85
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	86 - *( ) { } [ ] . ? + \ ^ $ are all special characters. \\** can be used to "escape" a special character, allowing that special character to be searched for.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	87 - ^ matches the beginning of a string(but not an internal line).
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	88 - ( .. ) groups a particular pattern.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	89 - { n or n, or n,m } specifies an expected number of repetitions of the preceding pattern.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	90
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	91 - {n} The preceding item is matched exactly n times.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	92 - {n,} The preceding item ismatched n or more times.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	93 - {n,m} The preceding item is matched at least n times but not more than m times.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	94
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	95 - [ ... ] creates a character class. Within the brackets, single characters can be placed. A dash (-) may be used to indicate a range such as a-z.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	96 - . Matches any single character except a newline.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	97 - ***** The preceding item will be matched zero or more times.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	98 - ? The preceding item is optional and matched at most once.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	99 - + The preceding item will be matched one or more times.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	100 - ^ has two meaning:
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	101 - matches the beginning of a line or string.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	102 - indicates negation in a character class. For example, [^...] matches every character except the ones inside brackets.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	103 - $ matches the end of a line or string.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	104 - \\| Separates alternate possibilities.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	105
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	106
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	107 Note: SED uses extended regular expression syntax, not Perl syntax. \\d, \\w, \\s etc. are not supported.
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	108
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	109 </help>
ec66f9d90ef0 initial uploaded bgruening parents: diff changeset	110 </tool>

Mercurial > repos > bgruening > text_processing

annotate sed.xml @ 0:ec66f9d90ef0 draft