Repository 'proteore_prot_features'
hg clone https://eddie.galaxyproject.org/repos/proteore/proteore_prot_features

Changeset 0:b455ec3f4f33 (2018-11-12)
Next changeset 1:2fc914ab92f5 (2018-12-04)
Commit message:
planemo upload commit 9760cde192a15cdf3d2dbec05dd867eaa0392bcd-dirty
added:
README.rst
prot_features.xml
protein_features.R
test-data/Add_information_from_neXtProt.tsv
test-data/FKW_ID_Converter_Lacombe_et_al_2017_OK.tsv
tool-data/result_nextprot.txt
b
diff -r 000000000000 -r b455ec3f4f33 README.rst
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/README.rst Mon Nov 12 11:10:16 2018 -0500
b
@@ -0,0 +1,30 @@
+Wrapper for Protein Features tool
+=================================
+
+**Authors**
+
+Lisa Peru, T.P. Lien Nguyen, Florence Combes, Yves Vandenbrouck CEA, INSERM, CNRS, Grenoble-Alpes University, BIG Institute, FR
+
+Sandra Dérozier, Olivier Rué, Christophe Caron, Valentin Loux INRA, Paris-Saclay University, MAIAGE Unit, Migale Bioinformatics platform
+
+This work has been partially funded through the French National Agency for Research (ANR) IFB project.
+
+Contact support@proteore.org for any questions or concerns about the Galaxy implementation of this tool.
+
+---------------------------------
+
+This tool add annotation (protein features) from neXtProt database (knowledge base on human proteins) to your protein IDs list.
+
+**Input**
+
+Input can be a file containing multiple fields but with **at least one column of Uniprot accession number or neXtProt IDs**. If your input file contains other type of IDs, please use the ID_Converter tool.  
+
+**Databases**
+
+Annotations have been retrieved from the neXtProt released on 21/02/2018 using the latest data from peptideAtlas (release Human 2018-1)
+
+using a REST API (https://academic.oup.com/nar/article/43/D1/D764/2439066#40348985) (Gaudet et  al., 2017)
+
+**Outputs**
+
+The output is a tabular file. The initial columns are kept and columns are be added according to which annotation you have selected. 
\ No newline at end of file
b
diff -r 000000000000 -r b455ec3f4f33 prot_features.xml
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/prot_features.xml Mon Nov 12 11:10:16 2018 -0500
[
@@ -0,0 +1,149 @@
+<tool id="prot_features" name="Add human protein features" version="2018.11.12">
+<description>(neXtProt)
+</description>
+<requirements>
+  <requirement type="package" version="3.4.1">R</requirement>
+</requirements>
+<stdio>
+  <exit_code range="1:" />
+</stdio>
+<command><![CDATA[
+
+  Rscript $__tool_directory__/protein_features.R 
+  --inputtype="$inputtype.filetype"
+  --input='$inputtype.genelist'
+
+  #if $inputtype.filetype == "file" 
+    --column='$inputtype.column' 
+    --header=$inputtype.header
+  #end if
+
+  --type='$idtype'
+  --pc_features='$Nextprot_params.pc_features' 
+  --localization='$Nextprot_params.localization' 
+  --diseases_info='$Nextprot_params.diseases_info'  
+  --output='$output'  
+  --nextprot=$__tool_directory__/tool-data/result_nextprot.txt 
+    
+]]></command>
+
+<inputs>
+  <conditional name="inputtype">
+    <param name="filetype" type="select" label="Select your type of input file"> 
+      <option value="file" selected="true">Input file containing your identifiers (neXtProt or Uniprot ID)</option>
+      <option value="copy_paste">Copy/paste your list of IDs</option> 
+    </param>
+    <when value="copy_paste">
+      <param name="genelist" type="text" label="Enter a list of identifiers separated by tab,space or carriage return into the form field" help="for example : A0AVI2 A6NGB0">
+        <sanitizer invalid_char="">
+            <valid initial="string.printable">
+                <remove value="&apos;"/>
+            </valid>
+            <mapping initial="none">
+                <add source="&apos;" target="__sq__"/>
+                <add source="&#x20;" target=""/>
+                <add source="&#xA;" target=""/>
+                <add source="&#xD;" target=""/>
+                <add source="&#x9;" target=""/>
+            </mapping>
+        </sanitizer>
+      </param>
+    </when>
+    <when value="file">
+      <param name="genelist" type="data" format="txt,tabular" label="Choose a file that contains your list of IDs" help="This file must imperatively have 1 column filled with IDs consistent with the neXtprot database (Uniprot accession number or neXtProt ID). If this is not the case, please use the ID_Converter tool."/>
+      <param name="column" type="text" label="Please specify the column where are your IDs (e.g : Enter c1 for column n°1)" value="c1"/> 
+      <param name="header" type="boolean" checked="true" truevalue="true" falsevalue="false" label="Does your input file have a header?" />
+
+    </when>
+  </conditional>
+
+      <param name="idtype" type="select" label="Type of your input ids" multiple="false" optional="false"> 
+        <option value="Uniprot_AC" selected="true">Uniprot accession number</option>
+          <option value="NextprotID" selected="false">neXtProt IDs</option>
+      </param>
+      <section name="Nextprot_params" title="Select features of interest (compulsory step)" expanded="True">
+        <param name="pc_features" type="select" label="Physico-Chemical Features" multiple="true" help="Choose the information you want to add to your data from Nextprot" display="checkboxes" optional="true"> 
+          <option value="SeqLength" selected="false">Sequence Length</option>
+          <option value="MW" selected="false">Molecular Weight</option>
+          <option value="IsoPoint" selected="false">Isoelectric point</option>
+          <option value="TMDomains" selected="false">Number of transmembrane domains</option>
+          <option value="ProteinExistence" selected="false">Protein Existence (evidence score from 1 to 5)</option>
+        </param>
+
+        <param name="localization" type="select" label="Localization" multiple="true" help="Choose the information you want to add to your data from Nextprot" display="checkboxes" optional="true"> 
+        <option value="Chr" selected="false">Chromosome</option>
+        <option value="SubcellLocations" selected="false">Subcellular Location</option>
+        </param>
+
+        <param name="diseases_info" type="boolean" checked="false" truevalue="true" falsevalue="false" label="Diseases informations" />
+
+      </section>
+
+</inputs>
+
+
+<outputs>
+  <data name="output" format="tsv" label="Add_information_from_neXtProt on ${inputtype.genelist.name}">
+    <filter>inputtype=="file"</filter>
+  </data>
+  <data name="output" format="tsv" label="Add_information_from_neXtProt"/>
+</outputs>
+
+<tests>
+  <test>
+    <conditional name="inputtype">
+      <param name="filetype " value="file"/>
+      <param name="genelist" value="FKW_ID_Converter_Lacombe_et_al_2017_OK.tsv"/>
+      <param name="column" value="c1"/>
+      <param name="header" value="true"/>
+    </conditional>
+
+    <param name="idtype" value="uniprot"/> 
+
+    <section name="Nextprot_params">
+      <param name="pc_features" value="SeqLength,MW,IsoPoint,TMDomains,ProteinExistence"/> 
+      <param name="localization" value="Chr,SubcellLocations"/> 
+      <param name="diseases_info" value="true"/> 
+    </section>
+      
+    <output name="output" file="Add_information_from_neXtProt.tsv"/>
+  </test>
+</tests>
+
+<help><![CDATA[
+
+This tool add annotation (protein features) from neXtProt database (knowledge base on human proteins) to your protein IDs list.
+
+**Input**
+
+Input can be a file containing multiple fields but with **at least one column of Uniprot accession number or neXtProt IDs**. If your input file contains other type of IDs, please use the ID_Converter tool.  
+
+**Databases**
+
+Annotations have been retrieved from the neXtProt released on 21/02/2018 using the latest data from peptideAtlas (release Human 2018-1)
+
+using a REST API (https://academic.oup.com/nar/article/43/D1/D764/2439066#40348985) (Gaudet et  al., 2017)
+
+**Outputs**
+
+The output is a tabular file. The initial columns are kept and columns are be added according to which annotation you have selected.  
+
+-----
+
+.. class:: infomark
+
+**Authors**
+
+Lisa Peru, T.P. Lien Nguyen, Florence Combes, Yves Vandenbrouck CEA, INSERM, CNRS, Grenoble-Alpes University, BIG Institute, FR
+
+Sandra Dérozier, Olivier Rué, Christophe Caron, Valentin Loux INRA, Paris-Saclay University, MAIAGE Unit, Migale Bioinformatics platform
+
+This work has been partially funded through the French National Agency for Research (ANR) IFB project.
+
+Contact support@proteore.org for any questions or concerns about the Galaxy implementation of this tool.

+    ]]></help>
+    <citations>
+    </citations>
+
+</tool>
b
diff -r 000000000000 -r b455ec3f4f33 protein_features.R
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/protein_features.R Mon Nov 12 11:10:16 2018 -0500
[
@@ -0,0 +1,167 @@
+# Read file and return file content as data.frame
+read_file <- function(path,header){
+  file <- try(read.table(path,header=header, sep="\t",stringsAsFactors = FALSE, quote="", check.names = F),silent=TRUE)
+  if (inherits(file,"try-error")){
+    stop("File not found !")
+  }else{
+    file <- file[!apply(is.na(file) | file == "", 1, all), , drop=FALSE]
+    return(file)
+  }
+}
+
+order_columns <- function (df,ncol,id_type,file){
+  if (id_type=="Uniprot_AC"){ncol=dim.data.frame(file)[2]}
+  if (ncol==1){ #already at the right position
+    return (df)
+  } else {
+    df = df[,c(2:ncol,1,(ncol+1):dim.data.frame(df)[2])]
+  }
+  return (df)
+}
+
+get_list_from_cp <-function(list){
+  list = strsplit(list, "[ \t\n]+")[[1]]
+  list = list[list != ""]    #remove empty entry
+  list = gsub("-.+", "", list)  #Remove isoform accession number (e.g. "-2")
+  return(list)
+}
+
+get_args <- function(){
+  
+  ## Collect arguments
+  args <- commandArgs(TRUE)
+  
+  ## Default setting when no arguments passed
+  if(length(args) < 1) {
+    args <- c("--help")
+  }
+  
+  ## Help section
+  if("--help" %in% args) {
+    cat("Selection and Annotation HPA
+        Arguments:
+          --inputtype: type of input (list of id or filename)
+        --input: input
+        --nextprot: path to nextprot information file
+        --column: the column number which you would like to apply...
+        --header: true/false if your file contains a header
+        --type: the type of input IDs (Uniprot_AC/EntrezID)
+        --pc_features: IsoPoint,SeqLength,MW
+        --localization: Chr,SubcellLocations
+        --diseases_info: Diseases
+        --output: text output filename \n")
+    
+    q(save="no")
+  }
+  
+  parseArgs <- function(x) strsplit(sub("^--", "", x), "=")
+  argsDF <- as.data.frame(do.call("rbind", parseArgs(args)))
+  args <- as.list(as.character(argsDF$V2))
+  names(args) <- argsDF$V1
+  
+  return(args)
+}
+
+str2bool <- function(x){
+  if (any(is.element(c("t","true"),tolower(x)))){
+    return (TRUE)
+  }else if (any(is.element(c("f","false"),tolower(x)))){
+    return (FALSE)
+  }else{
+    return(NULL)
+  }
+}
+
+# Get information from neXtProt
+get_nextprot_info <- function(nextprot,input,pc_features,localization,diseases_info){
+  if(diseases_info){
+    cols = c("NextprotID",pc_features,localization,"Diseases")
+  } else {
+    cols = c("NextprotID",pc_features,localization)
+  }
+  
+  cols=cols[cols!="None"]
+  info = nextprot[match(input,nextprot$NextprotID),cols]
+  return(info)
+}
+
+protein_features = function() {
+
+  args <- get_args()  
+  
+  #save(args,file="/home/dchristiany/proteore_project/ProteoRE/tools/add_human_protein_features/args.rda")
+  #load("/home/dchristiany/proteore_project/ProteoRE/tools/add_human_protein_features/args.rda")
+  
+  #setting variables
+  inputtype = args$inputtype
+  if (inputtype == "copy_paste") {
+    input = get_list_from_cp(args$input)
+    input = input[input!=""]
+  } else if (inputtype == "file") {
+    filename = args$input
+    ncol = args$column
+    # Check ncol
+    if (! as.numeric(gsub("c", "", ncol)) %% 1 == 0) {
+      stop("Please enter an integer for level")
+    } else {
+      ncol = as.numeric(gsub("c", "", ncol))
+    }
+    
+    header = str2bool(args$header)
+    file = read_file(filename, header)                                                      # Get file content
+    input = sapply(file[,ncol],function(x) strsplit(as.character(x),";")[[1]][1],USE.NAMES = F)     # Extract Protein IDs list
+    if (args$type == "NextprotID" && ! "NextprotID" %in% colnames(file)) { colnames(file)[ncol] <- "NextprotID" 
+    } else if (args$type == "NextprotID" && "NextprotID" %in% colnames(file) && match("NextprotID",colnames(file))!=ncol ) { 
+      colnames(file)[match("NextprotID",colnames(file))] <- "old_NextprotID" 
+      colnames(file)[ncol] = "NextprotID"
+    }
+  }
+
+  # Read reference file
+  nextprot = read_file(args$nextprot,T)
+  
+  # Parse arguments
+  id_type = args$type
+  pc_features = strsplit(args$pc_features, ",")[[1]]
+  localization = strsplit(args$localization, ",")[[1]]
+  diseases_info = str2bool(args$diseases_info)
+  output = args$output
+
+  # Change the sample ids if they are Uniprot_AC ids to be able to match them with
+  # Nextprot data
+  if (id_type=="Uniprot_AC"){
+    NextprotID = gsub("^","NX_",input)
+    if (inputtype == "file" && "NextprotID" %in% colnames(file)){colnames(file)[match("NextprotID",colnames(file))] <- "old_NextprotID"}
+    file = cbind(file,NextprotID)
+    } else if (id_type=="NextprotID") {
+    if (inputtype == "file") {
+      NextprotID = file$NextprotID
+    } else {
+      NextprotID = input
+    }
+  }
+
+  # Select user input protein ids in nextprot
+  if ((length(NextprotID[NextprotID %in% nextprot[,1]]))==0){
+    write.table("None of the input ids can be found in Nextprot",file=output,sep="\t",quote=FALSE,col.names=TRUE,row.names=FALSE)
+  } else {
+    res <- get_nextprot_info(nextprot,NextprotID,pc_features,localization,diseases_info)
+    
+    # Write output
+    if (inputtype == "copy_paste") {
+      if (id_type=="Uniprot_AC"){
+        output_content = cbind(input, res)
+        colnames(output_content)[1] = id_type
+      }
+      if ("res" %in% colnames(output_content)){colnames(output_content)[which(colnames(output_content)=="res")] = "NexprotID" } #if no features are selected
+    } else if (inputtype == "file") {
+      res = res[!duplicated(res$NextprotID),]
+      output_content = merge(file, res,by="NextprotID",incomparables = NA,all.x=T)
+      output_content = order_columns(output_content,ncol,id_type,file)
+    }
+    output_content <- as.data.frame(apply(output_content, c(1,2), function(x) gsub("^$|^ $", NA, x)))  #convert "" et " " to NA
+    write.table(output_content, output, row.names = FALSE, sep = "\t", quote = FALSE)
+  } 
+  
+}
+protein_features()
b
diff -r 000000000000 -r b455ec3f4f33 test-data/Add_information_from_neXtProt.tsv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/Add_information_from_neXtProt.tsv Mon Nov 12 11:10:16 2018 -0500
b
b'@@ -0,0 +1,148 @@\n+V1\tneXtProt_ID\tUniProt.AC\tUniProt.ID\tGeneID\tRefSeq\tGI\tPDB\tGO\tPIR\tMIM\tUniGene\tEnsembl\tEnsembl_TRS\tEnsembl_PRO\tSeqLength\tMW\tIsoPoint\tTMDomains\tProteinExistence\tChr\tSubcellLocations\tDiseases\n+P61626\tNX_P61626\tP61626\tLYSC_HUMAN\t4069\tNP_000230.1\t3659963; 7546189; 11513929; 159046751; 157832582; 13399629; 12084272; 550545696; 157833671; 667484857; 9955039; 157833900; 157834290; 3402140; 9955034; 157834712; 1065034; 157834217; 22218809; 157831824; 157834219; 34811083; 157836837; 157835341; 157835054; 4930021; 30750167; 6729883; 157835322; 1065033; 157834715; 14278475; 11513935; 17942573; 157833905; 734458781; 159046750; 159046754; 157833673; 6730357; 550545697; 14278470; 7767015; 9955033; 157831913; 4557894; 12084274; 14278467; 157831912; 17942569; 17942570; 157831552; 14278476; 12084398; 5107557; 157831823; 38492671; 6729884; 157832584; 3659959; 22218808; 270346492; 13399627; 157831359; 157835056; 15825835; 159046753; 14278473; 9955036; 157834714; 219689184; 323462871; 50514025; 6980458; 159046752; 3402139; 9955035; 157834288; 5821956; 12084400; 4930015; 157835338; 6730358; 157834708; 4388847; 157832586; 157835344; 157835340; 157831910; 847820; 12084275; 667484859; 17942567; 157834216; 6729881; 12084397; 157834220; 157831908; 157834707; 353529987; 323462872; 9955030; 13399630; 157834716; 219689182; 6729882; 5821955; 17942572; 7767021; 48428995; 215794704; 13399625; 157834702; 14278474; 157833914; 12084396; 4930017; 157831825; 6729876; 14278471; 7767016; 157834706; 157835339; 159046755; 157831857; 9955031; 157831754; 157831571; 1827553; 6730356; 157833672; 4930014; 157831914; 307141; 17942566; 12084273; 253723297; 15825837; 157831554; 157832581; 9955029; 9256911; 157831553; 9955038; 157834705; 11513931; 5821957; 11514208; 6729879; 4930023; 6980888; 157834291; 12084403; 1827555; 9955327; 219689183; 157835057; 17942574; 157832585; 157834218; 15825836; 157829563; 13399626; 157834711; 24987350; 6729705; 157835053; 157832578; 157835342; 4930020; 157831820; 3659960; 11513937; 9955037; 157834289; 4930022; 157831822; 157833668; 12084409; 157835052; 9955028; 9955032; 157834709; 12084402; 15988350; 4930016; 17942571; 3402142; 17942568; 1335210; 157830185; 157835343; 157832587; 157834292; 157832579; 5107681; 11513927; 13399628; 157834704; 157831853; 157831921; 3659961; 12084399; 6729878; 157834215; 6729880; 157831551; 3402143; 12084401; 6980459; 5107556; 3659962; 157833921; 157834703; 157834710; 6729885; 157832583; 3659958; 157832580; 4388848; 157835055; 6729877; 159046756; 157831821; 9955027; 157829561; 15825838; 11513933; 14278472; 157834713\t133L:A; 134L:A; 1B5U:A; 1B5V:A; 1B5W:A; 1B5X:A; 1B5Y:A; 1B5Z:A; 1B5Z:B; 1B7L:A; 1B7M:A; 1B7N:A; 1B7O:A; 1B7P:A; 1B7Q:A; 1B7R:A; 1B7S:A; 1BB3:A; 1BB3:B; 1BB4:A; 1BB4:B; 1BB5:A; 1BB5:B; 1C43:A; 1C45:A; 1C46:A; 1C7P:A; 1CJ6:A; 1CJ7:A; 1CJ8:A; 1CJ9:A; 1CKC:A; 1CKD:A; 1CKF:A; 1CKG:A; 1CKG:B; 1CKH:A; 1D6P:A; 1D6Q:A; 1DI3:A; 1DI4:A; 1DI5:A; 1EQ4:A; 1EQ5:A; 1EQE:A; 1GAY:A; 1GAZ:A; 1GB0:A; 1GB2:A; 1GB3:A; 1GB5:A; 1GB6:A; 1GB7:A; 1GB8:A; 1GB9:A; 1GBO:A; 1GBW:A; 1GBX:A; 1GBY:A; 1GBZ:A; 1GDW:A; 1GDX:A; 1GE0:A; 1GE1:A; 1GE2:A; 1GE3:A; 1GE4:A; 1GEV:A; 1GEZ:A; 1GF0:A; 1GF3:A; 1GF4:A; 1GF5:A; 1GF6:A; 1GF7:A; 1GF8:A; 1GF9:A; 1GFA:A; 1GFE:A; 1GFG:A; 1GFH:A; 1GFJ:A; 1GFK:A; 1GFR:A; 1GFT:A; 1GFU:A; 1GFV:A; 1HNL:A; 1I1Z:A; 1I20:A; 1I22:A; 1I22:B; 1I22:C; 1I22:D; 1INU:A; 1IOC:A; 1IP1:A; 1IP2:A; 1IP3:A; 1IP3:B; 1IP4:A; 1IP5:A; 1IP6:A; 1IP7:A; 1IP7:B; 1IWT:A; 1IWU:A; 1IWV:A; 1IWW:A; 1IWX:A; 1IWY:A; 1IWZ:A; 1IX0:A; 1IY3:A; 1IY4:A; 1JKA:A; 1JKB:A; 1JKC:A; 1JKD:A; 1JSF:A; 1JWR:A; 1LAA:A; 1LHH:A; 1LHI:A; 1LHJ:A; 1LHK:A; 1LHL:A; 1LHM:A; 1LMT:A; 1LOZ:A; 1LYY:A; 1LZ1:A; 1LZ4:A; 1LZ5:A; 1LZ6:A; 1LZR:A; 1LZS:A; 1LZS:B; 1OP9:B; 1OUA:A; 1OUB:A; 1OUC:A; 1OUD:A; 1OUE:A; 1OUF:A; 1OUG:A; 1OUH:A; 1OUI:A; 1OUJ:A; 1QSW:A; 1QSW:B; 1QSW:C; 1QSW:D; 1RE2:A; 1REM:A; 1REX:A; 1REY:A; 1REZ:A; 1TAY:A; 1TBY:A; 1TCY:A; 1TDY:A; 1UBZ:A; 1W08:A; 1WQM:A; 1WQN:A; 1WQO:A; 1WQP:A; 1WQQ:A; 1WQR:A; 1YAM:A; 1YAN:A; 1YAO:A; 1YAP:A; 1YAQ:A; 207L:A; '..b'2; 40807176; 166218808; 31873640; 125628636; 119578639\tNA\tGO:0005737; GO:0005829; GO:0005882; GO:0045111; GO:0045095; GO:0005198; GO:0070268; GO:0031424\tNA\t611161\tHs.140978\tENSG00000167767\tENST00000313234; ENST00000394815\tENSP00000369361; ENSP00000378292\t452\t50525\t5.58\t0\tPE1\t12\tCytoskeleton\tNA\n+Q8N1N4\tNX_Q8N1N4\tQ8N1N4\tK2C78_HUMAN\t196374\tNP_001287743.1; NP_775487.2\t664806051; 21755908; 89357932; 158255238; 119617056; 57997474; 166218809\tNA\tGO:0005829; GO:0070062; GO:0005615; GO:0045095; GO:0005198; GO:0070268; GO:0031424\tNA\t611159\tHs.665267\tENSG00000170423\tENST00000304620; ENST00000359499\tENSP00000306261; ENSP00000352479\t520\t56866\t5.79\t0\tPE1\t12\tNA\tNA\n+P19013\tNX_P19013\tP19013\tK2C4_HUMAN\tNA\tNA\t34073; 82654947; 34077; 38014092; 16209201; 313159; 27769210\tNA\tGO:0009986; GO:0005829; GO:0005882; GO:0045111; GO:0045095; GO:0005634; GO:0005198; GO:0070268; GO:0007010; GO:0030855; GO:0031424; GO:0050680\tI37942\t123940; 193900\tHs.654610; Hs.731814\tENSG00000170477\tENST00000293774; ENST00000551956\tENSP00000293774; ENSP00000448220\t534\t57285\t6.25\t0\tPE1\t12\tCytoskeleton\tWhite sponge nevus 1\n+P19012\tNX_P19012\tP19012\tK1C15_HUMAN\t3866\tNP_002266.2\t12803613; 125081; 24430190; 311033438; 193786870; 193787108; 30583361; 34071; 6729679\tNA\tGO:0005829; GO:0070062; GO:0005882; GO:0005634; GO:0097110; GO:0005200; GO:0070268; GO:0008544; GO:0031424\tS01069\t148030\tHs.654570\tENSG00000171346\tENST00000254043; ENST00000393976\tENSP00000254043; ENSP00000377546\t456\t49212\t4.71\t0\tPE1\t17\tNucleoplasm;Cytoskeleton\tNA\n+Q9C075\tNX_Q9C075\tQ9C075\tK1C23_HUMAN\t25984\tNP_001269362.1; NP_056330.3; XP_005257257.1; XP_011522897.1\t27894339; 539847623; 158259921; 143811410; 530411877; 221043902; 12641919; 7023692; 18202746; 767994237\tNA\tGO:0005829; GO:0005882; GO:0005198; GO:0070268; GO:0031424\tNA\t606194\tHs.9029\tENSG00000108244; ENSG00000263309\tENST00000209718; ENST00000436344; ENST00000571258; ENST00000574480\tENSP00000209718; ENSP00000414056; ENSP00000460637; ENSP00000459021\t422\t48131\t6.09\t0\tPE1\t17\tCytoskeleton;Cytosol\tNA\n+Q04695\tNX_Q04695\tQ04695\tK1C17_HUMAN\t3872\tNP_000413.1\t34075; 148615520; 30379; 21754583; 14198021; 33991652; 119581157; 148615514; 148615518; 4557701; 48735384; 15080273; 148615516; 47939651; 547751; 1000379\tNA\tGO:0071944; GO:0005829; GO:0070062; GO:0005882; GO:0045111; GO:0042289; GO:0032395; GO:0005200; GO:0070268; GO:0008544; GO:0031069; GO:0045109; GO:0031424; GO:0030307; GO:0051798; GO:0045727; GO:0007165\tS30433\t148069; 167210; 184500\tHs.2785\tENSG00000128422\tENST00000311208\tENSP00000308452\t432\t48106\t4.97\t0\tPE1\t17\tCytoplasm\tPachyonychia congenita 2;Steatocystoma multiplex\n+P08779\tNX_P08779\tP08779\tK1C16_HUMAN\t3868\tNP_005548.2\t23503075; 186685; 4321795; 24659602; 1000377; 1195531; 119581153; 4091879; 24430192; 158255142\tNA\tGO:0005856; GO:0005829; GO:0070062; GO:0005882; GO:0005634; GO:0005200; GO:0007568; GO:0008283; GO:0070268; GO:0007010; GO:0008544; GO:0061436; GO:0042633; GO:0006954; GO:0045087; GO:0045104; GO:0031424; GO:0030216; GO:0051546; GO:0002009; GO:0030336\tA33652; JC4313\t148067; 167200; 613000\tHs.655160\tENSG00000186832\tENST00000301653\tENSP00000301653\t473\t51268\t4.98\t0\tPE1\t17\tNA\tPachyonychia congenita 1;Keratoderma, palmoplantar, non-epidermolytic, focal 1\n+P02538\tNX_P02538\tP02538\tK2C6A_HUMAN\t3853\tNP_005545.1\t34069; 46812692; 1346344; 5031839; 914833; 15559584\t5KI0:A\tGO:0005829; GO:0070062; GO:0045095; GO:0016020; GO:0005634; GO:0005200; GO:0061844; GO:0030154; GO:0070268; GO:0051801; GO:0050830; GO:0031424; GO:0002009; GO:0001899; GO:2000536; GO:0008284; GO:0042060\tA57398; I61769\t148041; 615726\tHs.700779\tENSG00000205420\tENST00000330722\tENSP00000369317\t564\t60045\t8.09\t0\tPE1\t12\tNA\tPachyonychia congenita 3\n+P04259\tNX_P04259\tP04259\tK2C6B_HUMAN\t3854\tNP_005546.2\t1346345; 311396606; 386849; 908790; 908805; 238054404; 119703753; 21961227\tNA\tGO:0005829; GO:0070062; GO:0045095; GO:0005200; GO:0070268; GO:0007398; GO:0031424\tI61767; I61771\t148042; 615728\tHs.708950\tENSG00000185479\tENST00000252252\tENSP00000252252\t564\t60067\t8.09\t0\tPE1\t12\tNA\tPachyonychia congenita 4\n'
b
diff -r 000000000000 -r b455ec3f4f33 test-data/FKW_ID_Converter_Lacombe_et_al_2017_OK.tsv
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/test-data/FKW_ID_Converter_Lacombe_et_al_2017_OK.tsv Mon Nov 12 11:10:16 2018 -0500
b
b'@@ -0,0 +1,149 @@\n+V1\tneXtProt_ID\tUniProt.AC\tUniProt.ID\tGeneID\tRefSeq\tGI\tPDB\tGO\tPIR\tMIM\tUniGene\tEnsembl\tEnsembl_TRS\tEnsembl_PRO\n+\n+P61626\tNX_P61626\tP61626\tLYSC_HUMAN\t4069\tNP_000230.1\t3659963; 7546189; 11513929; 159046751; 157832582; 13399629; 12084272; 550545696; 157833671; 667484857; 9955039; 157833900; 157834290; 3402140; 9955034; 157834712; 1065034; 157834217; 22218809; 157831824; 157834219; 34811083; 157836837; 157835341; 157835054; 4930021; 30750167; 6729883; 157835322; 1065033; 157834715; 14278475; 11513935; 17942573; 157833905; 734458781; 159046750; 159046754; 157833673; 6730357; 550545697; 14278470; 7767015; 9955033; 157831913; 4557894; 12084274; 14278467; 157831912; 17942569; 17942570; 157831552; 14278476; 12084398; 5107557; 157831823; 38492671; 6729884; 157832584; 3659959; 22218808; 270346492; 13399627; 157831359; 157835056; 15825835; 159046753; 14278473; 9955036; 157834714; 219689184; 323462871; 50514025; 6980458; 159046752; 3402139; 9955035; 157834288; 5821956; 12084400; 4930015; 157835338; 6730358; 157834708; 4388847; 157832586; 157835344; 157835340; 157831910; 847820; 12084275; 667484859; 17942567; 157834216; 6729881; 12084397; 157834220; 157831908; 157834707; 353529987; 323462872; 9955030; 13399630; 157834716; 219689182; 6729882; 5821955; 17942572; 7767021; 48428995; 215794704; 13399625; 157834702; 14278474; 157833914; 12084396; 4930017; 157831825; 6729876; 14278471; 7767016; 157834706; 157835339; 159046755; 157831857; 9955031; 157831754; 157831571; 1827553; 6730356; 157833672; 4930014; 157831914; 307141; 17942566; 12084273; 253723297; 15825837; 157831554; 157832581; 9955029; 9256911; 157831553; 9955038; 157834705; 11513931; 5821957; 11514208; 6729879; 4930023; 6980888; 157834291; 12084403; 1827555; 9955327; 219689183; 157835057; 17942574; 157832585; 157834218; 15825836; 157829563; 13399626; 157834711; 24987350; 6729705; 157835053; 157832578; 157835342; 4930020; 157831820; 3659960; 11513937; 9955037; 157834289; 4930022; 157831822; 157833668; 12084409; 157835052; 9955028; 9955032; 157834709; 12084402; 15988350; 4930016; 17942571; 3402142; 17942568; 1335210; 157830185; 157835343; 157832587; 157834292; 157832579; 5107681; 11513927; 13399628; 157834704; 157831853; 157831921; 3659961; 12084399; 6729878; 157834215; 6729880; 157831551; 3402143; 12084401; 6980459; 5107556; 3659962; 157833921; 157834703; 157834710; 6729885; 157832583; 3659958; 157832580; 4388848; 157835055; 6729877; 159046756; 157831821; 9955027; 157829561; 15825838; 11513933; 14278472; 157834713\t133L:A; 134L:A; 1B5U:A; 1B5V:A; 1B5W:A; 1B5X:A; 1B5Y:A; 1B5Z:A; 1B5Z:B; 1B7L:A; 1B7M:A; 1B7N:A; 1B7O:A; 1B7P:A; 1B7Q:A; 1B7R:A; 1B7S:A; 1BB3:A; 1BB3:B; 1BB4:A; 1BB4:B; 1BB5:A; 1BB5:B; 1C43:A; 1C45:A; 1C46:A; 1C7P:A; 1CJ6:A; 1CJ7:A; 1CJ8:A; 1CJ9:A; 1CKC:A; 1CKD:A; 1CKF:A; 1CKG:A; 1CKG:B; 1CKH:A; 1D6P:A; 1D6Q:A; 1DI3:A; 1DI4:A; 1DI5:A; 1EQ4:A; 1EQ5:A; 1EQE:A; 1GAY:A; 1GAZ:A; 1GB0:A; 1GB2:A; 1GB3:A; 1GB5:A; 1GB6:A; 1GB7:A; 1GB8:A; 1GB9:A; 1GBO:A; 1GBW:A; 1GBX:A; 1GBY:A; 1GBZ:A; 1GDW:A; 1GDX:A; 1GE0:A; 1GE1:A; 1GE2:A; 1GE3:A; 1GE4:A; 1GEV:A; 1GEZ:A; 1GF0:A; 1GF3:A; 1GF4:A; 1GF5:A; 1GF6:A; 1GF7:A; 1GF8:A; 1GF9:A; 1GFA:A; 1GFE:A; 1GFG:A; 1GFH:A; 1GFJ:A; 1GFK:A; 1GFR:A; 1GFT:A; 1GFU:A; 1GFV:A; 1HNL:A; 1I1Z:A; 1I20:A; 1I22:A; 1I22:B; 1I22:C; 1I22:D; 1INU:A; 1IOC:A; 1IP1:A; 1IP2:A; 1IP3:A; 1IP3:B; 1IP4:A; 1IP5:A; 1IP6:A; 1IP7:A; 1IP7:B; 1IWT:A; 1IWU:A; 1IWV:A; 1IWW:A; 1IWX:A; 1IWY:A; 1IWZ:A; 1IX0:A; 1IY3:A; 1IY4:A; 1JKA:A; 1JKB:A; 1JKC:A; 1JKD:A; 1JSF:A; 1JWR:A; 1LAA:A; 1LHH:A; 1LHI:A; 1LHJ:A; 1LHK:A; 1LHL:A; 1LHM:A; 1LMT:A; 1LOZ:A; 1LYY:A; 1LZ1:A; 1LZ4:A; 1LZ5:A; 1LZ6:A; 1LZR:A; 1LZS:A; 1LZS:B; 1OP9:B; 1OUA:A; 1OUB:A; 1OUC:A; 1OUD:A; 1OUE:A; 1OUF:A; 1OUG:A; 1OUH:A; 1OUI:A; 1OUJ:A; 1QSW:A; 1QSW:B; 1QSW:C; 1QSW:D; 1RE2:A; 1REM:A; 1REX:A; 1REY:A; 1REZ:A; 1TAY:A; 1TBY:A; 1TCY:A; 1TDY:A; 1UBZ:A; 1W08:A; 1WQM:A; 1WQN:A; 1WQO:A; 1WQP:A; 1WQQ:A; 1WQR:A; 1YAM:A; 1YAN:A; 1YAO:A; 1YAP:A; 1YAQ:A; 207L:A; 208L:A; 2BQA:A; 2BQB:A; 2BQC:A; 2BQD:A; 2BQE:A; 2BQF:A; 2BQG:A; 2BQH:A; 2BQI:'..b'X_P13646\tP13646\tK1C13_HUMAN\t3860\tNP_002265.2; NP_705694.2\t131412228; 6016411; 269849755; 62897663; 3603253; 34033; 21750830; 30377; 131412225; 62897715\tNA\tGO:0005829; GO:0070062; GO:0045111; GO:0045095; GO:0005634; GO:0005198; GO:0071300; GO:0070268; GO:0007010; GO:0031424; GO:0009314; GO:0043587\tA37343; S06088\t148065; 615785\tHs.654550\tENSG00000171401\tENST00000246635; ENST00000336861\tENSP00000246635; ENSP00000336604\n+Q6KB66\tNX_Q6KB66\tQ6KB66\tK2C80_HUMAN\t144501\tNP_001074961.1; NP_872313.2\t119578641; 47846296; 125628632; 40807176; 166218808; 31873640; 125628636; 119578639\tNA\tGO:0005737; GO:0005829; GO:0005882; GO:0045111; GO:0045095; GO:0005198; GO:0070268; GO:0031424\tNA\t611161\tHs.140978\tENSG00000167767\tENST00000313234; ENST00000394815\tENSP00000369361; ENSP00000378292\n+Q8N1N4\tNX_Q8N1N4\tQ8N1N4\tK2C78_HUMAN\t196374\tNP_001287743.1; NP_775487.2\t664806051; 21755908; 89357932; 158255238; 119617056; 57997474; 166218809\tNA\tGO:0005829; GO:0070062; GO:0005615; GO:0045095; GO:0005198; GO:0070268; GO:0031424\tNA\t611159\tHs.665267\tENSG00000170423\tENST00000304620; ENST00000359499\tENSP00000306261; ENSP00000352479\n+P19013\tNX_P19013\tP19013\tK2C4_HUMAN\tNA\tNA\t34073; 82654947; 34077; 38014092; 16209201; 313159; 27769210\tNA\tGO:0009986; GO:0005829; GO:0005882; GO:0045111; GO:0045095; GO:0005634; GO:0005198; GO:0070268; GO:0007010; GO:0030855; GO:0031424; GO:0050680\tI37942\t123940; 193900\tHs.654610; Hs.731814\tENSG00000170477\tENST00000293774; ENST00000551956\tENSP00000293774; ENSP00000448220\n+P19012\tNX_P19012\tP19012\tK1C15_HUMAN\t3866\tNP_002266.2\t12803613; 125081; 24430190; 311033438; 193786870; 193787108; 30583361; 34071; 6729679\tNA\tGO:0005829; GO:0070062; GO:0005882; GO:0005634; GO:0097110; GO:0005200; GO:0070268; GO:0008544; GO:0031424\tS01069\t148030\tHs.654570\tENSG00000171346\tENST00000254043; ENST00000393976\tENSP00000254043; ENSP00000377546\n+Q9C075\tNX_Q9C075\tQ9C075\tK1C23_HUMAN\t25984\tNP_001269362.1; NP_056330.3; XP_005257257.1; XP_011522897.1\t27894339; 539847623; 158259921; 143811410; 530411877; 221043902; 12641919; 7023692; 18202746; 767994237\tNA\tGO:0005829; GO:0005882; GO:0005198; GO:0070268; GO:0031424\tNA\t606194\tHs.9029\tENSG00000108244; ENSG00000263309\tENST00000209718; ENST00000436344; ENST00000571258; ENST00000574480\tENSP00000209718; ENSP00000414056; ENSP00000460637; ENSP00000459021\n+Q04695\tNX_Q04695\tQ04695\tK1C17_HUMAN\t3872\tNP_000413.1\t34075; 148615520; 30379; 21754583; 14198021; 33991652; 119581157; 148615514; 148615518; 4557701; 48735384; 15080273; 148615516; 47939651; 547751; 1000379\tNA\tGO:0071944; GO:0005829; GO:0070062; GO:0005882; GO:0045111; GO:0042289; GO:0032395; GO:0005200; GO:0070268; GO:0008544; GO:0031069; GO:0045109; GO:0031424; GO:0030307; GO:0051798; GO:0045727; GO:0007165\tS30433\t148069; 167210; 184500\tHs.2785\tENSG00000128422\tENST00000311208\tENSP00000308452\n+P08779\tNX_P08779\tP08779\tK1C16_HUMAN\t3868\tNP_005548.2\t23503075; 186685; 4321795; 24659602; 1000377; 1195531; 119581153; 4091879; 24430192; 158255142\tNA\tGO:0005856; GO:0005829; GO:0070062; GO:0005882; GO:0005634; GO:0005200; GO:0007568; GO:0008283; GO:0070268; GO:0007010; GO:0008544; GO:0061436; GO:0042633; GO:0006954; GO:0045087; GO:0045104; GO:0031424; GO:0030216; GO:0051546; GO:0002009; GO:0030336\tA33652; JC4313\t148067; 167200; 613000\tHs.655160\tENSG00000186832\tENST00000301653\tENSP00000301653\n+P02538\tNX_P02538\tP02538\tK2C6A_HUMAN\t3853\tNP_005545.1\t34069; 46812692; 1346344; 5031839; 914833; 15559584\t5KI0:A\tGO:0005829; GO:0070062; GO:0045095; GO:0016020; GO:0005634; GO:0005200; GO:0061844; GO:0030154; GO:0070268; GO:0051801; GO:0050830; GO:0031424; GO:0002009; GO:0001899; GO:2000536; GO:0008284; GO:0042060\tA57398; I61769\t148041; 615726\tHs.700779\tENSG00000205420\tENST00000330722\tENSP00000369317\n+P04259\tNX_P04259\tP04259\tK2C6B_HUMAN\t3854\tNP_005546.2\t1346345; 311396606; 386849; 908790; 908805; 238054404; 119703753; 21961227\tNA\tGO:0005829; GO:0070062; GO:0045095; GO:0005200; GO:0070268; GO:0007398; GO:0031424\tI61767; I61771\t148042; 615728\tHs.708950\tENSG00000185479\tENST00000252252\tENSP00000252252\n'
b
diff -r 000000000000 -r b455ec3f4f33 tool-data/result_nextprot.txt
--- /dev/null Thu Jan 01 00:00:00 1970 +0000
+++ b/tool-data/result_nextprot.txt Mon Nov 12 11:10:16 2018 -0500
b
b'@@ -0,0 +1,20231 @@\n+NextprotID\tMW\tSeqLength\tIsoPoint\tChr\tSubcellLocations\tDiseases\tTMDomains\tProteinExistence\n+NX_Q7RTS7\t57865\t529\t7.59\t12\tNA\tEctodermal dysplasia 7, hair/nail type;Woolly hair autosomal dominant;Hypotrichosis 3\t0\tPE1\n+NX_Q7RTS9\t75935\t669\t5.56\t18\tGolgi apparatus;Cytoplasm;Golgi apparatus;Membrane\tSmith-McCort dysplasia 1;Dyggve-Melchior-Clausen syndrome\t0\tPE1\n+NX_Q7RTT3\t21553\t188\t9.19\tX\tNA\tNA\t0\tPE2\n+NX_Q7RTT4\t21859\t187\t9.46\tX\tNA\tNA\t0\tPE2\n+NX_Q7RTT5\t21591\t188\t9.19\tX\tNA\tNA\t0\tPE2\n+NX_Q7RTT6\t21688\t188\t9.32\tX\tNA\tNA\t0\tPE5\n+NX_Q7RTT9\t58059\t530\t7.64\t7\tCytoskeleton;Cytoskeleton;Apical cell membrane;Cell membrane\tNA\t10\tPE1\n+NX_Q7RTU0\t17516\t167\t10.24\t8\tNucleus\tNA\t0\tPE3\n+NX_Q7RTU1\t23309\t214\t11.33\t2\tNucleus\tNA\t0\tPE2\n+NX_Q7RTU3\t29358\t272\t9.54\t6\tNucleus\tNA\t0\tPE1\n+NX_Q7RTU4\t24132\t235\t11.21\t17\tNucleus;Cytoplasm\tCamptosynpolydactyly, complex;Syndactyly, mesoaxial synostotic, with phalangeal reduction;Split-hand/foot malformation with long bone deficiency 3\t0\tPE1\n+NX_Q7RTU5\t29462\t278\t8.71\t1\tNucleus\tNA\t0\tPE3\n+NX_Q7RTU7\t21596\t201\t10.17\t8\tNucleus\tNA\t0\tPE3\n+NX_Q7RTU9\t192967\t1775\t5.27\t15\tKinocilium;Stereocilium;Cell surface\tDeafness, autosomal recessive, 16;Deafness-infertility syndrome\t0\tPE2\n+NX_Q7RTV0\t12405\t110\t8.79\t22\tNucleoplasm;Nucleus;Nucleus speckle\tNA\t0\tPE1\n+NX_Q7RTV2\t25722\t222\t7.74\t6\tCytoplasm\tNA\t0\tPE1\n+NX_Q7RTV3\t38411\t350\t8.07\t9\tNucleus;Nucleoplasm\tNA\t0\tPE1\n+NX_Q7RTV5\t24857\t226\t9.07\t9\tNA\tNA\t0\tPE1\n+NX_Q7RTW8\t128533\t1153\t5.53\t16\tExtracellular matrix;Apical cell membrane\tDeafness, autosomal recessive, 22\t0\tPE1\n+NX_Q7RTX0\t93386\t852\t6.75\t1\tCell membrane\tNA\t7\tPE1\n+NX_Q7RTX1\t93074\t841\t8.32\t1\tCell membrane\tNA\t7\tPE2\n+NX_Q7RTX7\t54092\t472\t5.15\t1\tFlagellum membrane\tNA\t6\tPE1\n+NX_Q7RTX9\t56254\t510\t6.45\t2\tCytosol;Cell membrane\tNA\t12\tPE2\n+NX_Q7RTY0\t44992\t426\t6.44\t17\tGolgi apparatus;Golgi apparatus membrane;Cell membrane\tDiabetes mellitus, non-insulin-dependent\t12\tPE1\n+NX_Q7RTY1\t55794\t509\t8.25\t10\tCell membrane;Cell junction;Nucleus\tNA\t12\tPE1\n+NX_Q7RTY3\t29329\t260\t8.42\t3\tNA\tNA\t0\tPE2\n+NX_Q7RTY5\t35970\t328\t7.49\t4\tSecreted\tNA\t0\tPE2\n+NX_Q7RTY7\t125066\t1134\t8.67\t12\tSecreted\tNA\t0\tPE1\n+NX_Q7RTY8\t94415\t843\t8.84\t3\tCell membrane\tNA\t1\tPE2\n+NX_Q7RTY9\t35078\t318\t9.36\t16\tCell membrane\tNA\t0\tPE1\n+NX_Q7RTZ1\t62642\t564\t7.22\t11\tSecreted\tNA\t0\tPE1\n+NX_Q7RTZ2\t59590\t530\t7.81\t8\tEndoplasmic reticulum;Nucleus\tNA\t0\tPE3\n+NX_Q7Z2D5\t82983\t763\t9\t1\tMembrane\tNA\t6\tPE1\n+NX_Q7Z2E3\t40740\t356\t9.27\t9\tCytoplasm;Nucleolus;Nucleus;Nucleoplasm;Nucleolus\tAtaxia-oculomotor apraxia syndrome\t0\tPE1\n+NX_Q7Z2F6\t14454\t126\t4.9\t16\tNucleoplasm;Cytosol\tNA\t0\tPE2\n+NX_Q7Z2G1\t19618\t175\t10.69\tX\tNucleus membrane;Chromosome\tNA\t0\tPE1\n+NX_Q7Z2H8\t53076\t476\t6.54\t5\tEndoplasmic reticulum;Cell membrane;Lysosome membrane\tNA\t11\tPE1\n+NX_Q7Z2K6\t100231\t904\t7.2\t9\tNucleus;Nucleolus;Endoplasmic reticulum membrane\tNA\t9\tPE1\n+NX_Q7Z2K8\t102399\t1008\t8.33\t5\tCell membrane;Cytoplasmic vesicle;Cell membrane;Growth cone\tNA\t0\tPE1\n+NX_Q7Z2Q7\t70301\t622\t9.02\t5\tMembrane\tNA\t1\tPE2\n+NX_Q7Z2R9\t10995\t100\t12.15\t1\tSecreted\tNA\t0\tPE5\n+NX_Q7Z2T5\t81747\t733\t8.11\t1\tNucleolus;Nucleus\tNA\t0\tPE1\n+NX_Q7Z2V1\t23111\t217\t6.41\t16\tNA\tNA\t0\tPE1\n+NX_Q7Z2W4\t101431\t902\t8.72\t7\tCytosol;Nucleus;Golgi apparatus;Cytoplasm\tNA\t0\tPE1\n+NX_Q7Z2W7\t127685\t1104\t6.91\t2\tCell membrane;Membrane raft;Endoplasmic reticulum membrane\tNA\t6\tPE1\n+NX_Q7Z2W9\t22815\t205\t9.91\t11\tNucleoplasm;Mitochondrion;Mitochondrion\tNA\t0\tPE1\n+NX_Q7Z2X4\t28272\t250\t6.53\t2\tEndoplasmic reticulum;Cytoplasm\tNA\t0\tPE1\n+NX_Q7Z2X7\t12090\t111\t4\tX\tNA\tNA\t0\tPE1\n+NX_Q7Z2Y5\t178479\t1582\t5.93\tX\tCytoplasm;Cytosol;Nucleoplasm\tNA\t0\tPE1\n+NX_Q7Z2Y8\t279048\t2422\t6.12\t11\tCytosol;Nucleus\tNA\t0\tPE2\n+NX_Q7Z2Z1\t210857\t1910\t9\t15\tNucleus;Nucleoplasm\tNA\t0\tPE1\n+NX_Q7Z2Z2\t125430\t1120\t5.66\t15\tCytosol\tNA\t0\tPE1\n+NX_Q7Z304\t77556\t686\t5.05\t9\tEndoplasmic reticulum;Extracellular matrix\tNA\t0\tPE1\n+NX_Q7Z309\t26928\t247\t5.98\tX\tNucleus;Nucleoplasm\tNA\t0\tPE1\n+NX_Q7Z333\t302880\t2677\t6.83\t9\tCytoskeleton;Nucleus;Nucleolus;Nucleus;Nucleoplasm;Cytoplasm;Chromosome;Telomere;Axon;Growth cone\tSpinocerebellar ataxia, autosomal recessive, 1;Amyotrophic lateral sclerosis 4'..b'3\t36596\t318\t8.13\t16\tCytoskeleton;Membrane;Cytosol;Nucleoplasm;Perinuclear region;Endoplasmic reticulum\tNA\t2\tPE1\n+NX_Q7L5N1\t36163\t327\t5.47\t7\tNucleus;Nucleoplasm;Nucleus;Cytoplasm\tNA\t0\tPE1\n+NX_Q7L5N7\t60208\t544\t6.14\t16\tLipid droplet;Golgi apparatus membrane;Endoplasmic reticulum membrane;Lipid droplet;Endoplasmic reticulum\tNA\t1\tPE1\n+NX_Q7L5Y1\t49786\t443\t6.03\t18\tMitochondrion\tNA\t0\tPE1\n+NX_Q7L5Y6\t63848\t550\t7.32\t15\tNucleoplasm;Cytoskeleton;Nucleus\tNA\t0\tPE1\n+NX_Q7L5Y9\t45287\t396\t8.95\t4\tNucleoplasm;Nucleus matrix;Cell membrane;Cytoskeleton\tNA\t0\tPE1\n+NX_Q7L622\t80504\t706\t7.9\t14\tCytoplasm;Nucleolus\tNA\t0\tPE1\n+NX_Q7L775\t70370\t607\t5.77\t3\tEndoplasmic reticulum\tNA\t0\tPE1\n+NX_Q7L7L0\t14121\t130\t11.05\t1\tNucleus;Chromosome\tNA\t0\tPE1\n+NX_Q7L7V1\t84419\t743\t4.88\t10\tNucleus;Mitochondrion\tNA\t0\tPE1\n+NX_Q7L7X3\t116070\t1001\t7.3\t17\tCytoplasm\tNA\t0\tPE1\n+NX_Q7L804\t58279\t512\t9.33\t10\tCytoplasmic vesicle;Nucleoplasm;Cell membrane;Recycling endosome membrane\tNA\t0\tPE1\n+NX_Q7L8A9\t40957\t365\t9.5\t14\tSecreted\tNA\t0\tPE1\n+NX_Q7L8C5\t46885\t426\t7.6\t11\tGolgi apparatus;Cytoplasmic vesicle;Membrane\tNA\t1\tPE1\n+NX_Q7L8J4\t43499\t393\t5.57\t1\tGolgi apparatus;Cytoplasmic vesicle;Nucleoplasm\tNA\t0\tPE1\n+NX_Q7L8L6\t86574\t764\t8.41\t20\tMitochondrion nucleoid\tNA\t0\tPE1\n+NX_Q7L8S5\t33300\t288\t6.29\tX\tNA\tNA\t0\tPE1\n+NX_Q7L8W6\t30307\t267\t5.24\t15\tNucleus;Nucleolus\tNA\t0\tPE1\n+NX_Q7L945\t52853\t461\t9.18\t19\tNucleolus;Nucleus;Nucleus\tNA\t0\tPE1\n+NX_Q7L985\t68066\t606\t8.44\t9\tMembrane\tNA\t1\tPE1\n+NX_Q7L9B9\t62403\t569\t8.64\t7\tNucleus speckle;Cytoplasmic vesicle;Cell membrane\tNA\t0\tPE1\n+NX_Q7L9L4\t25091\t216\t6.24\t4\tCytoplasm;Nucleus\tNA\t0\tPE1\n+NX_Q7LBC6\t191581\t1761\t6.78\t5\tNucleus;Nucleoplasm\tNA\t0\tPE1\n+NX_Q7LBE3\t86988\t791\t8.47\t1\tMembrane;Nucleus;Cell junction\tNA\t13\tPE1\n+NX_Q7LBR1\t22109\t199\t7.81\t18\tNucleus;Late endosome membrane;Midbody;Cytosol;Endosome\tNA\t0\tPE1\n+NX_Q7LC44\t45316\t396\t5.45\t8\tCytoskeleton;Synapse;Cytoplasmic vesicle;Cytoskeleton;Endosome;Acrosome;Postsynaptic density;Dendrite;Dendritic spine\tNA\t0\tPE1\n+NX_Q7LDG7\t69248\t609\t7.89\t11\tSynaptosome;Ruffle membrane;Cell membrane;Cytosol\tBleeding disorder, platelet-type 18\t0\tPE1\n+NX_Q7LDI9\t74079\t666\t9.11\t7\tCell membrane\tNA\t0\tPE1\n+NX_Q7LFL8\t32977\t322\t9.27\t5\tCytosol;Nucleoplasm;Nucleus;Cytoplasm\tNA\t0\tPE1\n+NX_Q7LFX5\t64926\t561\t8.56\t10\tCentrosome;Cytosol;Golgi apparatus membrane\tNA\t1\tPE1\n+NX_Q7LG56\t40737\t351\t4.89\t8\tNucleus;Nucleoplasm;Cytoplasm;Cytosol\tProgressive external ophthalmoplegia with mitochondrial DNA deletions, autosomal dominant, 5;Mitochondrial DNA depletion syndrome 8A;Mitochondrial DNA depletion syndrome 8B\t0\tPE1\n+NX_Q7LGA3\t41881\t356\t8.83\t1\tMitochondrion;Golgi apparatus membrane\tNA\t1\tPE1\n+NX_Q7LGC8\t54706\t479\t8.84\t10\tCytosol;Golgi apparatus;Golgi apparatus membrane\tSpondyloepiphyseal dysplasia with congenital joint dislocations\t1\tPE1\n+NX_Q7M4L6\t46768\t423\t6.01\t15\tNucleus\tNA\t0\tPE1\n+NX_Q7RTM1\t67353\t612\t8.71\t4\tExtracellular space;Membrane\tNA\t10\tPE2\n+NX_Q7RTN6\t48369\t431\t6.02\t17\tCytosol;Nucleoplasm;Cytoplasm;Nucleus\tNA\t0\tPE1\n+NX_Q7RTP0\t34562\t329\t8.7\t15\tCell membrane;Early endosome\tSpastic paraplegia 6, autosomal dominant\t9\tPE1\n+NX_Q7RTP6\t224295\t2002\t5.43\t22\tCytosol;Cytoplasm;Cell membrane;Nucleoplasm;Cell cortex;Cilium basal body;Spindle;Midbody;Nucleus;Cytoskeleton\tNA\t0\tPE1\n+NX_Q7RTR0\t113312\t991\t6.08\t19\tCytoplasm;Inflammasome\tNA\t0\tPE1\n+NX_Q7RTR2\t114658\t1065\t8.64\t16\tCytosol;Microtubule organizing center;Cytoplasm\tNA\t0\tPE1\n+NX_Q7RTR8\t36195\t314\t9.64\t12\tMembrane;Focal adhesion;Nucleoplasm;Cytoskeleton\tNA\t7\tPE2\n+NX_Q7RTS1\t20818\t189\t11.26\t7\tNucleoplasm;Nucleus;Golgi apparatus\tNA\t0\tPE1\n+NX_Q7RTS3\t34970\t328\t5.1\t10\tNucleus;Nucleoplasm;Cytoplasm\tPancreatic agenesis 2;Pancreatic and cerebellar agenesis\t0\tPE1\n+NX_Q7RTS5\t66296\t596\t8.96\t17\tMembrane\tNA\t12\tPE1\n+NX_Q7RTS6\t62236\t562\t7.04\t17\tMembrane\tNA\t10\tPE1\n+NX_Q8WZ42\t3816030\t34350\t6.02\t2\tCytoplasm;Nucleus   Early-onset myopathy with fatal cardiomyopathy;Cardiomyopathy, familial hypertrophic 9;Cardiomyopathy, dilated 1G;Tardive tibial muscular dystrophy;Hereditary myopathy with early respiratory failure;Limb-girdle muscular dystrophy\t2J\t0\tPE1\n'