upload_testing: linear_regression.py annotate

annotate linear_regression.py @ 99:399ed00e59c3 draft

Uploaded

author	bernhardlutz
date	Mon, 10 Feb 2014 15:03:58 -0500
parents	babf8ab95495
children

rev	line source
80 c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	1 #!/usr/bin/env python
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	2
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	3 import sys, string
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	4 import rpy2.robjects as robjects
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	5 import rpy2.rlike.container as rlc
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	6 from rpy2.robjects.packages import importr
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	7 r = robjects.r
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	8 grdevices = importr('grDevices')
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	9 # from rpy import *
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	10 import numpy
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	11
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	12
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	13 def stop_err(msg):
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	14 sys.stderr.write(msg)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	15 sys.exit()
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	16
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	17 infile = sys.argv[1]
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	18 y_col = int(sys.argv[2])-1
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	19 x_cols = sys.argv[3].split(',')
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	20 outfile = sys.argv[4]
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	21 outfile2 = sys.argv[5]
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	22
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	23 print "Predictor columns: %s; Response column: %d" %(x_cols,y_col+1)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	24 fout = open(outfile,'w')
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	25 elems = []
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	26 for i, line in enumerate( file ( infile )):
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	27 line = line.rstrip('\r\n')
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	28 if len( line )>0 and not line.startswith( '#' ):
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	29 elems = line.split( '\t' )
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	30 break
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	31 if i == 30:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	32 break # Hopefully we'll never get here...
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	33
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	34 if len( elems )<1:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	35 stop_err( "The data in your input dataset is either missing or not formatted properly." )
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	36
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	37 y_vals = []
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	38 x_vals = []
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	39
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	40 for k,col in enumerate(x_cols):
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	41 x_cols[k] = int(col)-1
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	42 # x_vals.append([])
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	43
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	44 NA = 'NA'
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	45 for ind,line in enumerate( file( infile )):
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	46 if line and not line.startswith( '#' ):
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	47 try:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	48 fields = line.split("\t")
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	49 try:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	50 yval = float(fields[y_col])
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	51 except:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	52 yval = r('NA')
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	53 y_vals.append(yval)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	54 for k,col in enumerate(x_cols):
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	55 try:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	56 xval = float(fields[col])
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	57 except:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	58 xval = r('NA')
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	59 # x_vals[k].append(xval)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	60 x_vals.append(xval)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	61 except:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	62 pass
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	63 # x_vals1 = numpy.asarray(x_vals).transpose()
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	64 # dat= r.list(x=array(x_vals1), y=y_vals)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	65 fv = robjects.FloatVector(x_vals)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	66 m = r['matrix'](fv, ncol=len(x_cols),byrow=True)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	67 # ensure order for generating formula
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	68 od = rlc.OrdDict([('y',robjects.FloatVector(y_vals)),('x',m)])
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	69 dat = robjects.DataFrame(od)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	70 # convert dat.names: ["y","x.1","x.2"] to formula string: 'y ~ x.1 + x.2'
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	71 formula = ' + '.join(dat.names).replace('+','~',1)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	72
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	73 #set_default_mode(NO_CONVERSION)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	74 try:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	75 #linear_model = r.lm(r("y ~ x"), data = r.na_exclude(dat))
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	76 linear_model = r.lm(formula, data = r['na.exclude'](dat))
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	77 except RException, rex:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	78 stop_err("Error performing linear regression on the input data.\nEither the response column or one of the predictor columns contain only non-numeric or invalid values.")
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	79 #set_default_mode(BASIC_CONVERSION)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	80
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	81 #coeffs=linear_model.as_py()['coefficients']
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	82 #yintercept= coeffs['(Intercept)']
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	83 coeffs=linear_model.rx2('coefficients')
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	84 yintercept= coeffs.rx2('(Intercept)')[0]
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	85 summary = r.summary(linear_model)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	86
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	87 #co = summary.get('coefficients', 'NA')
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	88 co = summary.rx2("coefficients")
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	89
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	90 """
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	91 if len(co) != len(x_vals)+1:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	92 stop_err("Stopped performing linear regression on the input data, since one of the predictor columns contains only non-numeric or invalid values.")
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	93 """
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	94 #print >>fout, "p-value (Y-intercept)\t%s" %(co[0][3])
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	95 print >>fout, "p-value (Y-intercept)\t%s" %(co.rx(1,4)[0])
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	96
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	97 if len(x_vals) == 1: #Simple linear regression case with 1 predictor variable
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	98 try:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	99 #slope = coeffs['x']
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	100 slope = r.round(float(coeffs.rx2('x')[0]), digits=10)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	101 except:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	102 slope = 'NA'
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	103 try:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	104 #pval = co[1][3]
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	105 pval = r.round(float(co.rx(2,4)[0]), digits=10)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	106 except:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	107 pval = 'NA'
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	108 print >>fout, "Slope (c%d)\t%s" %(x_cols[0]+1,slope)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	109 print >>fout, "p-value (c%d)\t%s" %(x_cols[0]+1,pval)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	110 else: #Multiple regression case with >1 predictors
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	111 ind=1
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	112 #while ind < len(coeffs.keys()):
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	113 while ind < len(coeffs.names):
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	114 # print >>fout, "Slope (c%d)\t%s" %(x_cols[ind-1]+1,coeffs['x'+str(ind)])
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	115 print >>fout, "Slope (c%d)\t%s" %(x_cols[ind-1]+1,coeffs.rx2(coeffs.names[ind])[0])
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	116 try:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	117 #pval = co[ind][3]
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	118 pval = r.round(float(co.rx(ind+1,4)[0]), digits=10)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	119 except:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	120 pval = 'NA'
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	121 print >>fout, "p-value (c%d)\t%s" %(x_cols[ind-1]+1,pval)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	122 ind+=1
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	123
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	124 rsq = summary.rx2('r.squared')[0]
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	125 adjrsq = summary.rx2('adj.r.squared')[0]
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	126 fstat = summary.rx2('fstatistic').rx2('value')[0]
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	127 sigma = summary.rx2('sigma')[0]
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	128
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	129 try:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	130 rsq = r.round(float(rsq), digits=5)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	131 adjrsq = r.round(float(adjrsq), digits=5)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	132 fval = r.round(fstat['value'], digits=5)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	133 fstat['value'] = str(fval)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	134 sigma = r.round(float(sigma), digits=10)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	135 except:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	136 pass
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	137
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	138 print >>fout, "R-squared\t%s" %(rsq)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	139 print >>fout, "Adjusted R-squared\t%s" %(adjrsq)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	140 print >>fout, "F-statistic\t%s" %(fstat)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	141 print >>fout, "Sigma\t%s" %(sigma)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	142
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	143 r.pdf( outfile2, 8, 8 )
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	144 if len(x_vals) == 1: #Simple linear regression case with 1 predictor variable
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	145 sub_title = "Slope = %s; Y-int = %s" %(slope,yintercept)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	146 try:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	147 r.plot(x=x_vals[0], y=y_vals, xlab="X", ylab="Y", sub=sub_title, main="Scatterplot with regression")
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	148 r.abline(a=yintercept, b=slope, col="red")
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	149 except:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	150 pass
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	151 else:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	152 r.pairs(dat, main="Scatterplot Matrix", col="blue")
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	153 try:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	154 r.plot(linear_model)
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	155 except:
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	156 pass
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	157 #r.dev_off()
c4a3a8999945 Uploaded bernhardlutz parents: diff changeset	158 grdevices.dev_off()

Mercurial > repos > bgruening > upload_testing

annotate linear_regression.py @ 99:399ed00e59c3 draft