2014年各国留学新政大盘点Excel也能做统计分析——入门篇整理了SPSS全套学习资料,拿走拿走别客气!

总有一款适合你!数据挖掘四大名器

【精选课件】医学科研中常用统计方法及错误解析
如何用spss软件处理问卷
【2015】t检验之SPSS实现简约版(视频)

工欲善其事必先利其器,数据挖掘工具于大数据技术人员相当于名剑于侠客。本文为你介绍4种主流的数据挖掘工具,掌握了它们,你将如虎添翼!

RHadoop

R语言的强大之处在于统计分析。在没有使用Hadoop之前,对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。相比于Mahout,R语言对多数的Mahout通用算法都支持,并且还支持大量的Mahout不支持的算法,算法的增长速度比Mahout快N倍。并且开发简单,参数配置灵活,对小型数据集运算速度非常快。当然R 和Mahout擅长的领域并不重合。

Hadoop重点是全量数据存储与分析,R语言重点是拥有大量数据分析算法库,同时具有丰富的图形展现组件,两种技术放在一起,刚好取长补短。

RHadoop是一款Hadoop和R语言的结合的产品,是运行R语言的Hadoop分布式计算平台的简称。RHadoop包含三个R包 (rmr,rhdfs,rhbase),分别是对应Hadoop系统架构中的MapReduce, HDFS,HBase 三个部分。

RHaoop运行原理

RHadoop提供了直接基于大数据平台之上进行交互式编程,达到开发和部署合一的一种手段。

SAS

SAS全称为Statistics Analysis System,被誉为国际上的标准统计软件系统,被Gartner评为数据分析领域处于领导者地位的产品。

SAS是一个组合软件系统,它由多个功能模块组合,基本上分为四大部分:SAS数据库部分、SAS分析核心、SAS开发呈现工具、SAS对分布式处理的支持及其数据仓库设计。SAS系统主要完成以数据为中心的四大任务:数据访问、数据管理、数据呈现和数据分析。

SAS基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。BASE SAS模块除可单独存在外,也可与其他产品或模块共同构成一个完整的系统,在BASE SAS的基础上,还可以增加如下不同的模块而增加不同的功能:SAS/STAT(统计分析模块)、SAS/GRAPH(绘图模块)、SAS/QC(质量控制模块)、SAS/ETS(经济计量学和时间序列分析模块)、SAS/OR(运筹学模块)、SAS/IML(交互式矩阵程序设计语言模块)、SAS/FSP(快速数据处理的交互式菜单系统模块)、SAS/AF(交互式全屏幕软件应用系统模块)等等。

SAS提供多个统计过程,每个过程均含有极丰富的任选项,用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。

SAS的用户定位是统计分析的专业人员,SAS提供的统计分析功能很强大,编程语句简洁短小,但同时也要求使用者对统计分析领域具有较高的专业知识。因此SAS的入门门槛比较高,但同时SAS能为专业统计分析人员提供更加全面、先进、高效的统计方法,使用SAS用户也可以方便的开发出最前沿的统计分析算法。

作为一种成熟、完善的商业软件,SAS在高端市场的占有率也是其他同类软件无法比拟的。

SPSS

SPSS是软件英文名称的首字母缩写,原意为StatisticalPackage for the Social Sciences,即“社会科学统计软件包”。2009年SPSS被IBM收购,成为IBM业务分析解决方案的核心构成部分,为企业级应用提供统计学分析运算、数据挖掘、预测分析和决策支持等能力。

和SAS类似,SPSS也由多个模块构成,其中SPSS Base为基本模块,其余模块包括Advanced Models、Regression Models、Tables、Trends、Categories、Conjoint、Exact Tests、Missing ValueAnalysis和Maps等,分别用于完成某一方面的统计分析功能,他们均需要挂接在Base上运行。

SPSS最突出的特点就是操作界面极为友好,无需要求使用者对统计分析有较强的理论基础,只要掌握一定的Windows操作技能,了解统计分析原理,就可以使用该软件完成数据接入、数据预处理、数据分析、可视化、报表制作,是非专业统计人员的首选统计软件。其统计过程包括了常用的、较为成熟的统计过程,还包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据归约、生存分析、时间序列分析等几大类,虽然其统计分析功能与SAS相比仍有一定欠缺,但完全可以满足非统计专业人士的工作需要。

由于SPSS的目标定位为企业级业务分析,其目标用户为非统计专业人士,所以提供了友好的GUI界面,与SAS相比使用更简单,入门门槛低。

STATA

STATA是STATA公司开发的一款统计分析软件,在计量经济学领域应用比较广泛。

STATA大体上与SPSS提供的能力近似,数据管理支持数据转换匹配-合并、ODBC、JDBC、XML、分组处理、排序;基础统计支持汇总、列联表、相关检验、等方差检验、比例检验、置信区间等;线性模型支持Bootstrap估计、jackknife估计、三阶段最小平方估计、分位数回归、GLS等;多层混合效应模型支持连续、二元和计数结果、2/3/多因子随机Intercepts和随机系数模型、交叉随机效应、ML/REML估计、分层模型等;面板数据/横截面时间序列分析支持带稳健标准误差的随机和混合效应、线性混合模型、随机效应Probit模型、GEE、随机和混合效应Poisson、Arellano-Bond、工具变量回归、AR1等;广义线性模型支持10个链接函数、用户定义连接、7种分布、ML和IRLS评估、9种方差评估、7种残差等;非参数方法支持Wilcoxon-Mann-Whitney、Wilcoxon符合秩、Kruskal-Wallis检验、Spearman相关、Kendall相关、Kolmogorov-Smirnov建议、精确二项式CIs等;ANOVA/MANOVA支持平衡和非平衡设计、因子、嵌套设计、重复测量等;多元方法支持因子分析、主成份分析、旋转、多维排列、Procrustean分析、相关分析、Biplot、系统树图、用户可扩展分析等;聚类分析支持层次化聚类、Kmeans、Kmedian、停在规则等;重采样和仿真算法支持蒙特卡罗仿真、Permutation检验等;模型检验和后验估计支持Wald检验、LR检验、线性/非线性组合、边际效应、Hausman检验等;图形支持线条图、散点图、条状图、饼图、Hi-io图、回归诊断图、生存图、非参数Smoothers和Q-Q图等;调查方法支持采用权重、多阶段设计、分层、Poststratification、Deff、汇总表格、工具变量、Probit等;生存分析支持Kaplan-Meier评估、Nelson-Aalen评估、Cox回归、参数模型、时间变异协方差、指数分析、Gompertz分析等;流行病学工具支持比率标准化、病例对照、匹配病例对照、Mantal-Haenszel、代谢动力学、ROC分析和ICD-9-CM等;时间序列分析支持ARIMA、ARCH/GARCH、VECM、VAR、相关图、周期图、白噪声检验、单元根检验、Holt-Winters平滑、旋转和递归估计等;极大似然方法支持NR、DFP、BFGS、BHHH、OIM、OPG、Wald检验等;转换和正态性检验支持Box-Cox转换、能力值转换、Shapiro-Wilk检验、Shapiro-Francia检验等;矩阵运算是多元统计分析的基础,STATA提供了多元统计分析所需的矩阵基本运算,包括矩阵的加、积、拟、Cholesky分解、Kronecker内积等,还提供了特征根、特征向量、奇异值分解等高级运算。

与SPSS等其他统计分析软件不同,STATA在分析时将数据全部读入内存,在计算全部完成后才和磁盘交互数据,这一方面保证了计算速度,但另一方面也限制了STATA能够处理的数据集的大小。与SPSS不同,STATA面向的用户主要是专业用户,因此提供的开发工具主要是STATA编程语言,入门门槛相对较高,但较SAS要远为简单。

STATA分为STATA/MP、STATA/SE、STATA/IC、Small STATA几个版本,其中STATA/IC 为标准版本,STATA/SE是适合大数据集的版本,STATA/MP是拥有并行处理能力的STATA/SE,Small STATA是一个免费的、小型的、裁剪版本。

责任编辑:2014年各国留学新政大盘点