数字数据大爆炸催生了存储、服务并分析千兆位数据的技术,因而也为统计领域的专业人才制造了大量机会。当前越来越多统计人才都接受过R语言(一种开源的统计编程语言)培训。 R语言在20世纪90年代发展起来,而且已经成为事实上的计算统计学(Computational Statistics)和预测分析的标准,它目前拥有超过200万用户。R语言之所以被广泛采用,部分原因在于不懂其他编程语言的统计人员也可以利用它进行复杂的分析。此外,作为开源项目,R语言鼓励用户添加代码,目前有2000多人经常编写R语言软件包,而其他人可以利用这些软件包来进行特定的数据分析。 SPSS(Statistical Package for the Social Sciences,社会科学统计软件包)的发明者诺曼·奈伊(Norman Nie)说:“没有什么统计概念是R不能表现的。”诺曼·奈伊现在是分析力革命公司(Revolution Analytics)公司的首席执行官,这家公司为企业和学术客户提供R语言的开放核心变体。 分析力革命公司将R语言带入“大数据”时代 8月初,分析力革命公司发布了“革命R语言企业软件包”(Revolution R Enterprise package)的新版本。新版本包含一个名为RevoScaleR的附加软件包,它是为用户处理千兆级数据集而专门设计和优化的,可解决标准R语言软件包常遇到的内存屏障问题。而且它还针对“大数据”(big data)将广泛使用的统计算法进行了优化。 目前,用户可以用R语言进行命令行编程。但分析力革命公司计划在2011年初发布一个增强的图形用户界面,以便让这些统计工具更大程度地开源。 企业统计软件工具曾经仅仅在金融和制药行业内使用。但是对很多其他行业(比如零售、游戏、信息服务和娱乐业)而言,数据挖掘、商业智能和统计分析也正在变为较为常见的业务活动。 虽然SAS公司声称它仍然是商业智能领域的领头羊,奈伊说,当前获得高级学位的统计专业毕业生都接受过R语言培训,这导致了围绕R语言的非常强大的生态系统的形成。分析力革命公司希望能在统计领域中的学术界和企业界之间架设起桥梁。 |