现在很多厂商都说自己的产品是大数据分析软件。如果只是根据功能去区分这些产品,的确是件难事,因为很多工具具有相似的特征和功能。此外,有些工具的差异是非常细微的。所以,关键区分因素可能还是要根据企业的能力以及在数据分析方面的成熟度,重点考虑如何在易用性、算法复杂性和价格之间寻找平衡。
我们将在本文对九个主流大数据分析软件厂商的产品进行对比,即Alteryx、 IBM、KNIME.com、 Microsoft、 Oracle、 RapidMiner、SAP、 SAS 和 Teradata,其中有的厂商提供的工具不止一个。这些厂商分别代表着大数据分析市场的不同方面。我们将结合之前文章中提到的特点,对这些产品进行对比,看这些产品是如何满足企业用户的业务需求。
如何选择最适合的大数据分析软件?
分析师的专业知识和技能。有些工具的目标受众是新手用户,有的是专业数据分析师,有的则是针对这两种受众设计的。
像IBM SPSS Modeler、RapidMiner工具、Oracle Advanced Analytics、SAP Predictive Analytics自动分析版本这些产品,通常针对的人群是没有或只有一点统计学或数据分析背景的用户。用户对数据进行分析、开发分析模型和设计分析工作流,基本不需要编程。每个厂商都把核心分析组件深藏在直观的用户界面下,引导分析师进行数据准备、分析、模型设计和验证等分析进程,但是他们采用的方法可能有所不同,尤其是把一个独立的产品(如RapidMiner)和一个套件产品(如Oracle产品)的一部分进行对比时,尤为不同。
像IBM SPSS Statistics、KNIME Analytics Platform、SAP Predictive Analytics专家分析模块、微软Revolution Analytics和Teradata Aster Discovery Platform这些工具,提供的功能复杂程度远远超乎专家级用户的预期。Oracle 针对Hadoop的R高级分析法(ORAAH)是Oracle大数据软件连接套件中的一部分,它提供了R界面,用来管理Hadoop分布式文件系统(HDFS)数据和用R语言中编写映射(mapper)和归纳(reducer)功能。这种灵活性对于更高水平的数据科学家来说更具吸引力。
Alteryx和SAS EnterpriseMiner可以根据用户专业知识的水平调整功能,主要适用于这两类用户。总体而言,在支持更高级分析技术和模型评分方面,以及包括神经网络、关联分析和可视化功能等更广泛的分析功能方面,SAS Enterprise Miner和IBM的SPSS工具更加独树一帜。
分析多样性。根据不同的用户案例和应用,企业用户可能需要支持不同类型的分析功能,使用特定类型的建模(例如回归、聚类、分割、行为建模和决策树)。这些功能已经能够广泛支持高水平、不同形式的分析建模,但是还是有一些厂商投入数十年的精力,调整不同版本的算法,增加更加高级的功能。理解哪些模型与企业面临的问题最相关,根据产品如何最好地满足用户的业务需求进行产品评估,这些都非常重要。
越成熟和高端(也相对更昂贵)的工具具有的分析广度极大。Oracle Data Miner包括了一系列知名的机器学习方法,支持聚类、预测性挖掘和文本挖掘。IBM SPSS产品的两个版本都提供多套分析技术和模型。SAS Enterprise Miner支持许多算法和技术,包括决策树、时间序列、神经网络、线性和逻辑回归、序列和网络线路分析、购物篮分析和连接分析。
新一代(有时价格更为便宜)产品支持不同的模型,但是算法复杂程度可能较窄。Alteryx Analytics Gallery的模型库存包含以下功能,如回归分析、决策树、关联规则分析、分类和时间序列分析。KNIME包含文本挖掘、图像挖掘和时间序列分析的方法,也从其他开源项目(如Weka、R和JFreeChart)集成机器学习算法。
分析多样性的另一方面是编程语言和统计工具(如R)的集成,将现有库和用户自定义功能进行集成。事实上,与R集成可以说是越来越关键的区别点。Alteryx Designer、微软Revolution Analytics、SAS Enterprise Miner、Teradata Aster Discovery Platform、Oracle ORAAH和KNIME的分析平台,都提供R的接口,支持R的集成。
数据范围分析。要分析的数据范围涉及很多方面,如结构化和非结构化信息,传统的本地数据库和数据仓库、基于云端的数据源,大数据平台(如Hadoop)上的数据管理等。但是,不同产品对非传统数据湖(在Hadoop内或其他用于提供横向扩展的NoSQL数据管理系统内)上的数据管理提供的支持程度不一。如何选择产品,企业必须考虑获取和处理数据量及数据种类的特定需求。
扩展和高性能支持。是否需要可扩展的性能,这是由企业数据量和分析需求决定的。小型企业数据量较小,使用的产品可以不具备与可用资源扩展的性能特点,例如低端工具的入门级版本(如RapidMiner、 KNIME、 微软 Revolution R Open、Alteryx Designer),可以在桌面系统上运行,不需要额外的服务器组件。
大型企业很有可能需要分析的数据集库存更大,用户群更广。这就提出了两个额外的要求——高性能和协作便利性。产品对于高性能构架的适应性表示具有可扩展性,大多数产品可以根据Hadoop的并行性进行适应性改变,或者采用其他能够实现更快运算的方式。
所有的这些产品或多或少能够支持Hadoop,包括IBM SPSS Modeler和SPSS Statistics、RapidMiner的商业组件Radoop(可以将Studio前端和服务器分析引擎连接到存储在Hadoop上的数据)、Oracle Big Data Discovery 和ORAAH工具、KNIME的Big Data Extension 和Cluster Execution插件。Teradata Aster Discovery Platform通过Teradata的MPP构架解决高性能需求。SAP Predictive Analytics的专家分析版本能够执行内存数据挖掘,高效处理大容量数据分析。微软R Enterprise则利用Revolution Analytics的ScaleR模块解决高性能需求,这是一个支持平行化的大数据分析算法的综合库。采用SAS Enterprise Miner的评分算法也能够在Hadoop环境内部署和执行。
协作。企业规模越大,越有可能需要跨部门、在诸多分析师之间分享分析、模型和应用。企业如果有很多分析师分布在各部门,对结果如何进行解释和分析,可能会需要增加更多的共享模型和协作的方法。IBM的SPSS Modeler Gold版本提供了协作功能,RapidMiner的Server产品支持共享和协作。Alteryx Analytics Gallery提供的机制能够与外部机构成员分享云端的高级分析应用。KNIME提供商业扩展,支持团队协作。SAS Enterprise Miner客户服务器构架能够通过共享模型和其他工作产品,让业务用户和数据分析师增强协同合作。
厂商规模和产品集成。我们可以根据厂商规模对产品进行比较。对于我们通常所说的超级大型厂商而言,大数据分析工具仅仅是众多产品工具中的一套产品而已。如果你所在的企业规模很大,通常需要和厂商谈整套产品工具在整个企业范围的企业级许可,那么可以选择像IBM、SAS、SAP或者Oracle这种超级大型厂商。
大型厂商的大数据分析工具只是更大的工具生态系统中的一部分。可以假定,来自同一个超级大型厂商的产品至少已集成的,并且旨在一起使用。此外,有些人更喜欢与大型厂商打交道,是因为觉得大企业的顾客服务更加稳定可靠。另一方面,这样的大数据分析工具可能只可以作为更大软件许可协议的一部分才能够购买。
规模小点的厂商,如KNIME、Alteryx和RapidMiner,收入主要来自许可授权和支持少量大数据分析产品。小型厂商可能可以让你更紧密地与他们的产品管理和创新团队进行接触,你可能可以影响产品路线图或改进功能的发展方向。在价格和许可协议所包括的特性方面,小型厂商可能更加灵活。但是,与小型厂商合作的风险也需要注意,如稳定性、用于支持的可用资源和企业可能被收购的可能性,这些都会影响客户关系。
许可证书和维护预算。几乎所有厂商的产品都分不同的版本,购买费用和整个运营成本各不相同。IBM、Oracle、RapidMiner、Teradata和微软的产品根据不同级别划分版本,许可证书费用与特性、功能、对分析数据的量或者产品可使用的节点数的限制成正比。KNIME和RapidMiner提供免费或开源版本,对技术支持收费或者对企业级应用版本进行收费。相对而言,KNIME、RappidMiner和Alteryx对数量少的用户收取的许可费用较低。你如果考虑SAS和SAP的产品,需要直接找他们询价。
大数据分析软件的市场可能让人找不到北,但是我们希望,本系列采购指南文章能够帮助你更好地理解大数据分析软件能够带给企业什么好处,帮助你更好地区分主流大数据分析产品和工具。