近日,几位专家在参加科技博客网站GigaOm主办的一次虚拟专题小组讨论会时得出结论,尽管许多企业对大数据平台的兴趣日渐浓厚,但是可能需要一段时间以后才能部署标准化的大数据软件堆栈(software stack)。
专题讨论小组的成员们一致认为,一整套标准化的大数据分析软件有望让用户更容易开发大规模的数据分析系统,正如开源LAMP堆栈在过去的十年间带来了一整批Web 2.0服务那样。专题讨论小组的成员们表示,但是使用Hadoop等软件的方式大不一样,以至于可能很难选定某一套核心技术。
LAMP是指协同运行起来非常顺畅的一套软件程序的缩写:Linux、Apache Web服务器、MySQL数据库和一套编程语言:Perl、Python和PHP。
独立顾问Paul Miller主持了这次名为《为大数据而设计:新的架构堆栈》的专题小组讨论会,他说:LAMP“提供了一种通用框架,大家可以在此基础上进行开发。它可供免费使用,而且通俗易懂。它可以在几乎任何平台上运行。它建立了一代新兴公司得以成长起来的坚实基础。”
Miller问道:“随着我们开始看到用户对大数据的兴趣迅速浓厚起来,我们是否需要一种同样无所不在的堆栈?我们在大数据方面是否需要LAMP堆栈那样的堆栈?”大家一致认为,没有一套标准化的堆栈减慢了部署大数据系统的步伐。市场研究公司GigaOm Pro分析报道云计算技术的研究主任Jo Maitland说:“现在没有一套标准堆栈,大家不清楚哪些部分最适合处理某种工作负载。现在处于反复尝试的阶段。”
Canonical公司Ubuntu服务器产品经理Mark Baker指出,LAMP之所以大受欢迎,一个原因就是,其用户都有着类似的要求,都立足于把服务放到网上。他特别指出,另一方面,分析方面的要求往往因企业的不同而不同,而且经常变化。
Dragon Slayer咨询公司的总裁Mark Staimer表示,像电子港湾和推特这些使用Hadoop的大型Web服务公司采用了“连续改进”的运作模式;它们雇用了大量技术娴熟的员工,以适应不断变化的步伐。
Staimer说:“拥有一套不断完善的平台和堆栈对它们来说是好事。它们在公司内部拥有管理这套平台和堆栈的流程和文化。”他补充说,比较传统的“实体”公司“则要保守得多。它们喜欢看到完全成熟的解决方案。”
考虑到目前现有的技术种类多样,加上在不同配置的环境下把它们连接起来本身存在相当大的难度,要获得这样一套堆栈可能很难。
Maitland说:“现在我们有大量不同的部分,你可以相互接通。单单在数据库领域,就有MongoDB、Cassandra和HSpace。”所有这些选择“给人们增添了难度。我们现处于所有这些不同组件混搭的情形。”
Baker表示,出现这样的多样性是为了满足广大用户当中不同的要求。比如说,MySQL在读取数据方面速度超快;而另一方面,Cassandra数据存储区可以更迅速地写入数据。Baker特别指出,制作英国电视节目《英国达人》的那家公司之所以使用Cassandra数据库来记录观众评选最喜爱选手的票数,是因为该数据库能同时处理众多的写入操作。
许多公司已发布了商业Hadoop发行版,比如Cloudera、Hortonworks和MapR;在这些Hadoop发行版中,所有软件组件都集成起来。Maitland认为,但是连Hadoop本身都并非适合处理所有任务。它如同处理批任务那样来处理数据,这意味着整个数据集必须先写入到文件中,之后才能进行分析。不过,许多任务需要分析持续更新的数据,比如点击流或推特消息。
Maitland表示,此外,堆栈还需要得到不止一家公司的支持,那样才能成为一项行业标准。他说:“如果将来有一种堆栈,它需要由开源组织来管理,未必是由某一家公司来管理。”
没有一套标准化堆栈的另一个问题是,这增加了聘请专家来管理和使用大数据系统的成本。眼下,争夺专家的竞争很激烈。
Baker说:“设法构建一套大数据系统需要知识和技能。把那些系统接入到你的基础架构中需要花费时间和资金。现在没有标准的路线图——这是个不断摸索的过程。把各部分都拼凑起来并非易事。”
Maitland说:“你别指望这个行业会迎来爆炸式发展,因为目前需要大量的专业知识。”
Staimer补充说:“普通的业务分析人员无法编写针对Hadoop的查询语句。”
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。