提及Hadoop这一大数据存储和处理工具,自然要从它的爸爸Doug Cutting说起。Doug Cutting不仅仅是Hadoop的创始人,还是大名鼎鼎的搜索引擎工具Lucene的开创者。一个程序员能有一个开源软件为千万人所用,而且历久弥新,已经是十分难得。兼具多个的就更是寥寥了。有类似经历的如Linus Torvalds,即是Linux发明者同时也开发了Git。
2002年,Doug Cutting和他的小伙伴Mike Cafarella开始开发一个网络搜索引擎:Nutch。但是,他们很快意识到最初的实现无法扩展。幸而在2003到2004年,Google的两篇文章GFS(分布文件系统)和MapReduce(分布计算)横空出世。很快Nutch实现算法被移植到使用MapReduce和NDFS (Nutch Distributed File System)来运行。近十年来,Google的不少分布式计算和存储的文章给了工业界启发,很多开源的项目都来自于此。除了GFS, MapReduce,还有BigTable,Chubby。比起直接开源,Google(至少早起)似乎更喜欢写文章:)当然,聪明的如Doug这般,这点光亮已经足够他灿烂了。
很快,大家就意识到NDFS和MapReduce的价值远远不只是搜索领域,在2006年2月,他们从Nutch转移出来成为一个独立的Lucene子项目,称为Hadoop。Hadoop这个名字不是一个缩写,它是一个虚构的名字。Doug Cutting如此解释:“这个名字是我孩子给他的棕黄色大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。"Hadoop这头小象就此诞生。可以看到,一个优秀软件的诞生也不是一朝一夕的事情,Hadoop就经历了4年的技术积累。
Doug Cutting也在2006年加入雅虎。正是因为开源和Yahoo的大力支持,Hadoop后来一直顺风顺水,2008年1月,Hadoop已成为Apache顶级项目,2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统。运行在一个910节点的群集,Hadoop在209秒内排序了1 TB的数据(还不到三分半钟)。当然江山代有才人出,如今Spark 用190个节点,234分钟sort 1000TB的数据。对于spark这个后起之秀,以后另谈。
经历了初期的快速增长,Doug意识到很多行业,而不仅仅是像Google,Yahoo这样的大型互联网公司需要Hadoop,这促使他之后加盟了Cloudera,提供专业的Hadoop维护和咨询服务。而后,Hadoop的世界逐渐出现了三足鼎立的局面。欲知后事如何,且听下回分解。
相关推荐
This book is written for anyone who needs to know how to analyze data using Hadoop. It is a good book for both Hadoop beginners and those in need of advancing their Hadoop skills. The author has ...
Hadoop的核心基础 : Google三大论文 Hadoop的核心基础 : Google三大论文 Hadoop的核心基础 : Google三大论文
Hadoop datanode启动失败:Hadoop安装目录权限的问题
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第八讲Hadoop图文训练课程:Hadoop文件系统的操作. 此教程来自于王家林免费发布的3本Hadoop教程:云计算分布式大数据Hadoop实战高手之路(共3本书)...
Hadoop应用案例分析:雅虎、eBay、百度、Facebook
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第九讲Hadoop图文训练课程:剖析NameNode和Secondary NameNode的工作机制和流程. 此教程来自于王家林免费发布的3本Hadoop教程:云计算分布式大数据...
Hadoop分布式文件系统:架构和设计要点.pdf
hadoop2.7汇总:新增功能最新编译64位安装、源码包、API、eclipse插件下载
hdfs官方文档 Hadoop分布式文件系统:结构与设计.pdf
Hadoop分布式文件系统:架构和设计.pdf
Hadoop分布式文件系统:架构和设计要点, 重点讲述Hadoop的体系架构,内部原理,及水平扩展,所注意事项,可谓是新手打开HADOOP大门的第一步
Hadoop分布式文件系统:架构和设计.doc
Hadoop实战高手之路---从零开始”的第六讲Hadoop图文训练课程:使用HDFS命令行工具操作Hadoop分布式集群初体验
Hadoop数据导入导出 :Flume收集数据-安装讲课
Hadoop学习总结之一:HDFS简介
,Hadoop 技术已经在互联网领域得到了广泛的应用。互联网公司往往需要 存储海量的数据并对其进行处理,而这正是Hadoop 的强项。如Facebook 使用Hadoop 存储 内部的日志拷贝,以及数据挖掘和日志统计;Yahoo !利用...
介绍容器化hadoop的方案,hadoop on kubernetes的产品实践。