摘要:请点击此处下载演讲稿 近日,由中科院计算所主办的“Hadoop 中国2010云计算大会”在北京召开。淘宝网作为国内最大的Hadoop应用商之一赞助与参与了这次会议。我有幸代表淘宝在大会上分享了淘宝在分布式数据处理实践的内容,下面是ppt的一个节选: 淘宝网目前有会员2亿左右,日均UV高达4000万,日交易量高达10亿元,每天产生大量的数据,所以部署了一系 ...
请点击此处下载演讲稿
近日,由中科院计算所主办的“Hadoop 中国2010云计算大会”在北京召开。淘宝网作为国内最大的Hadoop应用商之一赞助与参与了这次会议。我有幸代表淘宝在大会上分享了淘宝在分布式数据处理实践的内容,下面是ppt的一个节选:
淘宝网目前有会员2亿左右,日均UV高达4000万,日交易量高达10亿元,每天产生大量的数据,所以部署了一系列不同规模的Hadoop集群。淘宝生产所使用的Hadoop集群为目前国内规模最大的Hadoo集群之一。在会议前一天,这个集群的规模是
1.总容量为9.3PB,利用率77.09%。
2.共有1100台机器。
3.每天处理约18000道hadoop作业
4. 用户数474人,用户组38个
5.约18000道作业/天,扫描数据:约500TB/天用户数474人,用户组38个
然而就在这数天内,淘宝由于数据的快速增长,已经扩容至1300机器的规模,总容量达到14.1PB.
请点击此处下载演讲稿