國(guó)內(nèi)外著名的互聯(lián)網(wǎng)公司使用hadoop都做了什么？談HADOOP在大規(guī)模數(shù)據(jù)處理領(lǐng)域的具體應(yīng)用。

今天在csdn看到篇文章，是關(guān)于hadoop的。

一直以來(lái)，我知道hadoop在淘寶應(yīng)用很多，淘寶網(wǎng)是國(guó)內(nèi)最大的Hadoop應(yīng)用商之一。

2010年九月三號(hào)的數(shù)據(jù)顯示：

淘寶集群的規(guī)模是
1.總?cè)萘繛?.3PB，利用率77.09%。
2.共有1100臺(tái)機(jī)器。
3.每天處理約18000道hadoop作業(yè)
4. 用戶數(shù)474人，用戶組38個(gè)
5.約18000道作業(yè)/天，掃描數(shù)據(jù)：約500TB/天用戶數(shù)474人，用戶組38個(gè)

其他：

HADOOP在阿里巴巴：

用于處理商業(yè)數(shù)據(jù)的排序，并將其應(yīng)用于阿里巴巴的ISEARCH搜索引擎，垂直商業(yè)搜索引擎。

節(jié)點(diǎn)數(shù)： 15臺(tái)機(jī)器的構(gòu)成的服務(wù)器集群

服務(wù)器配置： 8核CPU，16G內(nèi)存，1.4T硬盤(pán)容量。

HADOOP在百度：

HADOOP主要應(yīng)用日志分析，同時(shí)使用它做一些網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘工作。

節(jié)點(diǎn)數(shù)：10 - 500個(gè)節(jié)點(diǎn)。

周數(shù)據(jù)量： 3000TB

HADOOP在Facebook：

主要用于存儲(chǔ)內(nèi)部日志的拷貝，作為一個(gè)源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計(jì)。

主要使用了2個(gè)集群：

一個(gè)由1100臺(tái)節(jié)點(diǎn)組成的集群，包括8800核CPU（即每臺(tái)機(jī)器8核）,和12000TB的原始存儲(chǔ)(即每臺(tái)機(jī)器12T硬盤(pán))

一個(gè)有300臺(tái)節(jié)點(diǎn)組成的集群，包括2400核CPU（即每臺(tái)機(jī)器8核），和3000TB的原始存儲(chǔ)(即每臺(tái)機(jī)器12T硬盤(pán))

由此基礎(chǔ)上開(kāi)發(fā)了基于SQL語(yǔ)法的項(xiàng)目：HIVE

HADOOP在HULU

主要用于日志存儲(chǔ)和分析

13臺(tái)機(jī)器構(gòu)成的集群（8核PUC，單臺(tái)機(jī)器：4TB硬盤(pán)）

基于HBASE數(shù)據(jù)庫(kù)

HADOOP在TWITTER

使用HADOOP用于存儲(chǔ)微博數(shù)據(jù)，日志文件和許多中間數(shù)據(jù)

使用基于HADOOP構(gòu)件的Cloudera's CDH2系統(tǒng)，存儲(chǔ)壓縮后的數(shù)據(jù)文件（LZO格式）

HADOOP在雅虎：

主要用于支持廣告系統(tǒng)及網(wǎng)頁(yè)搜索

機(jī)器數(shù)：25000，CPU：8核

集群機(jī)器數(shù)： 4000 個(gè)節(jié)點(diǎn) (2*4cpu boxes w 4*1TB disk & 16GB RAM)

乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

國(guó)內(nèi)外著名的互聯(lián)網(wǎng)公司使用hadoop都做了什么？談HADOOP在大規(guī)模數(shù)據(jù)處理領(lǐng)域的具體應(yīng)用。

http://www./?p=16001