MongoDB 索引數(shù)據(jù)類型優(yōu)化，節(jié)省60％內(nèi)存

CevenCheng 2011-07-11

展開全文

最近trunk.ly的工程師通過mongostat發(fā)現(xiàn)了大量的page fault，然后通過檢查發(fā)現(xiàn)，他們的索引已經(jīng)超出內(nèi)存限制了（沒有keep all index in RAM）。于是他們決定開始減小索引大小，通過測(cè)試得出了如下的數(shù)據(jù)，不同的數(shù)據(jù)類型的索引大小有2到3掊的差距。

雖然能夠想像得到，但是直觀的數(shù)據(jù)圖可能讓我們更深刻的認(rèn)識(shí)到。他們的測(cè)試再一次告訴我們：給索引定一個(gè)好的數(shù)據(jù)結(jié)構(gòu)是多么重要。

這是測(cè)試結(jié)果圖，分別是用int、MongoDB的ObjectID、base64和md5的字符串做索引產(chǎn)生的索引大?。?/p>

測(cè)試過程也非常簡(jiǎn)單，首先用下面腳本將各種不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)寫入到不同的collection里：

#!/usr/bin/env python

import pymongo
import bson
from pymongo import Connection

db = connection.test_database

print('ObjectID')
for i in range(1, 1000000):
    db.objectids.insert({'i': i})

print('int')
for i in range(1, 1000000):
    db.ints.insert({'_id': i, 'i': i})

print('Base64 BSON')
for i in range(1, 1000000):
    db.base64s.insert({'_id':         bson.Binary(hashlib.md5(str(i)).digest(),
        bson.binary.MD5_SUBTYPE), 'i': i})

print('string')
for i in range(1, 1000000):
    db.strings.insert({'_id': hashlib.md5(str(i)).digest(), 'i': i})

然后獲取每個(gè)collection的index大小，得到如下的結(jié)果，畫成上面的圖：

> db.base64s.stats()
{
        "totalIndexSize" : 67076096,
}
> db.objectids.stats()
{
        "totalIndexSize" : 41598976,
}
> db.ints.stats()
{
        "totalIndexSize" : 32522240,
}
> db.strings.stats()
{
        "totalIndexSize" : 90914816,

}

原文鏈接：How to save 200% RAM by selecting the right key data type for #MongoDB

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： CevenCheng > 《索引》

舉報(bào)/認(rèn)領(lǐng)