最近trunk.ly的工程師通過mongostat發(fā)現(xiàn)了大量的page fault,然后通過檢查發(fā)現(xiàn),他們的索引已經(jīng)超出內(nèi)存限制了(沒有keep all index in RAM)。于是他們決定開始減小索引大小,通過測(cè)試得出了如下的數(shù)據(jù),不同的數(shù)據(jù)類型的索引大小有2到3掊的差距。 雖然能夠想像得到,但是直觀的數(shù)據(jù)圖可能讓我們更深刻的認(rèn)識(shí)到。他們的測(cè)試再一次告訴我們:給索引定一個(gè)好的數(shù)據(jù)結(jié)構(gòu)是多么重要。 這是測(cè)試結(jié)果圖,分別是用int、MongoDB的ObjectID、base64和md5的字符串做索引產(chǎn)生的索引大?。?/p> 測(cè)試過程也非常簡(jiǎn)單,首先用下面腳本將各種不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)寫入到不同的collection里: #!/usr/bin/env python import pymongo import bson from pymongo import Connection db = connection.test_database print('ObjectID') for i in range(1, 1000000): db.objectids.insert({'i': i}) print('int') for i in range(1, 1000000): db.ints.insert({'_id': i, 'i': i}) print('Base64 BSON') for i in range(1, 1000000): db.base64s.insert({'_id': bson.Binary(hashlib.md5(str(i)).digest(), bson.binary.MD5_SUBTYPE), 'i': i}) print('string') for i in range(1, 1000000): db.strings.insert({'_id': hashlib.md5(str(i)).digest(), 'i': i}) 然后獲取每個(gè)collection的index大小,得到如下的結(jié)果,畫成上面的圖: > db.base64s.stats() { "totalIndexSize" : 67076096, } > db.objectids.stats() { "totalIndexSize" : 41598976, } > db.ints.stats() { "totalIndexSize" : 32522240, } > db.strings.stats() { "totalIndexSize" : 90914816, } 原文鏈接:How to save 200% RAM by selecting the right key data type for #MongoDB |
|