mongodb 分組 topN

raqsoft 2019-07-19

展開全文

來源：https://groups.google.com/forum/#!topic/mongodb-user/Rjv6lyUCe1s

在統(tǒng)計(jì)應(yīng)用項(xiàng)目中，我們經(jīng)常會(huì)遇到這樣的需求：將大量的對(duì)象進(jìn)行排序，然后只需要取出前 N 名作為排行榜的數(shù)據(jù)，這就是 TopN 算法。mongodb作為nosql數(shù)據(jù)庫的典型代表，能夠存儲(chǔ)海量數(shù)據(jù)，在使用過程中也經(jīng)常會(huì)遇到TopN的需求，例如將需要字段的最新數(shù)據(jù)從mongodb中獲取出來。下面就使用集算器 SPL 語言操作，通過案例分析如何實(shí)現(xiàn)上述功能。

Collection last3有兩個(gè)字段：variable和timestamp，這里首先按variable分組，然后在每組文檔中選出timestamp最晚的3個(gè)，最后再從這些文檔中找到timestamp最早的1個(gè)。

last3的部分?jǐn)?shù)據(jù)如下：

{"_id" : ObjectId("54f69645e4b077ed8d997857"),"variable" : "A", "timestamp" : ISODate("1995-01-01T00:00:00Z")}

{"_id" : ObjectId("54f69645e4b077ed8d997856"),"variable" : "A", "timestamp" : ISODate("1995-01-02T00:00:00Z")}

{"_id" : ObjectId("54f69645e4b077ed8d997855"),"variable" : "A", "timestamp" : ISODate("1995-01-03T00:00:00Z")}

{"_id" : ObjectId("54f69645e4b077ed8d997854"),"variable" : "B", "timestamp" : ISODate("1995-01-02T00:00:00Z")}

{"_id" : ObjectId("54f69645e4b077ed8d997853"),"variable" : "B", "timestamp" : ISODate("1995-01-01T00:00:00Z")}

{"_id" : ObjectId("54f69645e4b077ed8d997852"),"variable" : "B", "timestamp" : ISODate("1994-01-03T00:00:00Z")}

{"_id" : ObjectId("54f69645e4b077ed8d997851"),"variable" : "C", "timestamp" : ISODate("1994-01-03T00:00:00Z")}

{"_id" : ObjectId("54f69645e4b077ed8d997850"),"variable" : "C", "timestamp" : ISODate("1994-01-02T00:00:00Z")}

{"_id" : ObjectId("54f69645e4b077ed8d997858"),"variable" : "C", "timestamp" : ISODate("1994-01-01T00:00:00Z")}

{"_id" : ObjectId("54f69645e4b077ed8d997859"),"variable" : "C", "timestamp" : ISODate("1993-01-01T00:00:00Z")}

集算器代碼：

	A	B
1	=mongo_open("mongodb://localhost:27017/local?user=test&password=test")
2	=mongo_shell(A1,"last3.find(,{_id:0};{variable:1})")
3	for A2;variable	=A3.top(3;-timestamp)
4		=@\|B3
5	=B4.minp(~.timestamp)
6	=mongo_close(A1)

A1:連接MongoDB，連接字格式為mongo://ip:port/db?arg=value&…。

A2:使用find函數(shù)從MongoDB中取數(shù)并排序，形成游標(biāo)。collectoin是last3，過濾條件是空，取出_id之外的所有字段，并按variable排序。

A3:循環(huán)從游標(biāo)讀數(shù)，每次取variable字段相同的一組文檔。A3循環(huán)的的作用范圍是縮進(jìn)的B3到B4，在這個(gè)范圍中可以用A3來引用循環(huán)變量，這里A3是內(nèi)存數(shù)據(jù)，在調(diào)試方式下可以查看某次取數(shù)的結(jié)果如下：

variable	timestamp
C	1994-01-03 08:00:00
C	1994-01-02 08:00:00
C	1994-01-01 08:00:00
C	1993-01-01 08:00:00

B3:選出本組文檔中timestamp最晚（大）的3個(gè)。

B4:將B3不斷地追加到B4中。B4如下：

variable	timestamp
A	1995-01-03 08:00:00
A	1995-01-02 08:00:00
A	1995-01-01 08:00:00
B	1995-01-02 08:00:00
B	1995-01-01 08:00:00
B	1994-01-03 08:00:00
C	1994-01-03 08:00:00
C	1994-01-02 08:00:00
C	1994-01-01 08:00:00

A5：選出B4中timstamp最早（?。┑哪莻€(gè)文檔，即：

variable	timestamp
C	1994-01-01 08:00:00

A6：關(guān)閉mongodb連接。

實(shí)現(xiàn)類似Mongodb的topN的需求，使用SPL語言能簡化mongodb shell的實(shí)現(xiàn)，相對(duì)mongodb腳本容易多了。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： raqsoft > 《集算器&潤乾報(bào)表》

舉報(bào)/認(rèn)領(lǐng)