1. MySql+Memcached架構(gòu)的問題
實(shí)際MySQL是適合進(jìn)行海量數(shù)據(jù)存儲的,通過Memcached將熱點(diǎn)數(shù)據(jù)加載到cache,加速訪問,很多公司都曾經(jīng)使用過這樣的架構(gòu),但隨著業(yè)務(wù)數(shù)據(jù)量的不斷增加,和訪問量的持續(xù)增長,我們遇到了很多問題: 1.MySQL需要不斷進(jìn)行拆庫拆表,Memcached也需不斷跟著擴(kuò)容,擴(kuò)容和維護(hù)工作占據(jù)大量開發(fā)時(shí)間。 2.Memcached與MySQL數(shù)據(jù)庫數(shù)據(jù)一致性問題。 3.Memcached數(shù)據(jù)命中率低或down機(jī),大量訪問直接穿透到DB,MySQL無法支撐。 4.跨機(jī)房cache同步問題。 眾多NoSQL百花齊放,如何選擇 最近幾年,業(yè)界不斷涌現(xiàn)出很多各種各樣的NoSQL產(chǎn)品,那么如何才能正確地使用好這些產(chǎn)品,最大化地發(fā)揮其長處,是我們需要深入研究和思考的問題,實(shí)際歸根結(jié)底最重要的是了解這些產(chǎn)品的定位,并且了解到每款產(chǎn)品的tradeoffs,在實(shí)際應(yīng)用中做到揚(yáng)長避短,總體上這些NoSQL主要用于解決以下幾種問題 1.少量數(shù)據(jù)存儲,高速讀寫訪問。此類產(chǎn)品通過數(shù)據(jù)全部in-momery 的方式來保證高速訪問,同時(shí)提供數(shù)據(jù)落地的功能,實(shí)際這正是Redis最主要的適用場景。 2.海量數(shù)據(jù)存儲,分布式系統(tǒng)支持,數(shù)據(jù)一致性保證,方便的集群節(jié)點(diǎn)添加/刪除。 3.這方面最具代表性的是dynamo和bigtable 2篇論文所闡述的思路。前者是一個(gè)完全無中心的設(shè)計(jì),節(jié)點(diǎn)之間通過gossip方式傳遞集群信息,數(shù)據(jù)保證最終一致性,后者是一個(gè)中心化的方案設(shè)計(jì),通過類似一個(gè)分布式鎖服務(wù)來保證強(qiáng)一致性,數(shù)據(jù)寫入先寫內(nèi)存和redo log,然后定期compat歸并到磁盤上,將隨機(jī)寫優(yōu)化為順序?qū)懀岣邔懭胄阅堋?/p> 4.Schema free,auto-sharding等。比如目前常見的一些文檔數(shù)據(jù)庫都是支持schema-free的,直接存儲json格式數(shù)據(jù),并且支持auto-sharding等功能,比如mongodb。 面對這些不同類型的NoSQL產(chǎn)品,我們需要根據(jù)我們的業(yè)務(wù)場景選擇最合適的產(chǎn)品。 Redis最適合所有數(shù)據(jù)in-momory的場景,雖然Redis也提供持久化功能,但實(shí)際更多的是一個(gè)disk-backed的功能,跟傳統(tǒng)意義上的持久化有比較大的差別,那么可能大家就會有疑問,似乎Redis更像一個(gè)加強(qiáng)版的Memcached,那么何時(shí)使用Memcached,何時(shí)使用Redis呢? 如果簡單地比較Redis與Memcached的區(qū)別,大多數(shù)都會得到以下觀點(diǎn):
1 、Redis不僅僅支持簡單的k/v類型的數(shù)據(jù),同時(shí)還提供list,set,zset,hash等數(shù)據(jù)結(jié)構(gòu)的存儲。
2. Redis常用數(shù)據(jù)類型 Redis最為常用的數(shù)據(jù)類型主要有以下:
在具體描述這幾種數(shù)據(jù)類型之前,我們先通過一張圖了解下Redis內(nèi)部內(nèi)存管理中是如何描述這些不同數(shù)據(jù)類型的: 首先Redis內(nèi)部使用一個(gè)redisObject對象來表示所有的key和value,redisObject最主要的信息如上圖所示: type代表一個(gè)value對象具體是何種數(shù)據(jù)類型, encoding是不同數(shù)據(jù)類型在redis內(nèi)部的存儲方式, 比如:type=string代表value存儲的是一個(gè)普通字符串,那么對應(yīng)的encoding可以是raw或者是int,如果是int則代表實(shí)際redis內(nèi)部是按數(shù)值型類存儲和表示這個(gè)字符串的,當(dāng)然前提是這個(gè)字符串本身可以用數(shù)值表示,比如:"123" "456"這樣的字符串。 這里需要特殊說明一下vm字段,只有打開了Redis的虛擬內(nèi)存功能,此字段才會真正的分配內(nèi)存,該功能默認(rèn)是關(guān)閉狀態(tài)的,該功能會在后面具體描述。通過上圖我們可以發(fā)現(xiàn)Redis使用redisObject來表示所有的key/value數(shù)據(jù)是比較浪費(fèi)內(nèi)存的,當(dāng)然這些內(nèi)存管理成本的付出主要也是為了給Redis不同數(shù)據(jù)類型提供一個(gè)統(tǒng)一的管理接口,實(shí)際作者也提供了多種方法幫助我們盡量節(jié)省內(nèi)存使用,我們隨后會具體討論。
3. 各種數(shù)據(jù)類型應(yīng)用和實(shí)現(xiàn)方式 下面我們先來逐一的分析下這7種數(shù)據(jù)類型的使用和內(nèi)部實(shí)現(xiàn)方式:
4. Redis實(shí)際應(yīng)用場景
Redis在很多方面與其他數(shù)據(jù)庫解決方案不同:它使用內(nèi)存提供主存儲支持,而僅使用硬盤做持久性的存儲;它的數(shù)據(jù)模型非常獨(dú)特,用的是單線程。另一個(gè)大區(qū)別在于,你可以在開發(fā)環(huán)境中使用Redis的功能,但卻不需要轉(zhuǎn)到Redis。 轉(zhuǎn)向Redis當(dāng)然也是可取的,許多開發(fā)者從一開始就把Redis作為首選數(shù)據(jù)庫;但設(shè)想如果你的開發(fā)環(huán)境已經(jīng)搭建好,應(yīng)用已經(jīng)在上面運(yùn)行了,那么更換數(shù)據(jù)庫框架顯然不那么容易。另外在一些需要大容量數(shù)據(jù)集的應(yīng)用,Redis也并不適合,因?yàn)樗臄?shù)據(jù)集不會超過系統(tǒng)可用的內(nèi)存。所以如果你有大數(shù)據(jù)應(yīng)用,而且主要是讀取訪問模式,那么Redis并不是正確的選擇。 然而我喜歡Redis的一點(diǎn)就是你可以把它融入到你的系統(tǒng)中來,這就能夠解決很多問題,比如那些你現(xiàn)有的數(shù)據(jù)庫處理起來感到緩慢的任務(wù)。這些你就可以通過Redis來進(jìn)行優(yōu)化,或者為應(yīng)用創(chuàng)建些新的功能。在本文中,我就想探討一些怎樣將Redis加入到現(xiàn)有的環(huán)境中,并利用它的原語命令等功能來解決 傳統(tǒng)環(huán)境中碰到的一些常見問題。在這些例子中,Redis都不是作為首選數(shù)據(jù)庫。 1、顯示最新的項(xiàng)目列表下面這個(gè)語句常用來顯示最新項(xiàng)目,隨著數(shù)據(jù)多了,查詢毫無疑問會越來越慢。
在Web應(yīng)用中,“列出最新的回復(fù)”之類的查詢非常普遍,這通常會帶來可擴(kuò)展性問題。這令人沮喪,因?yàn)轫?xiàng)目本來就是按這個(gè)順序被創(chuàng)建的,但要輸出這個(gè)順序卻不得不進(jìn)行排序操作。 類似的問題就可以用Redis來解決。比如說,我們的一個(gè)Web應(yīng)用想要列出用戶貼出的最新20條評論。在最新的評論邊上我們有一個(gè)“顯示全部”的鏈接,點(diǎn)擊后就可以獲得更多的評論。 我們假設(shè)數(shù)據(jù)庫中的每條評論都有一個(gè)唯一的遞增的ID字段。 我們可以使用分頁來制作主頁和評論頁,使用Redis的模板,每次新評論發(fā)表時(shí),我們會將它的ID添加到一個(gè)Redis列表:
我們將列表裁剪為指定長度,因此Redis只需要保存最新的5000條評論: LTRIM latest.comments 0 5000 每次我們需要獲取最新評論的項(xiàng)目范圍時(shí),我們調(diào)用一個(gè)函數(shù)來完成(使用偽代碼):
這里我們做的很簡單。在Redis中我們的最新ID使用了常駐緩存,這是一直更新的。但是我們做了限制不能超過5000個(gè)ID,因此我們的獲取ID函數(shù)會一直詢問Redis。只有在start/count參數(shù)超出了這個(gè)范圍的時(shí)候,才需要去訪問數(shù)據(jù)庫。 我們的系統(tǒng)不會像傳統(tǒng)方式那樣“刷新”緩存,Redis實(shí)例中的信息永遠(yuǎn)是一致的。SQL數(shù)據(jù)庫(或是硬盤上的其他類型數(shù)據(jù)庫)只是在用戶需要獲取“很遠(yuǎn)”的數(shù)據(jù)時(shí)才會被觸發(fā),而主頁或第一個(gè)評論頁是不會麻煩到硬盤上的數(shù)據(jù)庫了。 2、刪除與過濾我們可以使用LREM來刪除評論。如果刪除操作非常少,另一個(gè)選擇是直接跳過評論條目的入口,報(bào)告說該評論已經(jīng)不存在。 有些時(shí)候你想要給不同的列表附加上不同的過濾器。如果過濾器的數(shù)量受到限制,你可以簡單的為每個(gè)不同的過濾器使用不同的Redis列表。畢竟每個(gè)列表只有5000條項(xiàng)目,但Redis卻能夠使用非常少的內(nèi)存來處理幾百萬條項(xiàng)目。 3、排行榜相關(guān)另一個(gè)很普遍的需求是各種數(shù)據(jù)庫的數(shù)據(jù)并非存儲在內(nèi)存中,因此在按得分排序以及實(shí)時(shí)更新這些幾乎每秒鐘都需要更新的功能上數(shù)據(jù)庫的性能不夠理想。 典型的比如那些在線游戲的排行榜,比如一個(gè)Facebook的游戲,根據(jù)得分你通常想要: - 列出前100名高分選手 - 列出某用戶當(dāng)前的全球排名 這些操作對于Redis來說小菜一碟,即使你有幾百萬個(gè)用戶,每分鐘都會有幾百萬個(gè)新的得分。 模式是這樣的,每次獲得新得分時(shí),我們用這樣的代碼: ZADD leaderboard <score> <username> 你可能用userID來取代username,這取決于你是怎么設(shè)計(jì)的。 得到前100名高分用戶很簡單:ZREVRANGE leaderboard 0 99。 用戶的全球排名也相似,只需要:ZRANK leaderboard <username>。
4、按照用戶投票和時(shí)間排序排行榜的一種常見變體模式就像Reddit或Hacker News用的那樣,新聞按照類似下面的公式根據(jù)得分來排序: score = points / time^alpha 因此用戶的投票會相應(yīng)的把新聞挖出來,但時(shí)間會按照一定的指數(shù)將新聞埋下去。下面是我們的模式,當(dāng)然算法由你決定。 模式是這樣的,開始時(shí)先觀察那些可能是最新的項(xiàng)目,例如首頁上的1000條新聞都是候選者,因此我們先忽視掉其他的,這實(shí)現(xiàn)起來很簡單。 每次新的新聞貼上來后,我們將ID添加到列表中,使用LPUSH + LTRIM,確保只取出最新的1000條項(xiàng)目。 有一項(xiàng)后臺任務(wù)獲取這個(gè)列表,并且持續(xù)的計(jì)算這1000條新聞中每條新聞的最終得分。計(jì)算結(jié)果由ZADD命令按照新的順序填充生成列表,老新聞則被清除。這里的關(guān)鍵思路是排序工作是由后臺任務(wù)來完成的。
5、處理過期項(xiàng)目另一種常用的項(xiàng)目排序是按照時(shí)間排序。我們使用unix時(shí)間作為得分即可。 模式如下: - 每次有新項(xiàng)目添加到我們的非Redis數(shù)據(jù)庫時(shí),我們把它加入到排序集合中。這時(shí)我們用的是時(shí)間屬性,current_time和time_to_live。 - 另一項(xiàng)后臺任務(wù)使用ZRANGE…SCORES查詢排序集合,取出最新的10個(gè)項(xiàng)目。如果發(fā)現(xiàn)unix時(shí)間已經(jīng)過期,則在數(shù)據(jù)庫中刪除條目。
6、計(jì)數(shù)Redis是一個(gè)很好的計(jì)數(shù)器,這要感謝INCRBY和其他相似命令。 我相信你曾許多次想要給數(shù)據(jù)庫加上新的計(jì)數(shù)器,用來獲取統(tǒng)計(jì)或顯示新信息,但是最后卻由于寫入敏感而不得不放棄它們。 好了,現(xiàn)在使用Redis就不需要再擔(dān)心了。有了原子遞增(atomic increment),你可以放心的加上各種計(jì)數(shù),用GETSET重置,或者是讓它們過期。 例如這樣操作: INCR user:<id> EXPIRE user:<id> 60 你可以計(jì)算出最近用戶在頁面間停頓不超過60秒的頁面瀏覽量,當(dāng)計(jì)數(shù)達(dá)到比如20時(shí),就可以顯示出某些條幅提示,或是其它你想顯示的東西。 7、特定時(shí)間內(nèi)的特定項(xiàng)目另一項(xiàng)對于其他數(shù)據(jù)庫很難,但Redis做起來卻輕而易舉的事就是統(tǒng)計(jì)在某段特點(diǎn)時(shí)間里有多少特定用戶訪問了某個(gè)特定資源。比如我想要知道某些特定的注冊用戶或IP地址,他們到底有多少訪問了某篇文章。 每次我獲得一次新的頁面瀏覽時(shí)我只需要這樣做: SADD page:day1:<page_id> <user_id> 當(dāng)然你可能想用unix時(shí)間替換day1,比如time()-(time()%3600*24)等等。 想知道特定用戶的數(shù)量嗎?只需要使用SCARD page:day1:<page_id>。 需要測試某個(gè)特定用戶是否訪問了這個(gè)頁面?SISMEMBER page:day1:<page_id>。
8、實(shí)時(shí)分析正在發(fā)生的情況,用于數(shù)據(jù)統(tǒng)計(jì)與防止垃圾郵件等我們只做了幾個(gè)例子,但如果你研究Redis的命令集,并且組合一下,就能獲得大量的實(shí)時(shí)分析方法,有效而且非常省力。使用Redis原語命令,更容易實(shí)施垃圾郵件過濾系統(tǒng)或其他實(shí)時(shí)跟蹤系統(tǒng)。
9、Pub/SubRedis的Pub/Sub非常非常簡單,運(yùn)行穩(wěn)定并且快速。支持模式匹配,能夠?qū)崟r(shí)訂閱與取消頻道。 10、隊(duì)列你應(yīng)該已經(jīng)注意到像list push和list pop這樣的Redis命令能夠很方便的執(zhí)行隊(duì)列操作了,但能做的可不止這些:比如Redis還有l(wèi)ist pop的變體命令,能夠在列表為空時(shí)阻塞隊(duì)列。 現(xiàn)代的互聯(lián)網(wǎng)應(yīng)用大量地使用了消息隊(duì)列(Messaging)。消息隊(duì)列不僅被用于系統(tǒng)內(nèi)部組件之間的通信,同時(shí)也被用于系統(tǒng)跟其它服務(wù)之間的交互。消息隊(duì)列的使用可以增加系統(tǒng)的可擴(kuò)展性、靈活性和用戶體驗(yàn)。非基于消息隊(duì)列的系統(tǒng),其運(yùn)行速度取決于系統(tǒng)中最慢的組件的速度(注:短板效應(yīng))。而基于消息隊(duì)列可以將系統(tǒng)中各組件解除耦合,這樣系統(tǒng)就不再受最慢組件的束縛,各組件可以異步運(yùn)行從而得以更快的速度完成各自的工作。 此外,當(dāng)服務(wù)器處在高并發(fā)操作的時(shí)候,比如頻繁地寫入日志文件??梢岳孟㈥?duì)列實(shí)現(xiàn)異步處理。從而實(shí)現(xiàn)高性能的并發(fā)操作。
11、緩存Redis的緩存部分值得寫一篇新文章,我這里只是簡單的說一下。Redis能夠替代memcached,讓你的緩存從只能存儲數(shù)據(jù)變得能夠更新數(shù)據(jù),因此你不再需要每次都重新生成數(shù)據(jù)了。 |
|