乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      IO系統(tǒng)性能之二:緩存和RAID如何提高磁盤(pán)IO性能 | 貝塔中的DBA

       浸心閣 2015-07-15


      上一篇文章的計(jì)算中我們可以看到一個(gè)15k轉(zhuǎn)速的磁盤(pán)在隨機(jī)讀寫(xiě)訪問(wèn)的情況下IOPS竟然只有140左右,但在實(shí)際應(yīng)用中我們卻能看到很多標(biāo)有5000IOPS甚至更高的存儲(chǔ)系統(tǒng),有這么大IOPS的存儲(chǔ)系統(tǒng)怎么來(lái)的呢?這就要?dú)w結(jié)于各種存儲(chǔ)技術(shù)的使用了,在這些存儲(chǔ)技術(shù)中使用最廣的就是高速緩存(Cache)和磁盤(pán)冗余陣列(RAID)了,本文就將探討緩存和磁盤(pán)陣列提高存儲(chǔ)IO性能的方法。


      高速緩存(Cache)

      在當(dāng)下的各種存儲(chǔ)產(chǎn)品中,按照速度從快到慢應(yīng)該就是內(nèi)存>閃存>磁盤(pán)>磁帶了,然而速度越快也就意味著價(jià)格越高,閃存雖然說(shuō)是發(fā)展勢(shì)頭很好,但目前來(lái)說(shuō)卻還是因?yàn)閮r(jià)格問(wèn)題無(wú)法普及,因此現(xiàn)在還是一個(gè)磁盤(pán)作霸王的時(shí)代。與CPU和內(nèi)存速度相比,磁盤(pán)的速度無(wú)疑是計(jì)算機(jī)系統(tǒng)中最大的瓶頸了,所以在必須使用磁盤(pán)而又想提高性能的情況下,人們想出了在磁盤(pán)中嵌入一塊高速的內(nèi)存用來(lái)保存經(jīng)常訪問(wèn)的數(shù)據(jù)從而提高讀寫(xiě)效率的方法來(lái)折中的解決,這塊嵌入的內(nèi)存就被稱(chēng)為高速緩存。

      說(shuō)到緩存,這東西應(yīng)用現(xiàn)在已經(jīng)是無(wú)處不在,從處于上層的應(yīng)用,到操作系統(tǒng)層,再到磁盤(pán)控制器,還有CPU內(nèi)部,單個(gè)磁盤(pán)的內(nèi)部也都存在緩存,所有這些緩存存在的目的都是相同的,就是提高系統(tǒng)執(zhí)行的效率。當(dāng)然在這里我們只關(guān)心跟IO性能相關(guān)的緩存,與IO性能直接相關(guān)的幾個(gè)緩存分別是文件系統(tǒng)緩存(File System Cache)、磁盤(pán)控制器緩存(Disk Controller Cache)和磁盤(pán)緩存(Disk Cache,也稱(chēng)為Disk Buffer),不過(guò)當(dāng)在計(jì)算一個(gè)磁盤(pán)系統(tǒng)性能的時(shí)候文件系統(tǒng)緩存也是不會(huì)考慮在內(nèi)的,因此我們重點(diǎn)考察的就是磁盤(pán)控制器緩存和磁盤(pán)緩存。

      不管是控制器緩存還是磁盤(pán)緩存,他們所起的作用主要是分為三部分:緩存數(shù)據(jù)、預(yù)讀(Read-ahead)和回寫(xiě)(Write-back)。

      緩存數(shù)據(jù)
      首先是系統(tǒng)讀取過(guò)的數(shù)據(jù)會(huì)被緩存在高速緩存中,這樣下次再次需要讀取相同的數(shù)據(jù)的時(shí)候就不用在訪問(wèn)磁盤(pán),直接從緩存中取數(shù)據(jù)就可以了。當(dāng)然使用過(guò)的數(shù)據(jù)也不可能在緩存中永久保留的,緩存的數(shù)據(jù)一般那是采取LRU算法來(lái)進(jìn)行管理,目的是將長(zhǎng)時(shí)間不用的數(shù)據(jù)清除出緩存,那些經(jīng)常被訪問(wèn)的卻能一直保留在緩存中,直到緩存被清空。
      預(yù)讀
      預(yù)讀是指采用預(yù)讀算法在沒(méi)有系統(tǒng)的IO請(qǐng)求的時(shí)候事先將數(shù)據(jù)從磁盤(pán)中讀入到緩存中,然后在系統(tǒng)發(fā)出讀IO請(qǐng)求的時(shí)候,就會(huì)實(shí)現(xiàn)去檢查看看緩存里面是否存在要讀取的數(shù)據(jù),如果存在(即命中)的話就直接將結(jié)果返回,這時(shí)候的磁盤(pán)不再需要尋址、旋轉(zhuǎn)等待、讀取數(shù)據(jù)這一序列的操作了,這樣是能節(jié)省很多時(shí)間的;如果沒(méi)有命中則再發(fā)出真正的讀取磁盤(pán)的命令去取所需要的數(shù)據(jù)。

      緩存的命中率跟緩存的大小有很大的關(guān)系,理論上是緩存越大的話,所能緩存的數(shù)據(jù)也就越多,這樣命中率也自然越高,當(dāng)然緩存不可能太大,畢竟成本在那兒呢。如果一個(gè)容量很大的存儲(chǔ)系統(tǒng)配備了一個(gè)很小的讀緩存的話,這時(shí)候問(wèn)題會(huì)比較大的,因?yàn)樾【彺婢彺娴臄?shù)據(jù)量非常小,相比整個(gè)存儲(chǔ)系統(tǒng)來(lái)說(shuō)比例非常低,這樣隨機(jī)讀?。〝?shù)據(jù)庫(kù)系統(tǒng)的大多數(shù)情況)的時(shí)候命中率也自然就很低,這樣的緩存不但不能提高效率(因?yàn)榻^大部分讀IO都還要讀取磁盤(pán)),反而會(huì)因?yàn)槊看稳テヅ渚彺娑速M(fèi)時(shí)間。

      執(zhí)行讀IO操作是讀取數(shù)據(jù)存在于緩存中的數(shù)量與全部要讀取數(shù)據(jù)的比值稱(chēng)為緩存命中率(Read Cache Hit Radio),假設(shè)一個(gè)存儲(chǔ)系統(tǒng)在不使用緩存的情況下隨機(jī)小IO讀取能達(dá)到150IOPS,而它的緩存能提供10%的緩存命中率的話,那么實(shí)際上它的IOPS可以達(dá)到150/(1-10%)=166。

      回寫(xiě)
      首先說(shuō)一下,用于回寫(xiě)功能的那部分緩存被稱(chēng)為寫(xiě)緩存(Write Cache)。在一套寫(xiě)緩存打開(kāi)的存儲(chǔ)中,操作系統(tǒng)所發(fā)出的一系列寫(xiě)IO命令并不會(huì)被挨個(gè)的執(zhí)行,這些寫(xiě)IO的命令會(huì)先寫(xiě)入緩存中,然后再一次性的將緩存中的修改推到磁盤(pán)中,這就相當(dāng)于將那些相同的多個(gè)IO合并成一個(gè),多個(gè)連續(xù)操作的小IO合并成一個(gè)大的IO,還有就是將多個(gè)隨機(jī)的寫(xiě)IO變成一組連續(xù)的寫(xiě)IO,這樣就能減少磁盤(pán)尋址等操作所消耗的時(shí)間,大大的提高磁盤(pán)寫(xiě)入的效率。

      讀緩存雖然對(duì)效率提高是很明顯的,但是它所帶來(lái)的問(wèn)題也比較嚴(yán)重,因?yàn)榫彺婧推胀▋?nèi)存一樣,掉點(diǎn)以后數(shù)據(jù)會(huì)全部丟失,當(dāng)操作系統(tǒng)發(fā)出的寫(xiě)IO命令寫(xiě)入到緩存中后即被認(rèn)為是寫(xiě)入成功,而實(shí)際上數(shù)據(jù)是沒(méi)有被真正寫(xiě)入磁盤(pán)的,此時(shí)如果掉電,緩存中的數(shù)據(jù)就會(huì)永遠(yuǎn)的丟失了,這個(gè)對(duì)應(yīng)用來(lái)說(shuō)是災(zāi)難性的,目前解決這個(gè)問(wèn)題最好的方法就是給緩存配備電池了,保證存儲(chǔ)掉電之后緩存數(shù)據(jù)能如數(shù)保存下來(lái)。

      和讀一樣,寫(xiě)緩存也存在一個(gè)寫(xiě)緩存命中率(Write Cache Hit Radio),不過(guò)和讀緩存命中情況不一樣的是,盡管緩存命中,也不能將實(shí)際的IO操作免掉,只是被合并了而已。

      控制器緩存和磁盤(pán)緩存除了上面的作用之外還承當(dāng)著其他的作用,比如磁盤(pán)緩存有保存IO命令隊(duì)列的功能,單個(gè)的磁盤(pán)一次只能處理一個(gè)IO命令,但卻能接收多個(gè)IO命令,這些進(jìn)入到磁盤(pán)而未被處理的命令就保存在緩存中的IO隊(duì)列中。


      RAID(Redundant Array Of Inexpensive Disks)

      如果你是一位數(shù)據(jù)庫(kù)管理員或者經(jīng)常接觸服務(wù)器,那對(duì)RAID應(yīng)該很熟悉了,作為最廉價(jià)的存儲(chǔ)解決方案,RAID早已在服務(wù)器存儲(chǔ)中得到了普及。在RAID的各個(gè)級(jí)別中,應(yīng)當(dāng)以RAID10和RAID5(不過(guò)RAID5已經(jīng)基本走到頭了,RAID6正在崛起中,看看這里了解下原因)應(yīng)用最廣了。下面將就RAID0,RAID1,RAID5,RAID6,RAID10這幾種級(jí)別的RAID展開(kāi)說(shuō)一下磁盤(pán)陣列對(duì)于磁盤(pán)性能的影響,當(dāng)然在閱讀下面的內(nèi)容之前你必須對(duì)各個(gè)級(jí)別的RAID的結(jié)構(gòu)和工作原理要熟悉才行,這樣才不至于滿頭霧水,推薦查看wikipedia上面的如下條目:RAID,Standard RAID levelsNested RAID levels。

      RAID0
      RAID0將數(shù)據(jù)條帶化(striping)將連續(xù)的數(shù)據(jù)分散在多個(gè)磁盤(pán)上進(jìn)行存取,系統(tǒng)發(fā)出的IO命令(不管讀IO和寫(xiě)IO都一樣)就可以在磁盤(pán)上被并行的執(zhí)行,每個(gè)磁盤(pán)單獨(dú)執(zhí)行自己的那一部分請(qǐng)求,這樣的并行的IO操作能大大的增強(qiáng)整個(gè)存儲(chǔ)系統(tǒng)的性能。假設(shè)一個(gè)RAID0陣列有n(n>=2)個(gè)磁盤(pán)組成,每個(gè)磁盤(pán)的隨機(jī)讀寫(xiě)的IO能力都達(dá)到140的話,那么整個(gè)磁盤(pán)陣列的IO能力將是140*n。同時(shí)如果在陣列總線的傳輸能力允許的話RAID0的吞吐率也將是單個(gè)磁盤(pán)的n倍。
      RAID1
      RAID1在容量上相當(dāng)于是將兩個(gè)磁盤(pán)合并成一個(gè)磁盤(pán)來(lái)使用了,互為鏡像的兩個(gè)磁盤(pán)里面保存的數(shù)據(jù)是完全一樣的,因此在并行讀取的時(shí)候速度將是n個(gè)磁盤(pán)速度的總和,但是寫(xiě)入就不一樣了,每次寫(xiě)入都必須同時(shí)寫(xiě)入到兩個(gè)磁盤(pán)中,因此寫(xiě)入速度只有n/2。
      RAID5
      我們那一個(gè)有n(n>=3)個(gè)磁盤(pán)的RAID5陣列來(lái)看,首先看看RAID5陣列的讀IO,RAID5是支持并行IO的,而磁盤(pán)上的數(shù)據(jù)呈條帶狀的分布在所有的磁盤(pán)上,因此讀IO的速度相當(dāng)于所有磁盤(pán)速度的總和。不過(guò)這是在沒(méi)有磁盤(pán)損壞的情況下,當(dāng)有一個(gè)磁盤(pán)故障的時(shí)候讀取速度也是會(huì)下降的,因?yàn)橹虚g需要花時(shí)間來(lái)計(jì)算丟失磁盤(pán)上面的數(shù)據(jù)。

      讀取數(shù)據(jù)的情況相對(duì)就要復(fù)雜的多了,先來(lái)看下RAID5奇偶校驗(yàn)數(shù)據(jù)寫(xiě)入的過(guò)程,我們把寫(xiě)入的數(shù)據(jù)稱(chēng)為D1,當(dāng)磁盤(pán)拿到一個(gè)寫(xiě)IO的命令的時(shí)候,它首先會(huì)讀取一次要入的地址的數(shù)據(jù)塊中修改之前的數(shù)據(jù)D0,然后再讀取到當(dāng)前條帶中的校驗(yàn)信息P0,接下來(lái)就根據(jù)D0,P0,D1這三組數(shù)據(jù)計(jì)算出數(shù)據(jù)寫(xiě)入之后的條帶的奇偶校驗(yàn)信息P1,最后發(fā)出兩個(gè)寫(xiě)IO的命令,一個(gè)寫(xiě)入D1,另一個(gè)寫(xiě)入奇偶校驗(yàn)信息P1??梢钥闯鲫嚵性趯?shí)際操作的時(shí)候需要讀、讀、寫(xiě)、寫(xiě)一共4個(gè)IO才能完成一次寫(xiě)IO操作,也就是實(shí)際上的寫(xiě)入速度只有所有磁盤(pán)速度總和的1/4。從這點(diǎn)可以看出RAID5是非常不適合用在要大批量寫(xiě)入數(shù)據(jù)的系統(tǒng)上的。

      RAID6
      RAID6和RAID5很類(lèi)似,差別就在于RAID6多了一個(gè)用于校驗(yàn)的磁盤(pán)。就寫(xiě)IO速度上來(lái)說(shuō)這兩個(gè)是完全一樣的,都是所有磁盤(pán)IO速度的總和。

      在寫(xiě)IO上也很是類(lèi)似,不同的是RAID將一個(gè)命令分成了三次讀、三次寫(xiě)一共6次IO命令才能完成,也就是RAID6實(shí)際寫(xiě)入磁盤(pán)的速度是全部磁盤(pán)速度之和的1/6??梢钥闯鰪膶?xiě)IO看RAID6比RAID5差別是很大的。

      RAID10
      RAID0讀寫(xiě)速度都很好,卻沒(méi)有冗余保護(hù);RAID5和RAID6都有同樣的毛病就是寫(xiě)入的時(shí)候慢,讀取的時(shí)候快。那么RAID1呢?嗯,這里要說(shuō)的就是RAID1,其實(shí)不管是RAID10還是RAID01,其實(shí)都是組合大于2塊磁盤(pán)時(shí)候的RAID1,當(dāng)先鏡像后條帶時(shí)候就稱(chēng)為RAID10,先條帶后鏡像的時(shí)候稱(chēng)為RAID01。從性能上看RAID01和RAID10都是一樣的,都是RAID1嘛,但是RAID10在重建故障磁盤(pán)的時(shí)候性能比RAID01要快。

      因?yàn)镽AID10其實(shí)就是RAID1,所以它的性能與RAID1也就是一樣的了,這里不需要再做過(guò)多的討論。


      四個(gè)性能指標(biāo)的變化


      IO響應(yīng)時(shí)間(IO Response Time)

      在任何時(shí)候IO響應(yīng)時(shí)間值得都是單個(gè)IO的響應(yīng)時(shí)間,因此,不管磁盤(pán)是否組成了磁盤(pán)陣列,它的IO響應(yīng)時(shí)間應(yīng)該都是一樣的。從前面的計(jì)算中我們可以看到,如果IO響應(yīng)時(shí)間在10ms左右的話是很正常的,但是當(dāng)IO響應(yīng)時(shí)間比這個(gè)值超出太多的時(shí)候,你就要開(kāi)始注意了,很可能就意味著此時(shí)你的磁盤(pán)系統(tǒng)已經(jīng)成為了一個(gè)瓶頸。


      IOPS

      綜合上面兩個(gè)部分的討論我們來(lái)估算一下陣列下的磁盤(pán)總體IOPS,在這里我們先假設(shè)組成陣列的單個(gè)磁盤(pán)的隨機(jī)讀寫(xiě)的IOPS為140,讀寫(xiě)緩存命中率都為10%,組成陣列的磁盤(pán)個(gè)數(shù)為4。

      因?yàn)椴还苁悄欠N陣列,磁盤(pán)的讀取性能都是所有磁盤(pán)之和,所以可以得出下面的讀取IOPS:

      read IOPS = disk_IOPS/(1-read_cache_hit_ratio)*disk_num = 140/(1-10%)*4 = 622

      而寫(xiě)入性能就完全不一樣了,根據(jù)上面的討論我們可以得出下面結(jié)論:

      RAID0: 1 IO request => need 1 actual IO on disk
      RAID1: 1 IO request => need 2 actual IO on disk
      RAID5: 1 IO request => need 4 actual IO on disk
      RAID6: 1 IO request => need 6 actual IO on disk

      由此我們也可以計(jì)算出寫(xiě)入IOPS估算公式:

      RAID0 write IOPS = disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num = 140/(1-10%)*4/1 = 622
      RAID1 write IOPS = disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num = 140/(1-10%)*4/2 = 311
      RAID5 write IOPS = disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num = 140/(1-10%)*4/4 = 155
      RAID6 write IOPS = disk_IOPS/(1-write_cache_hit_ratio)*disk_num/acture_IO_num = 140/(1-10%)*4/6 = 103

      實(shí)際上從通過(guò)上面的計(jì)算方法我們還可以估算當(dāng)給定一個(gè)要求的IOPS的情況下,估計(jì)下使用各個(gè)陣列級(jí)別所需要的磁盤(pán)的數(shù)量。當(dāng)然我們上面的計(jì)算方法只是一個(gè)估算,我們忽略很多其他的因素,得出的只是一個(gè)大概的數(shù)值,不過(guò)在實(shí)際的應(yīng)用還是有一定的參考作用的。

      本篇最后附送一個(gè)計(jì)算磁盤(pán)系統(tǒng)IOPS的網(wǎng)站――wmarow’s disk & disk array calculator,這個(gè)網(wǎng)站提供的計(jì)算公式還考慮了諸如陣列條帶大小以及主機(jī)方面的因素,很有參考價(jià)值,至于怎么選擇合適的條帶大小,請(qǐng)參考【延伸閱讀】部分。


      傳輸速度(Transfer Rate)/吞吐率(Throughput)

      實(shí)際上估算除了隨機(jī)讀寫(xiě)的IOPS也就知道了隨機(jī)讀寫(xiě)的吞吐率。對(duì)于順序讀寫(xiě)的呢,還是跟前一篇所講的一樣,主要受限于磁盤(pán)的限制,不能再拿IOPS來(lái)衡量了。

      random_throughtput = random_IOPS * IO_chunk_size


      延伸閱讀

      本文采用知識(shí)共享署名-非商業(yè)性使用-相同方式共享 3.0 Unported許可協(xié)議發(fā)布,轉(zhuǎn)載請(qǐng)保留此信息
      作者:馬齒莧 | 鏈接:http://www./2009/io-performence-02_cache-and-raid.html

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類(lèi)似文章 更多