乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      十萬(wàn)服務(wù)器秒級(jí)管控 騰訊云如何將AIOps用于日常管理?

       xujin3 2018-06-10

      接收程序員的 8 點(diǎn)技術(shù)早餐

      1 編者按

      AIOps,是指基于算法的 IT運(yùn)維(Algorithmic IT Operations),由 Gartner定義的新類(lèi)別,源自業(yè)界之前所說(shuō)的 ITOA(IT Operations and Analytics)。我們已經(jīng)到達(dá)了這樣的一個(gè)時(shí)代,數(shù)據(jù)科學(xué)和算法正在被用于自動(dòng)化傳統(tǒng)的 IT運(yùn)維任務(wù)和流程。算法被集成到工具里,幫助企業(yè)進(jìn)一步簡(jiǎn)化運(yùn)維工作,把人們從耗時(shí)又容易出錯(cuò)的流程中解放出來(lái)。

      在過(guò)去的幾年間,Docker、OpenStack、Puppet 等新技術(shù)不斷涌現(xiàn)和流行,以及 CI/CD、DevOps 等理念的落地生根,利用智能化運(yùn)維手段幫助提升了運(yùn)維的效率,減少因人工和流程操作而引起的運(yùn)維故障成為企業(yè)破局自動(dòng)化運(yùn)維束縛的最佳途徑,“AIOps”(Algorithmic IT Operations)由此應(yīng)運(yùn)而生。

      騰訊云基于海量的網(wǎng)絡(luò)業(yè)務(wù),在互聯(lián)網(wǎng)門(mén)戶時(shí)代、WEB2.0時(shí)代、移動(dòng)互聯(lián)網(wǎng)時(shí)代的歷史變遷當(dāng)中,歷經(jīng)不同形態(tài)產(chǎn)品的技術(shù)挑戰(zhàn),逐步積累沉淀了一套成熟的智能運(yùn)維體系和運(yùn)維策略,實(shí)現(xiàn)了超過(guò) 20萬(wàn)臺(tái)的設(shè)備規(guī)模的秒級(jí)管控。

      本文將結(jié)合騰訊云織云體系的構(gòu)建歷程,詳細(xì)講解騰訊云是如何通過(guò)整合數(shù)據(jù)的智能存儲(chǔ)和分析,對(duì) IT系統(tǒng)中各個(gè)環(huán)節(jié)的問(wèn)題進(jìn)行快速定位、故障排除和預(yù)測(cè),為其他企業(yè)的 AIOps落地實(shí)踐提供一些方法、思路和解決方案。

      2 騰訊云自動(dòng)化運(yùn)維體系及其構(gòu)建思路

      騰訊云的智能化運(yùn)維體系并非是一蹴而就,AIOps 涉及的技術(shù),從 AI 的角度,主要包括機(jī)器學(xué)習(xí)算法,以及大數(shù)據(jù)相關(guān)的技術(shù),從 Ops 的角度,主要是運(yùn)維自動(dòng)化與運(yùn)維監(jiān)控的相關(guān)技術(shù)。因此,AIOps 一定是建立在高度完善的運(yùn)維自動(dòng)化基礎(chǔ)之上的,只有 AI 沒(méi)有 Ops,談不上 AIOps。在談 AIOps之前,我們先來(lái)看看騰訊云自動(dòng)化運(yùn)維體系的整體運(yùn)維框架。

      運(yùn)維對(duì)象識(shí)別

      構(gòu)建面向業(yè)務(wù)價(jià)值的運(yùn)維體系,首先要做的一點(diǎn)便是識(shí)別運(yùn)維對(duì)象,為了更好的對(duì)運(yùn)維對(duì)象進(jìn)行分類(lèi)管理,騰訊云將運(yùn)維對(duì)象按架構(gòu)分層,劃分為網(wǎng)絡(luò)、設(shè)備、系統(tǒng)、組件、業(yè)務(wù)、用戶六大層。

      (圖 運(yùn)維對(duì)象的層次劃分)

      如圖為運(yùn)維對(duì)象的層次劃分結(jié)構(gòu),從下往上看,最底層為網(wǎng)絡(luò)資源層,這一層主要包括資源監(jiān)控、云端資源、交換機(jī)和負(fù)載均衡;其上是設(shè)備資源層,主要負(fù)責(zé)主機(jī)監(jiān)控、運(yùn)營(yíng)狀態(tài)監(jiān)控與資源池管理,再上層為系統(tǒng)資源層,這里面主要是用戶 /密碼管理、系統(tǒng)初始化、OS/內(nèi)核以及基礎(chǔ)的 agent;業(yè)務(wù)層和資源層之間劃分了 API接口層、邏輯層以及數(shù)據(jù)層,主要做組件的選型、監(jiān)控、包管理、配置管理;業(yè)務(wù)層包含業(yè)務(wù)架構(gòu)、分布、容災(zāi)和監(jiān)控;最上層是用戶端適配,包括手機(jī)型號(hào)、調(diào)度方法和監(jiān)控等模塊,層級(jí)化的抽象管理能夠讓硬件運(yùn)維對(duì)象和應(yīng)用運(yùn)維對(duì)象更清晰化。

      (圖 運(yùn)維對(duì)象模型)

      不同的運(yùn)維對(duì)象下均包含配置屬性、業(yè)務(wù)屬性、監(jiān)控屬性、工具關(guān)聯(lián)屬性,各屬性隨著運(yùn)維對(duì)象的生命周期各階段的變化而發(fā)生變化。

      CMDB配置管理

      通過(guò)對(duì)運(yùn)維對(duì)象的識(shí)別、抽象、標(biāo)準(zhǔn)化、配置化之后,CMDB能夠更便捷地將運(yùn)維對(duì)象的記錄、消費(fèi)、更新等動(dòng)作模型化,從而構(gòu)建起運(yùn)維的線上經(jīng)驗(yàn)庫(kù),讓運(yùn)維的操作模式統(tǒng)一。騰訊織云 CMDB將所有運(yùn)維對(duì)象與業(yè)務(wù)模型建立關(guān)聯(lián)關(guān)系,為運(yùn)維對(duì)象之間的關(guān)聯(lián)分析提供了數(shù)據(jù)支撐。

      (圖云 CMDB模型)

      圖上為騰訊織云 CMDB管理模型,分為標(biāo)準(zhǔn)模型和自定義邏輯 CI,標(biāo)準(zhǔn)模型里面包含業(yè)務(wù)樹(shù)、服務(wù)器、網(wǎng)絡(luò)設(shè)置、IDC、專(zhuān)線 /出口以及應(yīng)用程序等模塊,主要做基礎(chǔ)的數(shù)據(jù)庫(kù)配置管理;自義邏輯 CI提供標(biāo)準(zhǔn)組件 CI以及用戶自定義 CI,用戶可根據(jù)業(yè)務(wù)需求進(jìn)行自定義參數(shù)設(shè)置。

      運(yùn)維對(duì)象管理

      運(yùn)維對(duì)象抽象化、配置化、模型化后,在設(shè)計(jì) CMDB時(shí),還需要解決一個(gè)非常重要的場(chǎng)景:讓 CMDB的數(shù)據(jù)與運(yùn)維工具、監(jiān)控系統(tǒng)以及生產(chǎn)環(huán)境保持一致性,這一點(diǎn)決定了 CMDB應(yīng)用是否真正便捷。

      (圖 運(yùn)維對(duì)象生命周期管理)

      在一致性環(huán)境保障方面,織云給出的解決方案是,從運(yùn)維對(duì)象的全生命周期開(kāi)始納管,在入庫(kù)、初始化、變更、運(yùn)營(yíng)、下線等運(yùn)維生命周期的不同階段,提供標(biāo)準(zhǔn)的工具或流程來(lái)完成該階段需要的運(yùn)維操作。同時(shí),通過(guò)控制 CMDB數(shù)據(jù)的讀寫(xiě)場(chǎng)景,保證 CMDB與生產(chǎn)環(huán)境的數(shù)據(jù)一致性,讓運(yùn)維平臺(tái)的操作可追溯、可審計(jì),此時(shí),運(yùn)維變更操作與監(jiān)控告警之間的聯(lián)動(dòng)便有了數(shù)據(jù)基礎(chǔ)。

      (圖 運(yùn)維管控操作的抽象)

      有了強(qiáng)大的 CMDB配置數(shù)據(jù)的支撐,緊接著是運(yùn)維工具對(duì)運(yùn)維對(duì)象的管理操作,織云對(duì)所有的運(yùn)維管控操作都抽象為“資源 -傳輸 -執(zhí)行”的過(guò)程,并以此設(shè)計(jì)出織云工具平臺(tái)。

      織云工具平臺(tái)將運(yùn)維的原子操作工具化,并提供如版本化、權(quán)限化、定時(shí)任務(wù)、關(guān)聯(lián)運(yùn)維對(duì)象等不同管理緯度的支持。通過(guò)對(duì)原子工具的編排,實(shí)現(xiàn)工具與工具之間的串行調(diào)用,以支持復(fù)雜運(yùn)維場(chǎng)景下的多個(gè)工具執(zhí)行。

      (圖 場(chǎng)景化工具鏈與工具編排)

      運(yùn)維 PaaS的標(biāo)準(zhǔn)化與多樣化

      運(yùn)維自動(dòng)化在織云平臺(tái)的解決方案中,被抽象為以 CMDB為核心數(shù)據(jù)基礎(chǔ),以工具鏈為場(chǎng)景驅(qū)動(dòng)的解決方案。對(duì)于運(yùn)維過(guò)程中常見(jiàn)的發(fā)布、變更、批量操作的場(chǎng)景,通過(guò)對(duì)工具的編排,將頻繁的運(yùn)維操作轉(zhuǎn)換成場(chǎng)景化的工具鏈,從而實(shí)現(xiàn)運(yùn)維操作的統(tǒng)一化與標(biāo)準(zhǔn)化,以及基于規(guī)則的運(yùn)維自動(dòng)化。

      這樣不僅能降低運(yùn)維操作對(duì)運(yùn)維經(jīng)驗(yàn)的依賴(lài),通過(guò)工具鏈的規(guī)范化也能極大降低運(yùn)維操作風(fēng)險(xiǎn)。并且織云提供抽象的原子工具與腳手架,讓運(yùn)維可以靈活組裝出各自企業(yè)的標(biāo)準(zhǔn)化工具與流程,從千人一面的 PaaS能力,支撐千人千面的業(yè)務(wù)運(yùn)維場(chǎng)景。

      (圖 千人一面的運(yùn)維 PaaS方案)

      3 織云立體化監(jiān)控方案

      運(yùn)維在騰訊云被稱(chēng)為技術(shù)運(yùn)營(yíng),顧名思義除了維護(hù)的工作之外,運(yùn)維團(tuán)隊(duì)還承擔(dān)著技術(shù)數(shù)據(jù)的使用與挖掘的職責(zé)。而技術(shù)數(shù)據(jù)最直接的使用場(chǎng)景,便是對(duì)業(yè)務(wù)質(zhì)量的監(jiān)控和告警。騰訊云將運(yùn)維當(dāng)中業(yè)務(wù)質(zhì)量的保障定義分成三緯度:

      • 監(jiān)控——覆蓋率、狀態(tài)反饋、指標(biāo)度量。監(jiān)控要做到 360度無(wú)死角,業(yè)務(wù)出現(xiàn)了什么問(wèn)題都能發(fā)現(xiàn),有了監(jiān)控的反饋,可以看到實(shí)時(shí)監(jiān)控的狀態(tài),同時(shí),當(dāng)指標(biāo)發(fā)生變化的時(shí)候也需要看到一些反饋。

      • 告警——時(shí)效性、準(zhǔn)確性、觸及率。業(yè)務(wù)越來(lái)越復(fù)雜,層次越來(lái)越多,每一個(gè)監(jiān)控點(diǎn)都會(huì)產(chǎn)生數(shù)據(jù)指標(biāo)、狀態(tài)異常,會(huì)收到越來(lái)越多的告警。未看到或者看到未處理都需要承擔(dān)責(zé)任,因?yàn)槭盏降牟⒎嵌际钦`告警。最重要還要有觸及率,告警由誰(shuí)發(fā)布與處理?

      • 運(yùn)營(yíng)——RCA、事件管理、統(tǒng)計(jì)報(bào)表與考核。問(wèn)題再三出現(xiàn)、必須從根源優(yōu)化。通過(guò)事件管理機(jī)制保證 RCA可以落地,最后通過(guò)報(bào)表和考核去給運(yùn)維賦予權(quán)利推動(dòng)相關(guān)優(yōu)化活動(dòng)的開(kāi)展,包括架構(gòu)和代碼的優(yōu)化等等。


      (圖 質(zhì)量保障的三個(gè)緯度)

      按照 CMDB管理運(yùn)維對(duì)象的思路,在質(zhì)量保障場(chǎng)景,構(gòu)建立體化的監(jiān)控體系需要明確各個(gè)架構(gòu)層級(jí)中被監(jiān)控的運(yùn)維對(duì)象,以及該運(yùn)維對(duì)象產(chǎn)生的監(jiān)控?cái)?shù)據(jù)在運(yùn)維監(jiān)控體系的作用。在分布式服務(wù)、高可用架構(gòu)等技術(shù)作用下,業(yè)務(wù)架構(gòu)日益完善,對(duì)運(yùn)維監(jiān)控而言,要“全、準(zhǔn)、快”實(shí)現(xiàn)發(fā)現(xiàn)異常、分析異常、定位異常的能力,就必須有序的使用監(jiān)控?cái)?shù)據(jù)。

      在建設(shè)監(jiān)控能力時(shí),織云監(jiān)控系統(tǒng)將監(jiān)控指標(biāo)劃分成兩大類(lèi):

      • 低層次指標(biāo)。公共的、基礎(chǔ)設(shè)施等在業(yè)務(wù)邏輯之下的指標(biāo)稱(chēng)之為低層次的指標(biāo),網(wǎng)絡(luò)、硬件、虛擬化等。

      • 高層次指標(biāo)。高層次的指標(biāo)要能更直接的反饋業(yè)務(wù)可用性的情況,如成功率、延時(shí)、請(qǐng)求率等。

      如果一個(gè)公司用低層次指標(biāo)來(lái)代替高層次的指標(biāo)的作用,那么質(zhì)量管理容易變得復(fù)雜而混亂。因此,在規(guī)劃監(jiān)控處理或者優(yōu)化監(jiān)控策略時(shí),織云監(jiān)控體系盡量將低層次的指標(biāo)交給自動(dòng)化工具或用高層次指標(biāo)收斂掉。而在度量業(yè)務(wù)質(zhì)量時(shí),多以高層次的指標(biāo)來(lái)衡量,提升指標(biāo)告警與業(yè)務(wù)質(zhì)量的關(guān)聯(lián)性。因?yàn)楦邔哟沃笜?biāo)往往是最核心最需要被關(guān)注的,也最能反饋業(yè)務(wù)可用性。

      (圖 織云立體化監(jiān)控體系)

      高層次的指標(biāo),要能夠?qū)崟r(shí)反饋業(yè)務(wù)的真實(shí)狀況。在海量規(guī)模的業(yè)務(wù)運(yùn)維場(chǎng)景下,只需觀測(cè)到整個(gè)集群的運(yùn)維狀況而不必深入單機(jī)層面,這就是面向業(yè)務(wù)的運(yùn)維思路與傳統(tǒng)的運(yùn)維思路的最顯著差異。

      織云的立體化監(jiān)控體系,通過(guò)統(tǒng)一的監(jiān)控告警平臺(tái),提供各層級(jí)監(jiān)控能力,結(jié)合 CMDB中運(yùn)維對(duì)象的關(guān)聯(lián)關(guān)系,以面向業(yè)務(wù)的視角,將低層次的指標(biāo)收斂為高層次的指標(biāo),實(shí)現(xiàn)用技術(shù)運(yùn)營(yíng)數(shù)據(jù)的價(jià)值挖掘。

      4 騰訊云基于 AIOps的探索實(shí)踐

      在構(gòu)建了高效的自動(dòng)化運(yùn)維體系后,騰訊云開(kāi)始探索 AI技術(shù)在運(yùn)維領(lǐng)域的落地實(shí)踐。使用 AIOps的技術(shù)來(lái)解決具體的運(yùn)維難題,首先需要了解 AI的工作機(jī)制,AI最為人熟知的就是可以從大量的輸入中,總結(jié)出能準(zhǔn)確預(yù)測(cè)結(jié)果的規(guī)律或模型(算法)。通過(guò)這些規(guī)律或算法,可以利用 AI技術(shù)來(lái)預(yù)測(cè)一些運(yùn)維當(dāng)中的數(shù)值型模型、布爾型模型、概率型模型,從而精簡(jiǎn)運(yùn)維流程,提高運(yùn)維效率。

      顯而易見(jiàn),AI技術(shù)在運(yùn)維領(lǐng)域的應(yīng)用,首要的條件是海量的數(shù)據(jù)可供機(jī)器來(lái)學(xué)習(xí)(有監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)),以便于找到數(shù)據(jù)的規(guī)律或模型。

      構(gòu)建數(shù)據(jù)統(tǒng)一管理平臺(tái)

      騰訊云在實(shí)施 AIOps過(guò)程中,由于立體化監(jiān)控體系中各監(jiān)控系統(tǒng)的建設(shè)周期不同,各業(yè)務(wù)與監(jiān)控對(duì)象的數(shù)據(jù)格式不一,不同的運(yùn)維監(jiān)控?cái)?shù)據(jù)獨(dú)立存在于各個(gè)監(jiān)控系統(tǒng)中,造成嚴(yán)重的數(shù)據(jù)孤島。因此,在將機(jī)器學(xué)習(xí)和訓(xùn)練模型運(yùn)用到織云系統(tǒng)之前,騰訊云首先構(gòu)建了一套行之有效的運(yùn)維數(shù)據(jù)治理方案——織云運(yùn)維數(shù)據(jù)銀行。

      下圖為織云數(shù)據(jù)銀行架構(gòu)圖,異構(gòu)數(shù)據(jù)源通過(guò)數(shù)據(jù)銀行的接入服務(wù)進(jìn)入消息列隊(duì),在流處理平臺(tái)進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)、翻譯、計(jì)算等操作,在這個(gè)過(guò)程中如果發(fā)現(xiàn)異常則通過(guò)告警策略分發(fā)至統(tǒng)一告警平臺(tái)進(jìn)行告警處理。

      (圖 織云數(shù)據(jù)銀行平臺(tái))

      織云的運(yùn)維數(shù)據(jù)銀行提供了將運(yùn)維數(shù)據(jù)集中化收集和處理的平臺(tái)化能力,為異構(gòu)的運(yùn)維監(jiān)控?cái)?shù)據(jù),提供了通用的流式數(shù)據(jù)處理分析方案,如正則解析、數(shù)據(jù)翻譯、數(shù)據(jù)統(tǒng)計(jì)、數(shù)值計(jì)算等數(shù)據(jù)處理邏輯??紤]到平臺(tái)對(duì)不同數(shù)據(jù)源的兼容性,數(shù)據(jù)銀行同時(shí)提供了直接接入自定義插件的靈活能力。

      針對(duì)運(yùn)維常見(jiàn)的基于時(shí)間序列的數(shù)據(jù)模型,數(shù)據(jù)銀行內(nèi)嵌如 OLAP多維數(shù)據(jù)下鉆分析、高斯分布分析、聚類(lèi)分析、GBDT等數(shù)據(jù)價(jià)值挖掘的能力,豐富運(yùn)維團(tuán)隊(duì)對(duì)監(jiān)控?cái)?shù)據(jù)的分析手段。在數(shù)據(jù)銀行平臺(tái)的支持下,騰訊云運(yùn)維團(tuán)隊(duì)實(shí)現(xiàn)了海量的監(jiān)控?cái)?shù)據(jù)集中存儲(chǔ)與分析。

      Monitor時(shí)序數(shù)據(jù)智能監(jiān)控系統(tǒng)

      大量的監(jiān)控?cái)?shù)據(jù)經(jīng)常會(huì)遇到諸如誤告警、閥值配置難等問(wèn)題,通過(guò)學(xué)習(xí)經(jīng)典 AI算法,我們發(fā)現(xiàn)要處理好時(shí)序數(shù)據(jù),讓監(jiān)控系統(tǒng)能精準(zhǔn)的檢測(cè)異常,必須要解決一些監(jiān)控?cái)?shù)據(jù)問(wèn)題,如非正態(tài)分布的數(shù)據(jù)、縱向周期波動(dòng)的數(shù)據(jù)等,因?yàn)樗鼈儗?duì)時(shí)間序列數(shù)據(jù)的異常檢測(cè)的準(zhǔn)確性造成了強(qiáng)烈干擾,騰訊織云 Monitor系統(tǒng)為此而生。

      Monitor是騰訊云基于時(shí)序數(shù)據(jù)的智能監(jiān)控系統(tǒng),通過(guò)對(duì) 200萬(wàn) /分的時(shí)序數(shù)據(jù)的反復(fù)訓(xùn)練,織云 Monitor找到了一個(gè)有效的算法組合方案,利用統(tǒng)計(jì)算法(3-Sigma)+無(wú)監(jiān)督算法(孤立森林),快速在海量的監(jiān)控?cái)?shù)據(jù)中找出正樣本,通過(guò)有監(jiān)督學(xué)習(xí)的方法,對(duì)樣本數(shù)據(jù)進(jìn)行人工打標(biāo)注。

      (圖 時(shí)間序列異常檢測(cè)的技術(shù)框架)

      上圖為時(shí)間序列異常檢測(cè)的技術(shù)框架,作為時(shí)間序列的異常檢測(cè)模型,整體框架分成三大板塊,第一個(gè)是離線訓(xùn)練板塊,第二個(gè)是在線預(yù)測(cè)板塊,第三個(gè)是 AB test調(diào)優(yōu)板塊。

      • 在離線板塊,統(tǒng)計(jì)判別和無(wú)監(jiān)督算法輸出疑似異常,然后人工進(jìn)行審核,加入正負(fù)樣本庫(kù),通過(guò)提取時(shí)間序列的特征,加入有監(jiān)督算法進(jìn)行離線訓(xùn)練并且輸出模型;

      • 在線板塊,通過(guò)加載離線訓(xùn)練好的模型,并且使用有監(jiān)督學(xué)習(xí)算法進(jìn)行實(shí)時(shí)預(yù)測(cè),就是判斷正負(fù)樣本。這里,我們也會(huì)進(jìn)行人工校正的過(guò)程,把誤告的樣本加入樣本庫(kù);

      • AB test模塊是作為調(diào)優(yōu)的工具,一旦有某個(gè)流量的模型效果好,就會(huì)全網(wǎng)發(fā)布,實(shí)時(shí)預(yù)測(cè)。

      織云 monitor利用人工標(biāo)識(shí)出的結(jié)果和計(jì)算出的特征訓(xùn)練模型,通過(guò)模型判定快速識(shí)別時(shí)序數(shù)據(jù)的異常,實(shí)現(xiàn)了對(duì)大量的監(jiān)控指標(biāo)無(wú)閥值的秒級(jí)監(jiān)控能力,適用于數(shù)據(jù)量級(jí)大、監(jiān)控曲線各異、數(shù)據(jù)政府樣板不平衡的場(chǎng)景。

      織云一體化運(yùn)維解決方案

      除了上述數(shù)據(jù)銀行的大數(shù)據(jù)智能監(jiān)控系統(tǒng),騰訊云在 AIOps上的運(yùn)維實(shí)踐還有很多,包括使用決策樹(shù)算法來(lái)嘗試解決告警根因分析的場(chǎng)景問(wèn)題,使用 Apriori算法或 FP-Growth算法來(lái)嘗試解決告警收斂的問(wèn)題,使用 NLP來(lái)解決快速發(fā)現(xiàn)用戶投訴的問(wèn)題,使用強(qiáng)化學(xué)習(xí)來(lái)嘗試解決應(yīng)用性能參數(shù)調(diào)優(yōu)的問(wèn)題……由于篇幅有限,本文不在此一一詳述。

      (圖 織云一體化運(yùn)維解決方案)

      總的來(lái)說(shuō),海量業(yè)務(wù)的運(yùn)維場(chǎng)景下,AIOps技術(shù)能夠讓監(jiān)控?cái)?shù)據(jù)更精準(zhǔn)的發(fā)現(xiàn)和定位問(wèn)題,并結(jié)合自動(dòng)化運(yùn)維的能力,提供無(wú)人運(yùn)維的高效解決方案。騰訊云的 AIOps落地實(shí)踐,堅(jiān)持以業(yè)務(wù)驅(qū)動(dòng)為原則,基于不同場(chǎng)景下的運(yùn)維訴求,通過(guò)智能化的手段,完成海量網(wǎng)絡(luò)架構(gòu)的智能監(jiān)控與處理。

      5 織云 AIOps解決方案落地應(yīng)用

      除了對(duì)自身海量業(yè)務(wù)的支持,騰訊云以開(kāi)放和互助的心態(tài),基于多年的網(wǎng)絡(luò)體系運(yùn)維經(jīng)驗(yàn),向業(yè)界輸出一套完整的智能運(yùn)維方法論、技術(shù)體系和數(shù)據(jù)模型,通過(guò)這些工具和思路,企業(yè)可以基于自身業(yè)務(wù)特點(diǎn)和訴求,構(gòu)建一套行之有效的 AIOps體系。本文以某金融企業(yè)為例,簡(jiǎn)單講述騰訊織云解決方案在企業(yè)智能化運(yùn)維改造方面的落地實(shí)踐,希望為大家提供參考借鑒。

      企業(yè)運(yùn)維痛點(diǎn)

      金融企業(yè)采用的 IT資源管理系統(tǒng)多數(shù)較為原始,如使用原始的 Excel管理數(shù)據(jù)、業(yè)務(wù)側(cè)缺乏統(tǒng)一的規(guī)劃與管理等,隨著資本市場(chǎng)的興起與繁榮,舊的 IT基礎(chǔ)設(shè)施和設(shè)計(jì)理念已遠(yuǎn)遠(yuǎn)不足以支撐企業(yè)海量的用戶交易與結(jié)算服務(wù)監(jiān)控,企業(yè)亟需一種高效的、智能的運(yùn)維手段提升整體運(yùn)營(yíng)效率。

      • 采用原始的 EXCEL管理,該方式主要帶給客戶如下弊端:

        • 無(wú)法直觀且有效的反映出每一個(gè)具化的資源對(duì)象的生命周期與運(yùn)營(yíng)狀態(tài)

        • 原始數(shù)據(jù)的修改完全依賴(lài)人工觸發(fā)修改,數(shù)據(jù)的有效性與準(zhǔn)確性難于保證,同時(shí)帶來(lái)較繁瑣的數(shù)據(jù)核查工作

        • IT資源的整體與局部利用率未能清晰的展示出,IT資源成本一直居高不下

      • IAAS層的服務(wù)器、網(wǎng)絡(luò)設(shè)備、缺乏有效的統(tǒng)一監(jiān)控、告警與自動(dòng)化能力的支撐;

        • 1000+ 服務(wù)器利用率的度量與監(jiān)控

        • 交換機(jī)、路由器等網(wǎng)絡(luò)設(shè)備的運(yùn)營(yíng)質(zhì)量與容量

      • 全球化業(yè)務(wù)環(huán)境與運(yùn)營(yíng)支撐環(huán)境的網(wǎng)絡(luò)專(zhuān)線與公網(wǎng)出口的納管、流量分析、監(jiān)控等;

      • 用于業(yè)務(wù)支撐的眾多的外網(wǎng)域名的服務(wù)質(zhì)量度量;

      • 私有云與公有云的統(tǒng)一運(yùn)維管理

      • 業(yè)務(wù)側(cè)的運(yùn)維缺乏有效的管理與規(guī)劃。

      織云系統(tǒng)智能化運(yùn)維解決方案

      根據(jù)該企業(yè)的痛點(diǎn)和訴求,騰訊云規(guī)劃并建立起整體 IT運(yùn)營(yíng)生態(tài),采用領(lǐng)先的 AIOps理念,通過(guò)替換原有資源管理方式、細(xì)化監(jiān)控對(duì)象數(shù)據(jù)粒度、捕獲網(wǎng)絡(luò)內(nèi)的相關(guān)信息、度量域名的公網(wǎng)訪問(wèn)質(zhì)量、劃分三級(jí)功能模塊所屬信息等手段,完成了該交易所的業(yè)務(wù)功能模塊梳理,建立起完善的權(quán)限管控機(jī)制,標(biāo)準(zhǔn)化應(yīng)用服務(wù)版本管理和運(yùn)維操作規(guī)范。 具體落地思路如下:

      1、用 CMDB替換原始的 Excel管理資源

      EXCEL管理資源方式不僅效率底下,且無(wú)法直觀、有效反映出每一個(gè)具化的資源對(duì)象的生命周期與運(yùn)營(yíng)狀態(tài)。騰訊云通過(guò)先配置在納管的理念將資源統(tǒng)一管理,每種資源具有自己的可度量可運(yùn)營(yíng)的管理模型。

       CMDB中統(tǒng)一描述對(duì)象的類(lèi)別、數(shù)量、關(guān)系 (對(duì)象與對(duì)象間的關(guān)系)、狀態(tài)等,并且通過(guò)與監(jiān)控平臺(tái)實(shí)時(shí)聯(lián)動(dòng)保障了每個(gè)對(duì)象的服務(wù)質(zhì)量的可控與可度量。

      通過(guò)該管理模型,實(shí)現(xiàn)硬件與業(yè)務(wù)的關(guān)聯(lián),并將配置信息運(yùn)用在多樣化的運(yùn)維場(chǎng)景。如運(yùn)維可以清晰的獲知某臺(tái)物理服務(wù)器,資源存放在某個(gè) IDC中、存放在該 IDC的某個(gè)機(jī)架上、接入在某臺(tái)交換機(jī)上的某個(gè)端口上、在業(yè)務(wù)規(guī)劃態(tài)該服務(wù)器分配給某個(gè)業(yè)務(wù)、在業(yè)務(wù)運(yùn)營(yíng)態(tài)該服務(wù)器的實(shí)際負(fù)載是多少、觸發(fā)服務(wù)器告警的條件是什么等資源的具體信息。

      2、細(xì)化監(jiān)控對(duì)象的數(shù)據(jù)粒度

      對(duì)于金融企業(yè)的服務(wù)器與網(wǎng)絡(luò)設(shè)備資源,織云基于服務(wù)器的 agent數(shù)據(jù)上報(bào)、網(wǎng)絡(luò)設(shè)備的 SNMP與 syslog分析等,精準(zhǔn)的度量出每一個(gè)資源對(duì)象的狀態(tài)、負(fù)載、服務(wù)質(zhì)量等數(shù)據(jù)。例如對(duì)于交易所的網(wǎng)絡(luò)設(shè)備監(jiān)控,細(xì)化如下三個(gè)維度:

      • 網(wǎng)絡(luò)設(shè)備的物理端口的監(jiān)控與告警;

      • 網(wǎng)絡(luò)設(shè)備的邏輯端口 (物理端口的邏輯組合)的監(jiān)控與告警;

      • 網(wǎng)絡(luò)設(shè)備的 syslog(設(shè)備運(yùn)行日志)的監(jiān)控與告警;

      • 網(wǎng)絡(luò)設(shè)備的監(jiān)控與業(yè)務(wù)、主機(jī)的監(jiān)控關(guān)聯(lián)。

      3、基于 Xflow協(xié)議捕獲網(wǎng)絡(luò)會(huì)話信息

      對(duì)于金融企業(yè)的網(wǎng)絡(luò)出口與網(wǎng)絡(luò)專(zhuān)線資源,織云基于設(shè)備廠商的 Xflow協(xié)議可以捕獲到網(wǎng)絡(luò)內(nèi)的相關(guān)會(huì)話信息 (ip+端口維度),并對(duì)于每個(gè)會(huì)話進(jìn)行量化的分析與展示,幫助交易所解決運(yùn)維高頻場(chǎng)景的問(wèn)題包括:

      • 某條專(zhuān)線當(dāng)前利用率多少?

      • 在已經(jīng)使用的流量中,具體是那個(gè)業(yè)務(wù)或者那個(gè) ip使用了多少帶寬資源?

      • 這些所消耗的帶寬是基于什么協(xié)議與方向?

      • 專(zhuān)線的丟包率與時(shí)延是怎么樣的?

      • 專(zhuān)線下聯(lián)的服務(wù)器與業(yè)務(wù)是哪些?

      4、度量域名的公網(wǎng)訪問(wèn)質(zhì)量

      對(duì)于金融企業(yè)眾多的業(yè)務(wù)支撐域名,織云通過(guò)分布在全國(guó)各地域不同運(yùn)營(yíng)商處 170個(gè)撥測(cè)點(diǎn)的實(shí)時(shí)撥測(cè),精準(zhǔn)的度量出域名的公網(wǎng)訪問(wèn)質(zhì)量。

      5、劃分三級(jí)功能模塊所屬信息

      結(jié)合騰訊內(nèi)部運(yùn)維最佳實(shí)踐,聚焦三級(jí)功能模塊所屬設(shè)備、包、任務(wù)、監(jiān)控等信息,最佳效率提升運(yùn)維管理。如從業(yè)務(wù)模塊的視角出發(fā)度量與管理資源、權(quán)限及動(dòng)作。

      6、業(yè)務(wù)指標(biāo)的智能監(jiān)控

      為了保障業(yè)務(wù)的質(zhì)量,運(yùn)維需要對(duì)業(yè)務(wù)、應(yīng)用程序和基礎(chǔ)設(shè)施等進(jìn)行監(jiān)控和度量,其中涉及的指標(biāo)量巨大,利用閥值管理指標(biāo)的傳統(tǒng)監(jiān)控方法需要大量人工操作。針對(duì)監(jiān)控涉及眾多指標(biāo)的運(yùn)維場(chǎng)景,織云提供了更智能的解決方案:

      • 動(dòng)態(tài)閥值替代靜態(tài)閥值

      • 告警數(shù)據(jù)的智能收斂

      • 告警數(shù)據(jù)的關(guān)聯(lián)分析

      • 告警數(shù)據(jù)聯(lián)動(dòng)運(yùn)維工作完成故障自愈

      • 數(shù)據(jù)的 AI有監(jiān)督模型訓(xùn)練方案

      通過(guò)系列實(shí)戰(zhàn)落地改造,織云系統(tǒng)幫助該集團(tuán)基于自身訴求,建立了覆蓋硬件性能、專(zhuān)線 /出口、專(zhuān)線、域名流量分析的 IAAS層健康監(jiān)控等適合業(yè)務(wù)發(fā)展的完善的金融 DevOps運(yùn)維體系,從而推進(jìn)了整個(gè)業(yè)務(wù)的運(yùn)營(yíng)監(jiān)控質(zhì)量,提升企業(yè) IT運(yùn)營(yíng)對(duì)于業(yè)務(wù)促進(jìn)的整體效果。

      作者介紹

      梁定安(大梁),騰訊 SNG運(yùn)維技術(shù)總監(jiān),騰訊云織云產(chǎn)品負(fù)責(zé)人,騰訊云布道師、復(fù)旦大學(xué)客座 DevOps講師。多年運(yùn)維、運(yùn)營(yíng)開(kāi)發(fā)和 DevOps的工作經(jīng)驗(yàn),曾負(fù)責(zé) Qzone、相冊(cè)等 SNG社交平臺(tái)類(lèi)業(yè)務(wù)的運(yùn)維規(guī)劃與管理,經(jīng)歷了 SNG運(yùn)維標(biāo)準(zhǔn)化、自動(dòng)化、智能化建設(shè)的全程。目前正致力于騰訊云企業(yè)級(jí)運(yùn)維方案織云的產(chǎn)品化工作,積極探索新技術(shù)在運(yùn)維領(lǐng)域的應(yīng)用,為行業(yè)輸出自動(dòng)化與智能化的運(yùn)維能力。


      相關(guān)活動(dòng)

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類(lèi)似文章 更多