乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      推薦閱讀|工業(yè)大數(shù)據(jù)分析方法論:基于CRISP-DM方法論

       阿明哥哥資料區(qū) 2019-07-19
      編者按:如何滿足不同行業(yè)、不同發(fā)展階段的企業(yè)的獨特需求呢?需要涉及到根據(jù)不同企業(yè)的實際情況來制定轉(zhuǎn)型策略了。兩化融合、智能制造成熟度模型、跨行業(yè)數(shù)據(jù)挖掘標準流程等都是可以用來幫助企業(yè)制定策略、做出數(shù)字化轉(zhuǎn)型的規(guī)劃和路線圖的方法和工具。本公眾號會陸續(xù)推出系列文章介紹此類工具。

      數(shù)據(jù)從信息技術(shù)行業(yè)產(chǎn)生的那一刻起就一直存在,信息技術(shù)是基于信息的,而信息是來自于數(shù)據(jù)的。數(shù)據(jù)挖掘,數(shù)據(jù)倉庫,商務(wù)智能已經(jīng)被眾多企業(yè)實施了很多年,并且在很多年以前就承諾要幫助業(yè)務(wù)獲得更多的價值。但是我們也聽到了很多企業(yè)在實施商業(yè)智能和數(shù)據(jù)倉庫過程中的挑戰(zhàn)。我們經(jīng)常聽到企業(yè)實施數(shù)據(jù)倉庫和商業(yè)智能項目的失敗率超過50%甚至70%。就像JeffSmith(IBM的首席信息官所說)“數(shù)據(jù)倉庫和商業(yè)智能系統(tǒng)占據(jù)了CIO預(yù)算中的巨大的部分,并沒有產(chǎn)生對應(yīng)的業(yè)務(wù)價值”是什么導(dǎo)致數(shù)據(jù)倉庫和商業(yè)智能解決方案不適用于現(xiàn)在的情況了呢?我們可以從行業(yè)經(jīng)典的數(shù)據(jù)挖掘的方法論(CISP-DM)開始探討。

      CRISP-DM方法論

      CRISP-DM是一種廣泛采用的數(shù)據(jù)挖掘分析方法論,由SPSS、Teradata等公司起草于1999年發(fā)布第一版。該方法將一個數(shù)據(jù)分析項目分為業(yè)務(wù)理解(Business Understanding)、數(shù)據(jù)理解(DataUnderstanding)、數(shù)據(jù)準備(Data Preparation)、建模(Modeling)、驗證(Evaluation)、部署(Deployment)等6個階段(如下圖所示)的迭代過程。

      對多數(shù)數(shù)據(jù)分析工作來說,人們并不希望上述反復(fù)交替的過程,因為反復(fù)交替意味著工作的重復(fù)和低效。而這種現(xiàn)象出現(xiàn)在公認的標準中,是因為分析過程存在極大的不確定性,這樣的反復(fù)往往是不可避免的。

      長期以來,很多人用 CRISP-DM 指導(dǎo)工業(yè)大數(shù)據(jù)分析的過程。在很多場景下,這個模型的原理是可行的、行之有效的,但是當我們把它用于工業(yè)過程數(shù)據(jù)分析時,卻發(fā)現(xiàn)問題的復(fù)雜度會急劇上升,各個步驟中反復(fù)的次數(shù)大大增加,驗證評估不合格導(dǎo)致從頭再來的情況非常普遍。這些現(xiàn)象,導(dǎo)致工業(yè)大數(shù)據(jù)分析工作的效率顯著下降。

      CRISP-DM 模型的工業(yè)領(lǐng)域落地難點

      CRISP-DM 模型在工業(yè)領(lǐng)域的應(yīng)用遇到一些問題,造成了該模型落地困難,主要的難點表現(xiàn)在以下三個方面:

      1)工業(yè)數(shù)據(jù)關(guān)聯(lián)關(guān)系復(fù)雜

      無論是生產(chǎn)產(chǎn)品的工廠還是作為工業(yè)產(chǎn)品的設(shè)備,本質(zhì)上都是多個要素互相作用所組成的系統(tǒng),而它們的運行環(huán)境,也可以看成更大的系統(tǒng)。所以,我們可以用系統(tǒng)的觀點,統(tǒng)一地看待工業(yè)大數(shù)據(jù)所針對的工業(yè)對象。

      研究一個工業(yè)系統(tǒng),要把注意力集中在多個要素互相影響、互相作用,否則只會得到片面甚至錯誤的結(jié)論。正如列寧所言:“如果不是從整體上、不是從聯(lián)系中掌握事實;如果事實是零碎和隨意挑出來的,那它們就只能是一種兒戲,或者連兒戲也不如?!?/p>

      2) 工業(yè)數(shù)據(jù)質(zhì)量差

      從某種意義上說,工業(yè)大數(shù)據(jù)是工業(yè)系統(tǒng)在數(shù)字空間的映像。要想通過數(shù)據(jù)認識工業(yè)對象或過程,數(shù)據(jù)本身應(yīng)該體現(xiàn)對象的系統(tǒng)性。然而受到現(xiàn)實條件的約束,數(shù)據(jù)往往是工業(yè)對象不完整的體現(xiàn)。而且很多數(shù)據(jù)來源于某些特定的工作點上,參數(shù)波動中包含大量檢測誤差、數(shù)據(jù)的信噪比低。這就給數(shù)據(jù)分析過程帶來了極大的不確定性、并容易對分析過程產(chǎn)生誤導(dǎo)。

      3) 工業(yè)場景的分析要求高

      工業(yè)界對不確定性的容忍度很低,這就要求數(shù)據(jù)分析結(jié)果盡可能地準確可靠。分析要求高而數(shù)據(jù)條件差、對象復(fù)雜性高是分析過程中必須面對的矛盾。在數(shù)據(jù)分析的過程中,這一矛盾表現(xiàn)為容易出現(xiàn)各種假象和干擾、分析結(jié)果總是難以滿足用戶的使用需求等。要解決這些矛盾,必須將工業(yè)過程的領(lǐng)域?qū)I(yè)知識、業(yè)務(wù)機理與數(shù)據(jù)分析過程有機地融合起來,貫穿于數(shù)據(jù)分析的每一個階段,這也使得工業(yè)大數(shù)據(jù)對業(yè)務(wù)理解的深度有較高的要求。

      在工業(yè)大數(shù)據(jù)分析過程中使用 CRISP-DM

      CRISP-DM 方法基本適合工業(yè)大數(shù)據(jù)分析,但必須補充進新的內(nèi)涵才能讓方法有效、讓工業(yè)大數(shù)據(jù)分析成為有效的經(jīng)濟活動。如前所述,工業(yè)大數(shù)據(jù)分析過程的效率低下,很可能是大量無效的循環(huán)往復(fù)導(dǎo)致的。所以,工業(yè)大數(shù)據(jù)分析方法的關(guān)鍵,是如何減少不必要的反復(fù)、提高數(shù)據(jù)分析的效率。

      在工業(yè)大數(shù)據(jù)分析過程中用好 CRISP-DM,關(guān)鍵是減少上下步驟之間的反復(fù)、避免單向箭頭變成雙向,還尤其是要盡量減少模型驗證失敗后重新進入業(yè)務(wù)理解這樣大的反復(fù)。

      減少無效反復(fù)的重要辦法是采用工程上常見的“以終為始”的思維方式。在進行深入研究之前,要進行一個相對全面的調(diào)研,從如何 應(yīng)用、如何部署開始,反推需要進行的研究。

      “反復(fù)”是探索過程的特點以及知識和信息不足導(dǎo)致的。數(shù)據(jù)分析是一個探索知識的過程,不可能徹底消除這種現(xiàn)象。所以,我們需要追求的,是減少不必要的探索。其中,“不必要的探索”一般是由于數(shù)據(jù)分析人員沒有充分掌握已有的領(lǐng)域知識和相關(guān)信息導(dǎo)致的。所以,要減少不必要的探索,關(guān)鍵是數(shù)據(jù)分析知識和領(lǐng)域知識、相關(guān)信息的有機結(jié)合。

      實際分析工作中又不能假設(shè)或者要求數(shù)據(jù)分析人員事先對這些知識和信息有著充分的理解。所以,要解決這個問題,關(guān)鍵是設(shè)法讓分析師在分析的過程中,更加主動、有針對性地補充相關(guān)知識,即所謂“人在環(huán)上”。

      最后,要努力提高數(shù)據(jù)分析的自動化程度,充分利用計算機的計算和存儲能力、減少人為的介入。由于人的介入能夠使得分析效率大大降低,減少人的介入,也就能大大提高工作的效率。

      CRISP-DM 模型在工業(yè)大數(shù)據(jù)的中的應(yīng)用推進,主要分以下幾個階段:


      1業(yè)務(wù)理解階段:該階段的目標是明確業(yè)務(wù)需求和數(shù)據(jù)分析的目標,將模糊的用戶需求轉(zhuǎn)化成明確的分析問題,必須清晰到計劃采取什么手段、解決什么問題,要將每一個分析問題,細化成明確的數(shù)學(xué)問題,同時基于業(yè)務(wù)理解制定分析項目的評估方案。

      2) 數(shù)據(jù)理解階段:該階段是目標建立數(shù)據(jù)和業(yè)務(wù)的關(guān)聯(lián)關(guān)系,從數(shù)據(jù)的角度去深度的解讀業(yè)務(wù)。包括發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性,或是探測引起興趣的子集去形成隱含信息的假設(shè);識別數(shù)據(jù)的質(zhì)量問題;對數(shù)據(jù)進行可視化探索等。

      3) 數(shù)據(jù)準備階段:該階段的目標是為數(shù)據(jù)的建模分析提供干凈、有效的輸入數(shù)據(jù)源。首先基于業(yè)務(wù)目標篩選有效數(shù)據(jù),篩選的數(shù)據(jù)能夠表征業(yè)務(wù)問題的關(guān)鍵影響因素;其次對數(shù)據(jù)的質(zhì)量進行檢查和處理,處理數(shù)據(jù)的缺失情況、異常情況等;最后對數(shù)據(jù)進行歸約、集成變換等,輸出建??捎玫臄?shù)據(jù)源。

      4) 數(shù)據(jù)建模階段:該階段是基于業(yè)務(wù)和數(shù)據(jù)的理解,選擇合適的算法和建模工具,對數(shù)據(jù)中的規(guī)律進行固化、提取,最后輸出數(shù)據(jù)分析模型。首先基于業(yè)務(wù)經(jīng)驗、數(shù)據(jù)建模經(jīng)驗、對業(yè)務(wù)問題進行邏輯化描述,探索解決問題的算法,反復(fù)迭代選擇一個最優(yōu)算法方案;其次基于輸入數(shù)據(jù)來加工關(guān)鍵的因子的特征變量,作為建模輸入變量,建立有效可靠的數(shù)據(jù)模型。

      5) 模型的驗證和評估階段:首先從業(yè)務(wù)的角度評估模型的精度問題,是否能夠滿足現(xiàn)有業(yè)務(wù)的要求;其次分析模型的中影響因子的完備性,為模型的下一步迭代指明優(yōu)化路徑;最后考察模型的假設(shè)條件,是否滿足實際落地的條件,為模型的部署進行可行性驗證。

      6) 模型的部署階段:在該階段中,首先要基于分析目標,制定模型的使用方案和部署方案,并提前為模型的部署做好環(huán)境的準備工作;其次為模型部署過程中出現(xiàn)的質(zhì)量問題、運行問題、精度問題等,提前做好預(yù)備方案;

      最后基于模型試運行后的結(jié)果,制定模型的持續(xù)優(yōu)化方案。

      寄語

      隨著國家政策激勵以及工業(yè)大數(shù)據(jù)應(yīng)用模式的逐步成熟,工業(yè)大數(shù)據(jù)進入快速發(fā)展時期,未來中國工業(yè)大數(shù)據(jù)市場將持續(xù)快速增長。

      工業(yè)大數(shù)據(jù)技術(shù)產(chǎn)品創(chuàng)新正逐漸從技術(shù)驅(qū)動轉(zhuǎn)向應(yīng)用驅(qū)動,廣闊的市場空間和大量的應(yīng)用需求為工業(yè)大數(shù)據(jù)發(fā)展提供了強大的驅(qū)動力。

      工業(yè)大數(shù)據(jù)將成為推動制造業(yè)創(chuàng)新發(fā)展的重要基礎(chǔ),為中國的工業(yè)升級和轉(zhuǎn)型注入強大動力。企業(yè)在新技術(shù)條件下,實現(xiàn)貫穿于產(chǎn)品設(shè)計、生產(chǎn)、管理、倉儲、物流、服務(wù)等全部流程和環(huán)節(jié)的大數(shù)據(jù)采集、存儲、管理和分析,從大數(shù)據(jù)中挖掘出其中的隱含價值,達到提升生產(chǎn)效率、提高產(chǎn)品質(zhì)量、增強管理能力、降低生產(chǎn)成本等目的,提升了企業(yè)生產(chǎn)力、競爭力和創(chuàng)新力。

      伴隨著工業(yè)大數(shù)據(jù)分析技術(shù)的逐漸成熟、產(chǎn)業(yè)領(lǐng)域的逐漸成型、應(yīng)用場景的不斷延伸、觀念意識的不斷深化,工業(yè)大數(shù)據(jù)必將迎來高速發(fā)展的歷史階段。我們抓住發(fā)展機遇,努力推動中國工業(yè)大數(shù)據(jù)的發(fā)展,針對企業(yè)的個性需求,結(jié)合中國工業(yè)發(fā)展的自身特點,走出中國特色的工業(yè)大數(shù)據(jù)創(chuàng)新路線。

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多