乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      ETL常用的三種工具介紹及對(duì)比Datastage,Informatica

       愛吃魚的俊懶貓 2019-04-16

      ETL是數(shù)據(jù)倉庫中的非常重要的一環(huán),是承前啟后的必要的一步。ETL負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。下面給大家介紹一下什么是ETL以及ETL常用的三種工具(Datastage,Informatica,Kettle)!

      1.ETL是什么?

      ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。(數(shù)據(jù)倉庫結(jié)構(gòu))通俗的說法就是從數(shù)據(jù)源抽取數(shù)據(jù)出來,進(jìn)行清洗加工轉(zhuǎn)換,然后加載到定義好的數(shù)據(jù)倉庫模型中去。目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù)。ETL是BI項(xiàng)目重要的一個(gè)環(huán)節(jié),其設(shè)計(jì)的好壞影響生成數(shù)據(jù)的質(zhì)量,直接關(guān)系到BI項(xiàng)目的成敗。

      2.為什么要用ETL工具?

      ? 當(dāng)數(shù)據(jù)來自不同的物理主機(jī),這時(shí)候如使用SQL語句去處理的話,就顯得比較吃力且開銷也更大。

      ? 數(shù)據(jù)來源可以是各種不同的數(shù)據(jù)庫或者文件,這時(shí)候需要先把他們整理成統(tǒng)一的格式后才可以進(jìn)行數(shù)據(jù)的處理,這一過程用代碼實(shí)現(xiàn)顯然有些麻煩。

      ? 在數(shù)據(jù)庫中我們當(dāng)然可以使用存儲(chǔ)過程去處理數(shù)據(jù),但是處理海量數(shù)據(jù)的時(shí)候存儲(chǔ)過程顯然比較吃力,而且會(huì)占用較多數(shù)據(jù)庫的資源,這可能會(huì)導(dǎo)致數(shù)據(jù)資源不足,進(jìn)而影響數(shù)據(jù)庫的性能。

      上面所說的問題,我們用ETL工具就可以解決。它的優(yōu)點(diǎn)有:

      ● 支持多種異構(gòu)數(shù)據(jù)源的連接。(部分)

      ● 圖形化的界面操作十分方便。

      ● 處理海量數(shù)據(jù)速度快、流程更清晰等。

      3.ETL工具介紹

      Informatica和Datastage占據(jù)國(guó)內(nèi)市場(chǎng)的大部分的份額。

      4.ETL工具差異

      Kettle,Datastage,Informatica三個(gè)ETL工具的特點(diǎn)和差異介紹:

      操作

      都是屬于比較簡(jiǎn)單易用,主要是開發(fā)人員對(duì)于工具的熟練程度。Informatica有四個(gè)開發(fā)管理組件,開發(fā)的時(shí)候我們需要打開其中三個(gè)進(jìn)行開發(fā),Informatica沒有ctrl+z的功能,如果對(duì)job作了改變之后,想要撤銷,返回到改變前是不可能的。相比Kettle跟Datastage在測(cè)試調(diào)試的時(shí)候不太方便。Datastage全部的操作在同一個(gè)界面中,不用切換界面,能夠看到數(shù)據(jù)的來源,整個(gè)job的情況,在找bug的時(shí)候會(huì)比Informatica方便。Kettle介于兩者之間。

      部署

      Kettle只需要JVM環(huán)境,Informatica需要服務(wù)器和客戶端安裝,而Datastage的部署比較耗費(fèi)時(shí)間,有一點(diǎn)難度。

      數(shù)據(jù)處理的速度

      大數(shù)據(jù)量下Informatica 與Datastage的處理速度是比較快的,比較穩(wěn)定。Kettle的處理速度相比之下稍慢。

      服務(wù)

      Informatica與Datastage有很好的商業(yè)化的技術(shù)支持,而Kettle則沒有。商業(yè)軟件的售后服務(wù)上會(huì)比免費(fèi)的開源軟件好很多。

      風(fēng)險(xiǎn)

      風(fēng)險(xiǎn)與成本成反比,也與技術(shù)能力成正比。

      擴(kuò)展

      Kettle的擴(kuò)展性無疑是最好,因?yàn)槭情_源代碼,可以自己開發(fā)拓展它的功能,而Informatica和Datastage由于是商業(yè)軟件,基本上沒有。

      Job的監(jiān)控

      三者都有監(jiān)控和日志工具。在數(shù)據(jù)的監(jiān)控上,個(gè)人覺得Datastage的實(shí)時(shí)監(jiān)控做的更加好,可以直觀看到數(shù)據(jù)抽取的情況,運(yùn)行到哪一個(gè)控件上。這對(duì)于調(diào)優(yōu)來說,我們可以更快的定位到處理速度太慢的控件并進(jìn)行處理,而informatica也有相應(yīng)的功能,但是并不直觀,需要通過兩個(gè)界面的對(duì)比才可以定位到處理速度緩慢的控件。有時(shí)候還需要通過一些方法去查找。

      網(wǎng)上的技術(shù)文檔

      Datastage < Informatica < kettle,相對(duì)來說,Datastage跟Informatica在遇到問題去網(wǎng)上找到解決方法的概率比較低,kettle則比較多。

      5.項(xiàng)目經(jīng)驗(yàn)分享

      多張表同步、重復(fù)的操作:在項(xiàng)目中,很多時(shí)候我們都需要同步生產(chǎn)庫的表到數(shù)據(jù)倉庫中。一百多張表同步、重復(fù)的操作,對(duì)開發(fā)人員來說是細(xì)心和耐心的考驗(yàn)。在這種情況下,開發(fā)人員最喜歡的工具無疑是kettle,多個(gè)表的同步都可以用同一個(gè)程序運(yùn)行,不必每一張表的同步都建一個(gè)程序,而informatica雖然有提供工具去批量設(shè)計(jì),但還是需要生成多個(gè)程序進(jìn)行一一配置,而datastage在這方面就顯得比較笨拙。

      增量表:在做增量表的時(shí)候,每次運(yùn)行后都需要把將最新的一條數(shù)據(jù)操作時(shí)間存到數(shù)據(jù)庫中,下次運(yùn)行我們就取大于這個(gè)時(shí)間的數(shù)據(jù)。Kettle有控件可以直接讀取數(shù)據(jù)庫中的這個(gè)時(shí)間置為變量;對(duì)于沒有類似功能控件的informatica,我們的做法是先讀取的數(shù)據(jù)庫中的這個(gè)時(shí)間存到文件,然后主程序運(yùn)行的時(shí)候指定這個(gè)文件為參數(shù)文件,也可以得到同樣的效果。

      有一句話說的好:世上沒有最好的,只有適合的!每一款ETL工具都有它的優(yōu)缺點(diǎn),我們需要根據(jù)實(shí)際項(xiàng)目,權(quán)衡利弊選擇適合的ETL工具,合適的就是最好的。當(dāng)下越來越多公司及其客戶更重視最新的數(shù)據(jù)(實(shí)時(shí)數(shù)據(jù))展現(xiàn),傳統(tǒng)的ETL工具可能滿足不了這樣的需求,而實(shí)時(shí)流數(shù)據(jù)處理和云計(jì)算技術(shù)更符合。所以我們也需要與時(shí)俱進(jìn),學(xué)習(xí)大數(shù)據(jù)時(shí)代下的ETL工具。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多