乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      Flink Forward Aisa 系列??麱link CDC 新一代數(shù)據(jù)集成框架 - 技術(shù)原理、入門與生產(chǎn)實(shí)踐

       看見就非常 2022-01-24

      “全增量一體化數(shù)據(jù)集成“

      “實(shí)時(shí)數(shù)據(jù)入湖入倉(cāng)“

      “最詳細(xì)的免費(fèi)教程”

      《Flink CDC 新一代數(shù)據(jù)集成框架》由阿里巴巴技術(shù)專家,Apache Flink PMC Member & Committer 伍翀 (云邪) 出品,旨在幫助讀者能更全面地了解 Flink CDC。

      在這本專刊里你可以了解到:

      • Flink CDC 的底層原理設(shè)計(jì)是什么樣的?
      • Flink CDC 如何保證數(shù)據(jù)讀取的一致性?
      • 如何一步步快速上手 Flink CDC?
      • Flink CDC 在生產(chǎn)實(shí)踐上的寶貴經(jīng)驗(yàn)

      img

      在信息爆炸的時(shí)代,為了從海量數(shù)據(jù)中洞察業(yè)務(wù)價(jià)值,驅(qū)動(dòng)運(yùn)營(yíng)決策,企業(yè)通常會(huì)構(gòu)建用于數(shù)據(jù)分析的數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)一般來源于多個(gè)分散的、異構(gòu)的數(shù)據(jù)源,通過數(shù)據(jù)集成技術(shù)將數(shù)據(jù)整合在一起,消除數(shù)據(jù)孤島,便于后續(xù)的分析。近年來,面向分析的數(shù)據(jù)系統(tǒng)發(fā)展迅速,各種新型的 OLAP 系統(tǒng)開始顯露鋒芒,數(shù)據(jù)湖和 Lakehouse 的概念也變得炙手可熱。然而,數(shù)據(jù)集成仍然是人們通往數(shù)據(jù)分析之路上的主要障礙。

      構(gòu)建一個(gè)中心化的數(shù)據(jù)倉(cāng)庫(kù)本身是一個(gè)艱巨的任務(wù),每個(gè)數(shù)據(jù)源都需要單獨(dú)的程序和工具來攝取、清洗和導(dǎo)入數(shù)據(jù)。尤其是隨著業(yè)務(wù)的發(fā)展,企業(yè)對(duì)于數(shù)據(jù)實(shí)時(shí)性的要求越來越高。在 2021 年 6 月,Apache 董事會(huì)宣布決定終止 Apache Sqoop 項(xiàng)目,以 Apache Sqoop 為代表的傳統(tǒng)離線數(shù)據(jù)同步開始退出歷史舞臺(tái)。這也代表著傳統(tǒng)的離線數(shù)據(jù)同步已經(jīng)無法滿足用戶的需求,人們開始追求更為實(shí)時(shí)的數(shù)據(jù)同步方案?;跀?shù)據(jù)庫(kù)事務(wù)日志的 Change Data Capture (CDC) 技術(shù)作為一種更為優(yōu)雅和先進(jìn)的實(shí)時(shí)數(shù)據(jù)同步方案,開始廣泛應(yīng)用于增量數(shù)據(jù)集成中。然而諸如 Canal 等專注于純?cè)隽繑?shù)據(jù)同步的開源項(xiàng)目也逐漸面臨活躍度越來越低的困境,因?yàn)橛脩粝胍傻臄?shù)據(jù)從來不是單獨(dú)的歷史數(shù)據(jù)部分,或是單獨(dú)的增量數(shù)據(jù)部分,而是歷史數(shù)據(jù)和增量數(shù)據(jù)一體化地集成到數(shù)據(jù)倉(cāng)庫(kù)。這也是為什么如 Debezium、 Flink CDC 等全增量一體化數(shù)據(jù)集成框架能越來越受歡迎的原因之一。

      Flink CDC 是 Apache Flink 的一個(gè)重要組件,主要使用了 CDC 技術(shù)從各種數(shù)據(jù)庫(kù)中獲取變更流并接入到 Flink 中。Apache Flink 作為一款非常優(yōu)秀的流處理引擎,其 SQL API 又提供了強(qiáng)大的流式計(jì)算能力,因此結(jié)合 Flink CDC 能帶來非常廣闊的應(yīng)用場(chǎng)景。例如,F(xiàn)link CDC 可以替代傳統(tǒng)的 DataX 和 Canal 工具做實(shí)時(shí)數(shù)據(jù)同步,將數(shù)據(jù)庫(kù)的全量和增量數(shù)據(jù)同步到消息隊(duì)列和數(shù)據(jù)倉(cāng)庫(kù)中。也可以做實(shí)時(shí)數(shù)據(jù)集成,將數(shù)據(jù)庫(kù)數(shù)據(jù)實(shí)時(shí)入湖入倉(cāng)。還可以做實(shí)時(shí)物化視圖,通過 SQL 對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù)做實(shí)時(shí)關(guān)聯(lián)、打?qū)?、聚合,并將物化結(jié)果寫入到湖倉(cāng)中。

      為了幫助讀者能更全面地了解 Flink CDC,我們特地編撰了這本中文??T谶@本??锬憧梢粤私獾? Flink CDC 的底層原理設(shè)計(jì)是什么樣的? Flink CDC 如何保證數(shù)據(jù)讀取的一致性? 如何一步步快速上手 Flink CDC? 以及 Flink CDC 在生產(chǎn)實(shí)踐上的寶貴經(jīng)驗(yàn)!

      作為新一代數(shù)據(jù)集成框架,F(xiàn)link CDC 希望解決的問題很簡(jiǎn)單: “成為數(shù)據(jù)從源頭連接到數(shù)據(jù)倉(cāng)庫(kù)的管道,屏蔽過程中的一切復(fù)雜問題,讓用戶專注于數(shù)據(jù)分析”。 但是為了讓數(shù)據(jù)集成變得簡(jiǎn)單,其中的挑戰(zhàn)仍然非常多: 比如百億數(shù)據(jù)如何高效入湖入倉(cāng)? 千表數(shù)據(jù)如何穩(wěn)定入湖入倉(cāng)? 如何“一鍵”整庫(kù)同步? 表結(jié)構(gòu)頻繁變更,如何自動(dòng)同步表結(jié)構(gòu)變更到湖和倉(cāng)中? 我們會(huì)在本專刊中介紹 Flink CDC 在這些方向取得的一些初步進(jìn)展,F(xiàn)link CDC 未來也會(huì)持續(xù)朝著這些方向改進(jìn)。我們后續(xù)還會(huì)組織發(fā)布更多關(guān)于這些場(chǎng)景的 Flink CDC 系列???。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多