乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      數(shù)據(jù)分析新手必看:這些概念一定要記??!

       F2967527 2020-04-11

      什么是商業(yè)智能

      BI:Business Intelegence,商業(yè)智能,基于數(shù)據(jù)倉(cāng)庫(kù),經(jīng)過(guò)數(shù)據(jù)挖掘后,得到了商業(yè)價(jià)值的過(guò)程。例如利用數(shù)據(jù)預(yù)測(cè)用戶購(gòu)物行為屬性商業(yè)智能

      什么是數(shù)據(jù)倉(cāng)庫(kù)

      DW:Data Warehouse,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)庫(kù)的升級(jí)概念,一般量更龐大,將多個(gè)數(shù)據(jù)來(lái)源的數(shù)據(jù)進(jìn)行匯總、整理而來(lái)


      什么是數(shù)據(jù)挖掘

      DM:Data Mining,數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘流程:Knowledge Discovery in Database,也叫數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),簡(jiǎn)稱KDD

      KDD流程:輸入數(shù)據(jù)->數(shù)據(jù)預(yù)處理->數(shù)據(jù)挖掘->后處理->信息

      • 數(shù)據(jù)清洗:去除重復(fù)數(shù)據(jù)、干擾數(shù)據(jù)及填充缺失值

      • 數(shù)據(jù)集成:將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)存放在一個(gè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)中

      • 數(shù)據(jù)變換:將數(shù)據(jù)轉(zhuǎn)換成適合數(shù)據(jù)挖掘的形式,比如將數(shù)值東籬一個(gè)特定的0~1的區(qū)間

      1. 數(shù)據(jù)挖掘的核心

      • 分類:通過(guò)訓(xùn)練集得到一個(gè)分類模型,然后用這個(gè)模型可以對(duì)其他數(shù)據(jù)進(jìn)行分類 分類是已知了類別,然后看樣本屬于哪個(gè)分類

      • 聚類:將數(shù)據(jù)自動(dòng)聚類成幾個(gè)類別, 聚類是不知道有哪些類別,按照 樣本的屬性來(lái)進(jìn)行聚類

      • 預(yù)測(cè):通過(guò)當(dāng)前和歷史數(shù)據(jù)預(yù)測(cè)未來(lái)趨勢(shì),可以更好地幫助我們識(shí)別機(jī)遇和風(fēng)險(xiǎn)

      • 關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,被廣泛應(yīng)用于購(gòu)物、事務(wù)數(shù)據(jù)分析中

      2. 數(shù)據(jù)挖掘的基本流程

      • 商業(yè)理解:從商業(yè)的角度理解項(xiàng)目需求

      • 數(shù)據(jù)理解:嘗試收集部分?jǐn)?shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行探索

      • 數(shù)據(jù)準(zhǔn)備:開(kāi)始收集數(shù)據(jù),并進(jìn)行清洗、集成等操作

      • 模型建立:選擇和應(yīng)用數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化,以便得到更好的分類結(jié)果

      • 模型評(píng)估:對(duì)模型進(jìn)行評(píng)價(jià),確認(rèn)模型是否實(shí)現(xiàn)了預(yù)定的商業(yè)目標(biāo)

      • 上線發(fā)布:把挖掘的知識(shí)轉(zhuǎn)換成用戶的使用形式

      數(shù)據(jù)挖掘的數(shù)學(xué)基礎(chǔ)

      • 概率論與數(shù)據(jù)統(tǒng)計(jì)

      • 線性代數(shù)

      • 圖論

      • 最優(yōu)化方法

      數(shù)據(jù)挖掘的十大算法

      1. 分類

      • C4.5十大算法之首,決策樹(shù)算法,特點(diǎn)包括:1.構(gòu)造過(guò)程中剪枝 2.處理連續(xù)屬性;3.處理不完整的數(shù)據(jù)

      • 樸素貝葉斯:基于概率論原理,計(jì)算未知物體出現(xiàn)的條件下,各個(gè)類別出現(xiàn)的概率,取概率最大的分類

      • SVM:超平面的分類模型

      • KNN:每個(gè)樣本的分類都可以用其最接近的K個(gè)鄰居的分類代表

      • Adaboost:構(gòu)建分類器的提升算法,可以讓多個(gè)弱的分類器組成一個(gè)強(qiáng)的分類器

      • CART:決策樹(shù)算法,分類樹(shù) + 回歸樹(shù)

      2. 聚類

      • K-Means:將物體分成K類,計(jì)算新點(diǎn)跟K個(gè)中心點(diǎn)的距離,哪個(gè)距離近,則新點(diǎn)歸為哪一類

      • EM:最大期望算法,求參數(shù)的最大似然估計(jì)的一種方法

      3. 關(guān)聯(lián)分析

      Apriori:挖掘關(guān)聯(lián)規(guī)則的算法,通過(guò)挖掘頻繁項(xiàng)集揭示物品之間的關(guān)聯(lián)關(guān)系 

      4. 連接分析

      PageRank:起源于論文影響力的計(jì)算方式,如果一篇文論被引入的次數(shù)越多,就代表這篇論文的影響力越強(qiáng),Google將其用于計(jì)算網(wǎng)頁(yè)權(quán)重

      什么是數(shù)據(jù)可視化

      數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達(dá)與溝通信息,讓我們直觀了解數(shù)據(jù)分析的結(jié)果

      數(shù)據(jù)可視化工具:

      1. python庫(kù)

      Matplotlib

      Seaborn

      Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等

      2. 商業(yè)智能軟件

      Tableau

      PowerBI

      3. 可視化大屏

      大屏作為一種視覺(jué)效果強(qiáng)、科技感強(qiáng)的技術(shù),被企業(yè)老板所青睞,可以很好地展示公司的數(shù)據(jù)化能力

      4. 前端可視化組件

      可視化組件都是基于 Web 渲染的技術(shù)的

      Web 渲染技術(shù):Canvas(位圖)、SVG (失量圖)和 WebGL(3D繪圖)

      什么是用戶畫(huà)像

      簡(jiǎn)單的說(shuō),用戶畫(huà)像就是標(biāo)簽的匯總,用戶畫(huà)像是現(xiàn)實(shí)世界中的用戶的數(shù)學(xué)建模,將海量數(shù)據(jù)進(jìn)行標(biāo)簽化,來(lái)復(fù)以更精準(zhǔn)的用戶畫(huà)像,用戶標(biāo)簽?zāi)墚a(chǎn)生的業(yè)務(wù)價(jià)值

      • 在獲客上,找到優(yōu)勢(shì)的宣傳渠道,通過(guò)個(gè)性化的宣傳手段吸引有潛在需求的用戶

      • 在粘客上,提升用戶的單價(jià)和消費(fèi)頻次

      • 在留客上,降低流失率,顧客流失率降低 5%,公司利潤(rùn)提升 25% ~ 85%

      1. 用戶標(biāo)簽4個(gè)緯度

      • 基礎(chǔ)信息:性別、年齡、地域、收入、學(xué)歷、職業(yè)等

      • 消費(fèi)信息:消費(fèi)習(xí)慣、購(gòu)買意向、是否對(duì)促銷敏感

      • 行為分析:時(shí)間段、頻次、時(shí)長(zhǎng)、訪問(wèn)路徑

      • 內(nèi)容分析:瀏覽的內(nèi)容、停留時(shí)長(zhǎng)、瀏覽次數(shù),內(nèi)容類型,如金融、娛樂(lè)、教育、體育、時(shí)尚、科技等

      2. 數(shù)據(jù)處理的3個(gè)階段

      • 業(yè)務(wù)層:獲客預(yù)測(cè)、個(gè)性化推薦、用戶流失率、GMV趨勢(shì)預(yù)測(cè)

      • 算法層:用戶興趣、用戶活躍度、產(chǎn)品購(gòu)買偏好、用戶關(guān)聯(lián)關(guān)系、用戶滿意度、渠道使用偏好、支付使用偏好、優(yōu)惠券偏好

      • 數(shù)據(jù)層:用戶屬性、投訴次數(shù)、產(chǎn)品購(gòu)買次數(shù)、渠道使用頻率、優(yōu)惠券使用、訪問(wèn)時(shí)長(zhǎng)、支付渠道使用、瀏覽內(nèi)容頻次

      什么是埋點(diǎn)

      在需要的位置采集相應(yīng)的信息,進(jìn)行上報(bào)。比如用戶信息、設(shè)備信息、操作行為數(shù)據(jù),埋點(diǎn)一般是在需要統(tǒng)計(jì)數(shù)據(jù)的地方植入統(tǒng)計(jì)代碼。 

      數(shù)據(jù)采集都有哪些方式

      • 開(kāi)源數(shù)據(jù)源

      • 爬蟲(chóng)抓取

      • 日志采集

      • 傳感器

      什么是數(shù)據(jù)清洗

      數(shù)據(jù)清洗是去除重復(fù)數(shù)據(jù)、干擾數(shù)據(jù)及填充缺失值。

      數(shù)據(jù)清洗的4個(gè)關(guān)鍵點(diǎn)(完全合一):

      • 完整性:單條數(shù)據(jù)是否存在空值,統(tǒng)計(jì)的字段是否完善

      • 全面性:觀察某一列的全部數(shù)值,判斷列是否有問(wèn)題,比如:數(shù)據(jù)定義、單位標(biāo)識(shí)、數(shù)值本身。例如有的單位是克,有的是千克或磅

      • 合法性:數(shù)據(jù)的類型、內(nèi)容、大小的合法性。例如存在非ASCII字符,性別未知,年齡超過(guò)150歲等。

      • 唯一性:數(shù)據(jù)是否存在重復(fù)記錄。因?yàn)閿?shù)據(jù)通常來(lái)自不同渠道的匯總,重復(fù)的情況是常見(jiàn)的,行和列數(shù)據(jù)都需要是唯一的

      什么是數(shù)據(jù)集成

      數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)數(shù)據(jù)存儲(chǔ)中(如數(shù)據(jù)倉(cāng)庫(kù)) 大數(shù)據(jù)項(xiàng)目中80%的工作都和數(shù)據(jù)集成有關(guān)。

      • Extract / 提取 :從datasource/txt/csv/Excel/等原始數(shù)據(jù)源中 Extract數(shù)據(jù)

      • Transform / 轉(zhuǎn)換 :將數(shù)據(jù)預(yù)處理,字段補(bǔ)全、類型檢查、去除重復(fù)數(shù)據(jù)等,根據(jù)預(yù)定的條件將數(shù)據(jù)統(tǒng)一起來(lái)

      • Load / 裝載 :將轉(zhuǎn)換完的數(shù)據(jù)存到數(shù)據(jù)倉(cāng)庫(kù)中

      1. 數(shù)據(jù)集成的兩種架構(gòu)

      • ELT 過(guò)程為數(shù)據(jù)提取(Extract)——轉(zhuǎn)換(Transform)——加載(Load),在數(shù)據(jù)源抽取后首先進(jìn)行轉(zhuǎn)換,然后將轉(zhuǎn)換的結(jié)果寫(xiě)入目的地。

      • ETL 過(guò)程為數(shù)據(jù)提取(Extract)——加載(Load)——轉(zhuǎn)換(Transform),在數(shù)據(jù)抽取后將結(jié)果先寫(xiě)入目的地,然后利用數(shù)據(jù)庫(kù)的聚合分析能力或者外部框架,如Spark來(lái)完成轉(zhuǎn)換的步驟。

      2. ETL和ELT的區(qū)別

      ETL和ELT主要是先清洗數(shù)據(jù)還是先入庫(kù)的區(qū)別。ETL一般使用主流框架用程序在提取的時(shí)候就將數(shù)據(jù)進(jìn)行清洗,ELT則是將數(shù)據(jù)存到數(shù)據(jù)倉(cāng)庫(kù),再用sql進(jìn)行數(shù)據(jù)清洗。

      未來(lái)使用ELT作為數(shù)據(jù)集成架構(gòu)的會(huì)越來(lái)越多,有以下好處:

      • 使用 ELT 方法,在提取完成之后,數(shù)據(jù)加載會(huì)立即開(kāi)始。一方面更省時(shí),另一方面 ELT 允許 BI 分析人員無(wú)限制地訪問(wèn)整個(gè)原始數(shù)據(jù),為分析師提供了更大的靈活性,使之能更好地支持業(yè)務(wù)。

      • 在 ELT 架構(gòu)中,數(shù)據(jù)變換這個(gè)過(guò)程根據(jù)后續(xù)使用的情況,需要在 SQL 中進(jìn)行,而不是在加載階段進(jìn)行。這樣做的好處是你可以從數(shù)據(jù)源中提取數(shù)據(jù),經(jīng)過(guò)少量預(yù)處理后進(jìn)行加載。這樣的架構(gòu)更簡(jiǎn)單,使分析人員更好地了解原始數(shù)據(jù)的變換過(guò)程。

      什么是數(shù)據(jù)變換

      數(shù)據(jù)變換是數(shù)據(jù)準(zhǔn)備的重要環(huán)節(jié),通過(guò)數(shù)據(jù)平滑、數(shù)據(jù)聚集、數(shù)據(jù)概化和規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。

      1. 數(shù)據(jù)平滑

      去除數(shù)據(jù)中的噪聲,將連續(xù)數(shù)據(jù)離散化

      2. 數(shù)據(jù)聚集

      對(duì)數(shù)據(jù)進(jìn)行匯總,例如Sum、Max、Mean等

      3. 數(shù)據(jù)概化

      將數(shù)據(jù)由較低的概念抽象成較高的概念,如北上廣深圳概化為中國(guó)。

      4. 數(shù)據(jù)規(guī)范化

      合屬性數(shù)據(jù)按比例縮放,將原來(lái)的數(shù)值映射到新的特定區(qū)域中。

      • min-max規(guī)范化:將原始數(shù)據(jù)變化到[0, 1]的空間中,公式為:新數(shù)值=(原數(shù)值-極小值) / (極大值-極小值),對(duì)應(yīng)的有SciKit-Learn的preprocessing.MinMaxScaler函數(shù)

      • z-score規(guī)范化:可以用相同的標(biāo)準(zhǔn)比較不同規(guī)格的成績(jī)。公式為:新數(shù)值=(原數(shù)值-均值) / 標(biāo)準(zhǔn)差。對(duì)應(yīng)的有SciKit-Learn的preprocessing.scale函數(shù),求出每行每列的值減去了平均值,再除以方差的結(jié)果,使得數(shù)值都符合均值為0,方差為1的正態(tài)分布

      • 小數(shù)定標(biāo)規(guī)范:通過(guò)移動(dòng)小數(shù)點(diǎn)的位置來(lái)進(jìn)行規(guī)范化

      5. 屬性構(gòu)造

      構(gòu)造出新的屬性并添加到屬性集中。

      什么是方差、標(biāo)準(zhǔn)差

      • 方差和標(biāo)準(zhǔn)差是測(cè)算離散趨勢(shì)最重要、最常用的指標(biāo)

      • 標(biāo)準(zhǔn)差是方差的平方根

      • 一個(gè)較大的標(biāo)準(zhǔn)差,代表大部分?jǐn)?shù)值和其平均值之間差異較大;一個(gè)較小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。

      • 由于方差是數(shù)據(jù)的平方,與檢測(cè)值本身相差太大,人們難以直觀的衡量,所以常用方差開(kāi)根號(hào)換算回來(lái)這就是我們要說(shuō)的標(biāo)準(zhǔn)差。

      End.

      作者:雪山飛豬

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多