什么是商業(yè)智能 BI:Business Intelegence,商業(yè)智能,基于數(shù)據(jù)倉(cāng)庫(kù),經(jīng)過(guò)數(shù)據(jù)挖掘后,得到了商業(yè)價(jià)值的過(guò)程。例如利用數(shù)據(jù)預(yù)測(cè)用戶購(gòu)物行為屬性商業(yè)智能什么是數(shù)據(jù)倉(cāng)庫(kù) DW:Data Warehouse,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)庫(kù)的升級(jí)概念,一般量更龐大,將多個(gè)數(shù)據(jù)來(lái)源的數(shù)據(jù)進(jìn)行匯總、整理而來(lái) 什么是數(shù)據(jù)挖掘 DM:Data Mining,數(shù)據(jù)挖掘 數(shù)據(jù)挖掘流程:Knowledge Discovery in Database,也叫數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),簡(jiǎn)稱KDD KDD流程:輸入數(shù)據(jù)->數(shù)據(jù)預(yù)處理->數(shù)據(jù)挖掘->后處理->信息
1. 數(shù)據(jù)挖掘的核心
2. 數(shù)據(jù)挖掘的基本流程
數(shù)據(jù)挖掘的數(shù)學(xué)基礎(chǔ)
數(shù)據(jù)挖掘的十大算法 1. 分類
2. 聚類
3. 關(guān)聯(lián)分析 Apriori:挖掘關(guān)聯(lián)規(guī)則的算法,通過(guò)挖掘頻繁項(xiàng)集揭示物品之間的關(guān)聯(lián)關(guān)系 4. 連接分析 PageRank:起源于論文影響力的計(jì)算方式,如果一篇文論被引入的次數(shù)越多,就代表這篇論文的影響力越強(qiáng),Google將其用于計(jì)算網(wǎng)頁(yè)權(quán)重 什么是數(shù)據(jù)可視化 數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達(dá)與溝通信息,讓我們直觀了解數(shù)據(jù)分析的結(jié)果 數(shù)據(jù)可視化工具: 1. python庫(kù) Matplotlib Seaborn Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等 2. 商業(yè)智能軟件 Tableau PowerBI 3. 可視化大屏 大屏作為一種視覺(jué)效果強(qiáng)、科技感強(qiáng)的技術(shù),被企業(yè)老板所青睞,可以很好地展示公司的數(shù)據(jù)化能力 4. 前端可視化組件 可視化組件都是基于 Web 渲染的技術(shù)的 Web 渲染技術(shù):Canvas(位圖)、SVG (失量圖)和 WebGL(3D繪圖) 什么是用戶畫(huà)像 簡(jiǎn)單的說(shuō),用戶畫(huà)像就是標(biāo)簽的匯總,用戶畫(huà)像是現(xiàn)實(shí)世界中的用戶的數(shù)學(xué)建模,將海量數(shù)據(jù)進(jìn)行標(biāo)簽化,來(lái)復(fù)以更精準(zhǔn)的用戶畫(huà)像,用戶標(biāo)簽?zāi)墚a(chǎn)生的業(yè)務(wù)價(jià)值
1. 用戶標(biāo)簽4個(gè)緯度
2. 數(shù)據(jù)處理的3個(gè)階段
什么是埋點(diǎn) 在需要的位置采集相應(yīng)的信息,進(jìn)行上報(bào)。比如用戶信息、設(shè)備信息、操作行為數(shù)據(jù),埋點(diǎn)一般是在需要統(tǒng)計(jì)數(shù)據(jù)的地方植入統(tǒng)計(jì)代碼。 數(shù)據(jù)采集都有哪些方式
什么是數(shù)據(jù)清洗 數(shù)據(jù)清洗是去除重復(fù)數(shù)據(jù)、干擾數(shù)據(jù)及填充缺失值。 數(shù)據(jù)清洗的4個(gè)關(guān)鍵點(diǎn)(完全合一):
什么是數(shù)據(jù)集成 數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源合并存放在一個(gè)數(shù)據(jù)存儲(chǔ)中(如數(shù)據(jù)倉(cāng)庫(kù)) 大數(shù)據(jù)項(xiàng)目中80%的工作都和數(shù)據(jù)集成有關(guān)。
1. 數(shù)據(jù)集成的兩種架構(gòu)
2. ETL和ELT的區(qū)別 ETL和ELT主要是先清洗數(shù)據(jù)還是先入庫(kù)的區(qū)別。ETL一般使用主流框架用程序在提取的時(shí)候就將數(shù)據(jù)進(jìn)行清洗,ELT則是將數(shù)據(jù)存到數(shù)據(jù)倉(cāng)庫(kù),再用sql進(jìn)行數(shù)據(jù)清洗。 未來(lái)使用ELT作為數(shù)據(jù)集成架構(gòu)的會(huì)越來(lái)越多,有以下好處:
什么是數(shù)據(jù)變換 數(shù)據(jù)變換是數(shù)據(jù)準(zhǔn)備的重要環(huán)節(jié),通過(guò)數(shù)據(jù)平滑、數(shù)據(jù)聚集、數(shù)據(jù)概化和規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。 1. 數(shù)據(jù)平滑 去除數(shù)據(jù)中的噪聲,將連續(xù)數(shù)據(jù)離散化 2. 數(shù)據(jù)聚集 對(duì)數(shù)據(jù)進(jìn)行匯總,例如Sum、Max、Mean等 3. 數(shù)據(jù)概化 將數(shù)據(jù)由較低的概念抽象成較高的概念,如北上廣深圳概化為中國(guó)。 4. 數(shù)據(jù)規(guī)范化 合屬性數(shù)據(jù)按比例縮放,將原來(lái)的數(shù)值映射到新的特定區(qū)域中。
5. 屬性構(gòu)造 構(gòu)造出新的屬性并添加到屬性集中。 什么是方差、標(biāo)準(zhǔn)差
作者:雪山飛豬 |
|
來(lái)自: F2967527 > 《數(shù)據(jù)分析》