一、總則CDA(Certified Data Analyst),即“CDA數(shù)據(jù)分析師”,是在數(shù)字經(jīng)濟(jì)大背景和人工智能時(shí)代趨勢(shì)下,面向全行業(yè)的專業(yè)權(quán)威國(guó)際資格認(rèn)證,旨在提升全球用戶數(shù)字技能,助力企業(yè)數(shù)字化轉(zhuǎn)型,推動(dòng)行業(yè)數(shù)字化發(fā)展。「CDA人才考核標(biāo)準(zhǔn)」是面向全行業(yè)數(shù)據(jù)相關(guān)崗位的一套科學(xué)化、專業(yè)化、國(guó)際化的人才技能準(zhǔn)則,CDA考試大綱規(guī)定并明確了數(shù)據(jù)分析師認(rèn)證考試的具體范圍、內(nèi)容和知識(shí)點(diǎn),考生可按照大綱要求進(jìn)行相關(guān)知識(shí)的學(xué)習(xí),獲取技能,成為專業(yè)人才。 二、考試形式與試卷結(jié)構(gòu)考試方式:一年四屆 (3、6、9、12月的最后一個(gè)周六),線下統(tǒng)考,上機(jī)答題。 考試題型:客觀選擇題(單選60題+多選30題+內(nèi)容相關(guān)10題) 案例實(shí)操題(1題) 考試時(shí)間:90分鐘(客觀選擇題),120分鐘(案例實(shí)操題),共210分鐘 考試成績(jī):分為A、B、C、D四個(gè)層次,A、B、C為通過(guò)考試,D為不通過(guò) 考試要求:客觀選擇題為閉卷上機(jī)答題,無(wú)需攜帶計(jì)算器及其他考試無(wú)關(guān)用品。 案例實(shí)操題考生須自行攜帶電腦操作(安裝好帶有數(shù)據(jù)挖掘功能的軟件如:PYTHON、SQL、SPSS 三、知識(shí)要求針對(duì)不同知識(shí),掌握程度的要求分為【領(lǐng)會(huì)】、【熟知】、【應(yīng)用】三個(gè)級(jí)別,考生應(yīng)按照不同知識(shí)要求進(jìn)行學(xué)習(xí)。 1.領(lǐng)會(huì):考生能夠了解規(guī)定的知識(shí)點(diǎn),并能夠了解規(guī)定知識(shí)點(diǎn)的內(nèi)涵與外延,了解其內(nèi)容要點(diǎn)之間的區(qū)別與聯(lián)系,并能做出正確的闡述、解釋和說(shuō)明。 2.熟知:考生須掌握知識(shí)的要點(diǎn),并能夠正確理解和記憶相關(guān)理論方法,能夠根據(jù)不同要求,做出邏輯嚴(yán)密的解釋、說(shuō)明和闡述。此部分為考試的重點(diǎn)部分。 3.應(yīng)用:考生須學(xué)會(huì)將知識(shí)點(diǎn)落地實(shí)踐,并能夠結(jié)合相關(guān)工具進(jìn)行商業(yè)應(yīng)用,能夠根據(jù)具體要求,給出問(wèn)題的具體實(shí)施流程和策略。 四、考試科目PART 1 數(shù)據(jù)挖掘概論(占比15%)a.數(shù)據(jù)挖掘概要(3%) b.數(shù)據(jù)挖掘方法論(3%) c.基礎(chǔ)數(shù)據(jù)挖掘技術(shù)(4%) d.進(jìn)階數(shù)據(jù)挖掘技術(shù)(5%) PART 2 高級(jí)數(shù)據(jù)處理與特征工程(占比25%)a.高級(jí)數(shù)據(jù)處理(5%) b.特征工程概要(2%) c.特征建構(gòu)(3%) d.特征選擇(5%) e.特征轉(zhuǎn)換(5%) f.特征學(xué)習(xí)(5%) PART 3 自然語(yǔ)言處理與文本分析(占比20%)a.自然語(yǔ)言處理概要(占比2%) b.分詞與詞性標(biāo)注(占比4%) c.文本挖掘概要(占比2%) d.關(guān)鍵詞提取(占比4%) e.文本非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)(占比8%) PART 4 機(jī)器學(xué)習(xí)算法(占比40%)a.樸素貝葉斯(4%) b.決策樹(shù)(分類樹(shù)及回歸樹(shù))(5%) c.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)(5%) d.支持向量機(jī)(4%) e.集成方法(5%) f.聚類分析(5%) g.關(guān)聯(lián)規(guī)則(4%) h.序列模式(3%) i.模型評(píng)估(5%) PART 5 機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(本部分內(nèi)容考查方式為案例實(shí)操,不計(jì)入客觀選擇題占比。) a.自動(dòng)機(jī)器學(xué)習(xí) b.類別不平衡問(wèn)題 c.半監(jiān)督學(xué)習(xí) d.模型優(yōu)化 五、科目?jī)?nèi)容PART 1 數(shù)據(jù)挖掘概論 1、數(shù)據(jù)挖掘概要【領(lǐng)會(huì)】數(shù)據(jù)挖掘在政府部門及互聯(lián)網(wǎng)、金融、零售、醫(yī)藥等行業(yè)的應(yīng)用 【熟知】數(shù)據(jù)挖掘的起源、定義及目標(biāo) 【應(yīng)用】根據(jù)給定的數(shù)據(jù)建立一個(gè)數(shù)據(jù)挖掘的項(xiàng)目 2、數(shù)據(jù)挖掘方法論【熟知】數(shù)據(jù)挖掘步驟(字段選擇、數(shù)據(jù)清洗、字段擴(kuò)充、數(shù)據(jù)編碼、數(shù)據(jù)挖掘、結(jié)果呈現(xiàn)) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘進(jìn)行不同文件格式的數(shù)據(jù)導(dǎo)入,并進(jìn)行初步的數(shù)據(jù)探索,探索的內(nèi)容包含數(shù)值型字段的描述性統(tǒng)計(jì)分析、直方圖(需與目標(biāo)字段做連接)、缺失值分析及類別型字段的描述性統(tǒng)計(jì)分析、條形圖(需與目標(biāo)字段做連接、缺失值分析。數(shù)據(jù)探索的結(jié)果可進(jìn)行初步的字段篩選。 3、基礎(chǔ)數(shù)據(jù)挖掘技術(shù)【領(lǐng)會(huì)】可視化技術(shù)(能使用相關(guān)工具根據(jù)業(yè)務(wù)問(wèn)題做出可視化數(shù)據(jù)報(bào)告) 【熟知】案例為本的學(xué)習(xí)(Case-based Learning):KNN(K-Nearest Neighbor)原理 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘中的KNN算法進(jìn)行分類預(yù)測(cè)、數(shù)字預(yù)測(cè)及內(nèi)容推薦。建模的過(guò)程需考慮將數(shù)據(jù)進(jìn)行適當(dāng)?shù)霓D(zhuǎn)換以獲得更優(yōu)的分析結(jié)果。 4、進(jìn)階數(shù)據(jù)挖掘技術(shù)【熟知】數(shù)據(jù)挖掘技術(shù)的功能分類 PART 2 高級(jí)數(shù)據(jù)處理與特征工程 1、高級(jí)數(shù)據(jù)預(yù)處理【領(lǐng)會(huì)】數(shù)據(jù)過(guò)濾(理解如何通過(guò)數(shù)據(jù)過(guò)濾的方式,建立區(qū)隔化模型,以提升模型的預(yù)測(cè)效果) 【熟知】缺失值的高級(jí)填補(bǔ)技術(shù),包括KNN填補(bǔ)、XGBoosting填補(bǔ) 【應(yīng)用】運(yùn)用高級(jí)數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行數(shù)據(jù)過(guò)濾,以建立區(qū)隔化模型 2、特征工程概要【領(lǐng)會(huì)】特征工程的重要性 【熟知】特征工程的涵蓋范圍 3、特征建構(gòu)【領(lǐng)會(huì)】特征建構(gòu)前的準(zhǔn)備 【熟知】類別型特征的編碼 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘?qū)μ卣鬟M(jìn)行適當(dāng)?shù)慕?gòu),以作為下階段特征選擇的輸入 4、特征選擇【熟知】無(wú)效變量(不相關(guān)變量、多余變量) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘進(jìn)行關(guān)鍵特征的選擇。同時(shí),評(píng)估不同的關(guān)鍵特征選擇方法對(duì)模型效能的影響。 5、特征轉(zhuǎn)換【領(lǐng)會(huì)】線性特征轉(zhuǎn)換-主成分分析(PCA) 【熟知】非線性的特征轉(zhuǎn)換-核主成分分析(Kernel PCA) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘進(jìn)行特征的轉(zhuǎn)換。同時(shí),評(píng)估不同的特征轉(zhuǎn)換方法對(duì)模型效能的影響。 6、特征學(xué)習(xí)【熟知】關(guān)聯(lián)規(guī)則為基礎(chǔ)的特征學(xué)習(xí) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘進(jìn)行自動(dòng)的特征學(xué)習(xí)。同時(shí),評(píng)估不同的特征學(xué)習(xí)方法對(duì)模型效能的影響。 PART 3 自然語(yǔ)言處理與文本分析 1、自然語(yǔ)言處理概要【領(lǐng)會(huì)】BOSON的中文語(yǔ)意平臺(tái) 【熟知】自然語(yǔ)言處理的研究范疇 【運(yùn)用】運(yùn)用BOSON的中文語(yǔ)意平臺(tái)進(jìn)行語(yǔ)言的處理 2、分詞與詞性標(biāo)注【領(lǐng)會(huì)】詞性的種類及意義 【熟知】N-Gram及詞 【運(yùn)用】運(yùn)用中文分詞及詞性標(biāo)注技術(shù)對(duì)多篇文章進(jìn)行分詞及詞性標(biāo)注 3、文本挖掘概要【領(lǐng)會(huì)】信息檢索技術(shù)之全文掃描 【熟知】文本挖掘的應(yīng)用 【應(yīng)用】將多篇文件及查詢轉(zhuǎn)為向量格式,并計(jì)算查詢與文件間的相似度。 4、關(guān)鍵詞提取【熟知】TF、DF及IDF 【應(yīng)用】對(duì)多篇文件及查詢中的詞,計(jì)算TF、DF、IDF及詞性并提取重要的關(guān)鍵詞。 5、文本非結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)【熟知】詞袋模型 【應(yīng)用】對(duì)多篇文件進(jìn)行詞嵌入模型的訓(xùn)練及使用。 PART 4 機(jī)器學(xué)習(xí)算法 1、樸素貝葉斯【熟知】樸素貝葉斯(獨(dú)立性假設(shè)、概率的正規(guī)化、拉普拉斯變換、空值的問(wèn)題) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘軟件建立樸素貝葉斯模型,解讀模型結(jié)果,并評(píng)估模型效能。 2、決策樹(shù)(分類樹(shù)及回歸樹(shù))【領(lǐng)會(huì)】PRISM決策規(guī)則算法 【熟知】ID3決策樹(shù)算法(ID3的字段選擇方式、如何使用決策樹(shù)來(lái)進(jìn)行分類預(yù)測(cè)、決策樹(shù)與決策規(guī)則間的關(guān)系、ID3算法的弊端) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘軟件建立分類樹(shù)模型,解讀模型結(jié)果,并評(píng)估模型效能。 3、神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)【領(lǐng)會(huì)】BP神經(jīng)網(wǎng)絡(luò)概述(理解神經(jīng)網(wǎng)絡(luò)的由來(lái)及發(fā)展歷程) 【熟知】感知機(jī)(Perceptron)及感知機(jī)的極限 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘軟件建立BP神經(jīng)網(wǎng)絡(luò)模型,解讀模型結(jié)果,并評(píng)估模型效能。 4、支持向量機(jī)【領(lǐng)會(huì)】支持向量機(jī)概述 【熟知】支持向量 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘軟件建立支持向量機(jī)模型,解讀模型結(jié)果,并評(píng)估模型效能。 5、集成方法【領(lǐng)會(huì)】集成方法概述 【熟知】抽樣技術(shù) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘軟件建立組合方法模型,解讀模型結(jié)果,并評(píng)估模型效能。 6、聚類分析【領(lǐng)會(huì)】聚類的概念 【熟知】相似性的衡量(二元變量的相似性衡量、混合類別型變量與數(shù)值型變量的相似性衡量) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘軟件建立聚類模型,解讀模型結(jié)果,并提供營(yíng)銷建議。 7、關(guān)聯(lián)規(guī)則【領(lǐng)會(huì)】關(guān)聯(lián)規(guī)則的概念 【熟知】關(guān)聯(lián)規(guī)則的評(píng)估指標(biāo)(支持度、置信度、提升度) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘軟件建立關(guān)聯(lián)規(guī)則模型,解讀模型結(jié)果,并提供營(yíng)銷建議。 8、序列模式【領(lǐng)會(huì)】序列模式的概念 【熟知】序列模式的評(píng)估指標(biāo)(支持度、置信度) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘軟件建立序列模式模型,解讀模型結(jié)果,并提供營(yíng)銷建議。 9、模型評(píng)估【熟知】混淆矩陣(正確率(Accuracy)、查準(zhǔn)率(Precision)、查全率(Recall)、F-指標(biāo)(F-Measure)) 【應(yīng)用】運(yùn)用數(shù)據(jù)挖掘軟件比較不同模型間的優(yōu)劣 PART 5 機(jī)器學(xué)習(xí)實(shí)戰(zhàn) 1、自動(dòng)機(jī)器學(xué)習(xí)【領(lǐng)會(huì)】自動(dòng)機(jī)器學(xué)習(xí)的基本概念 【熟知】自動(dòng)數(shù)據(jù)預(yù)處理的方法 【應(yīng)用】運(yùn)用自動(dòng)機(jī)器學(xué)習(xí)技術(shù),快速建立模型,解讀模型結(jié)果,并評(píng)估模型效能。 2、類別不平衡問(wèn)題【領(lǐng)會(huì)】不平衡數(shù)據(jù)定義 【熟知】類別不平衡問(wèn)題的檢測(cè)方法 【應(yīng)用】能運(yùn)用類別不平衡的處理技術(shù),提升模型的效能 3、半監(jiān)督學(xué)習(xí)【領(lǐng)會(huì)】監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)及半監(jiān)督學(xué)習(xí)間的關(guān)系 【熟知】半監(jiān)督學(xué)習(xí)的基本思路 【應(yīng)用】能運(yùn)用半監(jiān)督學(xué)習(xí),降低開(kāi)發(fā)決策模型的成本 4、模型優(yōu)化【領(lǐng)會(huì)】模型參數(shù)優(yōu)化的目的 【熟知】模型參數(shù)優(yōu)化的方法 【應(yīng)用】運(yùn)用模型參數(shù)優(yōu)化建立更精準(zhǔn)的數(shù)據(jù)挖掘模型 六、推薦學(xué)習(xí)書目說(shuō)明:推薦學(xué)習(xí)書目中,部分書籍結(jié)合軟件,考試中客觀選擇題部分不考查軟件操作使用,案例實(shí)操部分需要考生運(yùn)用相關(guān)軟件進(jìn)行建模分析,考生可根據(jù)自身需求選擇性學(xué)習(xí)。參考書目不需全部學(xué)完,根據(jù)考綱知識(shí)點(diǎn)進(jìn)行針對(duì)性學(xué)習(xí)即可。 [1] Jiawei Han, Micheline Kamber, Jian Pei.數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版)[M].范明,孟小峰 譯,機(jī)械工業(yè)出版社,2012.(必讀) |
|
來(lái)自: 農(nóng)夫的凳子 > 《大數(shù)據(jù)分析》