CDA字幕組 編譯整理 本文為 CDA 數(shù)據(jù)分析師原創(chuàng)作品,轉(zhuǎn)載需授權(quán) 數(shù)據(jù)科學(xué)家是21世紀(jì)最性感的職業(yè),在本文中我們將解答如何找一份適合自己的數(shù)據(jù)科學(xué)工作。 在上一篇給大家?guī)砹薍ackerEarth的主題演講如何成為一名數(shù)據(jù)科學(xué)家之學(xué)習(xí)篇。在這里我們帶來了面試篇。 在本篇中Jesse steinweg - woods主要圍繞了以下問題: · 如何獲得面試機(jī)會(huì) · 面試中的小技巧 · 關(guān)于數(shù)據(jù)科學(xué)的常見誤區(qū) · 觀眾提問 關(guān)于主講人 Jesse steinweg - woods是Tronc的一名資深數(shù)據(jù)科學(xué)家,主攻文章的推薦系統(tǒng)和理解客戶行為。此前,他在Argo Group Insurance工作,主要利用機(jī)器學(xué)習(xí)技術(shù)采用了新的定價(jià)模型。他在德克薩斯A&M大學(xué)獲得了大氣科學(xué)博士學(xué)位,他的研究領(lǐng)域是數(shù)值天氣和氣候預(yù)測(cè)。 CDA字幕組該講座視頻進(jìn)行了漢化,附有中文字幕的視頻如下: 針對(duì)不方面開視頻的小伙伴,CDA字幕組也貼心的整理了文字版本如下: (文末有彩蛋! ) 關(guān)于面試 首先你需要弄清楚,我該怎么獲得面試機(jī)會(huì)。當(dāng)中的最好辦法就是進(jìn)行數(shù)據(jù)科學(xué)。 Pet Project 看書是一回事,但實(shí)際上手操作就是另一回事了。因?yàn)槟銜?huì)遇到問題和障礙,你需要學(xué)習(xí)新的東西,需要改變你的假設(shè)并提出新的問題。這是一個(gè)非常反復(fù)的過程,但是不錯(cuò)的練習(xí)。 Monaca Rogati對(duì)數(shù)據(jù)科學(xué)有很多感觸,她是LinkedIn的一名出色的大數(shù)據(jù)科學(xué)家。她對(duì)這個(gè)問題的解答我很贊同。 進(jìn)行一個(gè)你感興趣的項(xiàng)目,用心的完成并分享它。 當(dāng)我找工作時(shí),我也試著這么做了。因?yàn)檫@向他人證明,你真的對(duì)數(shù)據(jù)科學(xué)家感興趣。你愿意用自己的時(shí)間,按自己的節(jié)奏做這個(gè)項(xiàng)目,而不是為了完成課程任務(wù)。這能夠讓你練習(xí)如何與他人溝通,如何回答問題。 我做過以下項(xiàng)目: 對(duì)Indeed中的關(guān)鍵數(shù)據(jù)科學(xué)工作技能進(jìn)行web搜索 因此我必須弄清楚如何進(jìn)行web搜索,這是我之前不知道的。但對(duì)于數(shù)據(jù)科學(xué)家來說這是非常有用的工具。對(duì)我而言這是一個(gè)非常有價(jià)值的學(xué)習(xí)過程,我可以記錄我的工作、分享我的成果。 實(shí)際上當(dāng)這篇文章發(fā)布在我的網(wǎng)站上時(shí),在24小時(shí)內(nèi)點(diǎn)擊量達(dá)6500。而且Indeed也對(duì)我這篇文章有興趣,并聯(lián)系我進(jìn)行面試。事實(shí)上這是我第一個(gè)數(shù)據(jù)科學(xué)面試就是與Indeed。當(dāng)時(shí)我不太了解數(shù)據(jù)科學(xué)的面試過程,所以做的不是很好,但是是寶貴的學(xué)習(xí)體驗(yàn)。 關(guān)于Kaggle 很多人認(rèn)為練習(xí)數(shù)據(jù)科學(xué)的好方法之一是參加kaggle比賽。一定程度上我是同意的。 但那是針對(duì)機(jī)器學(xué)習(xí),這并不包括全部的數(shù)據(jù)科學(xué)。這是數(shù)據(jù)科學(xué)非常小的一部分。 Kaggle忽略了一些問題,比如問合適的提問。以及如何回答問題,開發(fā)模型時(shí)你想使用什么數(shù)據(jù)源。以及優(yōu)化時(shí)你需要哪些指標(biāo),參與到數(shù)據(jù)集所包含的步驟等等。 首先在現(xiàn)實(shí)中數(shù)據(jù)并不是像Kaggle中那樣干凈整潔。你需要做大量的工作。 我會(huì)在kaggle上關(guān)注一些機(jī)器學(xué)習(xí)相關(guān)的實(shí)踐,他們使用了很多很棒的工具。但僅僅做kaggle很不夠,我認(rèn)為pet project能夠讓你進(jìn)步更多。 而且這些kaggle比賽非常耗時(shí),你可能不會(huì)與經(jīng)驗(yàn)豐富并且有充分時(shí)間,在比賽中求勝心切的人競(jìng)爭(zhēng)。因此存在一定風(fēng)險(xiǎn)。 如果你成為出色的kaggler會(huì)獲得公司的關(guān)注,但不像pet project那樣保險(xiǎn),因此建議進(jìn)行pet project。 找什么工作 這是很難的,而且變得更加困難。 因?yàn)橛袝r(shí)公司自己也不明白究竟數(shù)據(jù)科學(xué)是什么。 udacity的圖說明了一定問題。當(dāng)看到工作招聘時(shí),一般都?xì)w結(jié)于這四個(gè)類別。 你可以看到工作類型所需要的技能。因此你需要自己決定,你對(duì)什么樣的工作感興趣,哪些技能符合這項(xiàng)工作。 例如,數(shù)據(jù)科學(xué)家是住在舊金山的數(shù)據(jù)分析師??梢钥吹杰浖こ滩皇呛苤匾?,統(tǒng)計(jì)數(shù)據(jù)有些重要的,但最重要的是數(shù)據(jù)可視化和溝通。 對(duì)我來說這只是數(shù)據(jù)分析的工作,而不是數(shù)據(jù)科學(xué)家的工作。數(shù)據(jù)分析師的工作往往更專注于可視化和溝通。比起數(shù)據(jù)科學(xué)家,這可能是更類似數(shù)據(jù)工程師的職位。因?yàn)檫@更注重?cái)?shù)據(jù)再加工,更側(cè)重軟件工程,他們更關(guān)注構(gòu)建管道。 許多創(chuàng)業(yè)公司會(huì)說,他們需要數(shù)據(jù)科學(xué)家。但之后問他們“你們希望數(shù)據(jù)科學(xué)家做些什么?”他們會(huì)說:“我們還沒有很好的數(shù)據(jù)。我們需要有人建立獲取數(shù)據(jù)的管道。并以容易訪問的形式存儲(chǔ)該數(shù)據(jù),確保該進(jìn)程順利運(yùn)行”。但是這是數(shù)據(jù)工程師所做的,他們要求的是兩碼事。 應(yīng)聘初創(chuàng)公司的數(shù)據(jù)科學(xué)職位時(shí),確保他們真的知道他們想要什么。 我們是數(shù)據(jù),數(shù)據(jù)是我們。指時(shí)刻都需要使用數(shù)據(jù)的公司。比如Facebook Netflix以及亞馬遜。他們需要數(shù)據(jù)科學(xué)家,更專注于生產(chǎn)產(chǎn)品。 我不同意這個(gè)圖表中說的軟件工程并不重要,我認(rèn)為這非常重要。 最后是具有一定規(guī)模,由數(shù)據(jù)驅(qū)動(dòng)的非數(shù)據(jù)公司。這些公司更多的雇用這種數(shù)據(jù)科學(xué)家,能夠解答困難的問題,這些技能能具有應(yīng)用性。 調(diào)查團(tuán)隊(duì) 團(tuán)隊(duì)傾向于雇傭類似他們的人。 這實(shí)際上我的團(tuán)隊(duì)也是如此。我的團(tuán)隊(duì)有三個(gè)人,都為博士學(xué)歷,都從事物理領(lǐng)域。我的情況是應(yīng)用物理或者應(yīng)用數(shù)學(xué)。我們?nèi)齻€(gè)人均使用Python,因此我和我的團(tuán)隊(duì)很合拍。 人們往往有一些招聘上的傾向。團(tuán)隊(duì)中如果沒有博士,那么他們不會(huì)招博士生。如果團(tuán)隊(duì)中每個(gè)人都有博士學(xué)歷,那么你很可能也需要。 他們是否大多是計(jì)算機(jī)科學(xué)家,是否大多數(shù)是物理科學(xué)家,是否大多數(shù)是社會(huì)科學(xué)家,他們傾向于使用Python還是其他語言。 因此我會(huì)調(diào)查可能一起工作的團(tuán)隊(duì)成員的情況,然后判斷自己是否適合這個(gè)團(tuán)隊(duì)。我希望在招聘中有時(shí)能夠更多樣性,但事實(shí)就是這樣。 聯(lián)系團(tuán)隊(duì)負(fù)責(zé)人 還有方法是去聯(lián)系團(tuán)隊(duì)的主管。試著在LinkedIn或什么地方找到郵件地址,去聯(lián)系他們。介紹你自己,表達(dá)你的興趣,展現(xiàn)自己做的pet project。這能夠讓你的簡(jiǎn)歷脫穎而出,這并不總奏效,但有一定幫助。 參加活動(dòng) 參加聚會(huì)活動(dòng)在美國(guó)很重要。在這里你可以與其他數(shù)據(jù)科學(xué)家交流。這能在找工作上有所幫助,你可以學(xué)習(xí)新的東西。因此我建議你參加,能夠幫助你建立人脈和幫助工作。 大量的面試 找到合適的工作需要時(shí)間。 因?yàn)樗新毼?,所有的公司可能略微不同。公司的要求和團(tuán)隊(duì)組成可能略微不同。因此這需要很多時(shí)間。 這是一個(gè)耗時(shí)的過程,你必須保持耐心。 面試技巧 這些是我整理的基本面試技巧,有五個(gè)關(guān)鍵問題。 回家完成的機(jī)器學(xué)習(xí)任務(wù) 給你數(shù)據(jù)集,你必須進(jìn)行調(diào)查并解答問題。構(gòu)建機(jī)器學(xué)習(xí)模型,然后提交結(jié)果。 白板編程 在白板或者協(xié)作屏幕前回答問題。這與軟件工程面試有所不同,比起其他內(nèi)容我會(huì)更專注數(shù)據(jù)結(jié)構(gòu)和規(guī)律。 白板SQL 檢測(cè)你是否會(huì)使用SQL進(jìn)行查詢,如果你曾練習(xí)過就不會(huì)太難。 貝葉斯定理概率問題 有時(shí)會(huì)有這些問題,你只需要熟悉貝葉斯法則。 機(jī)器學(xué)習(xí)估值指標(biāo) 這很重要,因?yàn)槿绻悴恢涝趺凑_的操作,你就不會(huì)知道你的模型的實(shí)際效果,并可能導(dǎo)致很多問題。 額外的技巧 回家完成的機(jī)器學(xué)習(xí)問題 我會(huì)關(guān)注樹狀模型方法,即隨機(jī)森林或者梯度提升決策樹。你不會(huì)有很多的時(shí)間完成,比如在12點(diǎn)發(fā)給你,你必須在4點(diǎn)前完成。你不會(huì)有許多時(shí)間來測(cè)試大量不同的模型,以及準(zhǔn)備數(shù)據(jù)。 白板編程 類似軟件工程面試,但更注重?cái)?shù)據(jù)結(jié)構(gòu)和算法。這里有一些可參考的資源:書《破解編程面試手冊(cè)》;網(wǎng)站 interview cake hacker rank;projecteuler也是不錯(cuò)的選擇。 白板SQL 如果你常用SQL,這些很簡(jiǎn)單。SQL Zoo很適合進(jìn)行練習(xí),在上面進(jìn)行一些實(shí)際練習(xí),你就沒問題了。 貝葉斯定理 需要記住公式。在Glassdoor上有一些有幫助的樣本問題。比如得癌癥或者下雨的概率。好好研究這個(gè)公式并多練習(xí)。 機(jī)器學(xué)習(xí)估值指標(biāo) 這是特征曲線(ROC curve)的例子。掌握它的含義,怎么做交叉驗(yàn)證。充分理解這些概念。 暫時(shí)不需要關(guān)注的問題 深度學(xué)習(xí) 很多人認(rèn)為你馬上需要掌握深度學(xué)習(xí),但你并不需要。除非你工作的公司需要處理大量圖片、聲音信息。 Spark和Hadoop 人們喜歡談?wù)撨@個(gè),這有些夸張了,遺憾的是現(xiàn)在很多公司并沒有必要的規(guī)模。一些公司例外。 推薦系統(tǒng) 這是我在工作中將用到的。大多數(shù)公司其實(shí)并不需要這個(gè)。因此你只需要了解這是什么,并不需要知道如何從頭構(gòu)建。 高級(jí)自然語言處理 你不需要詳細(xì)的掌握,但要掌握基本知識(shí)。因此你能夠使用文本數(shù)據(jù),構(gòu)建簡(jiǎn)單的模型。這基本上是你第一份工作中所需要的。 關(guān)于數(shù)據(jù)科學(xué)的誤區(qū) 下面我想談?wù)勱P(guān)于數(shù)據(jù)科學(xué)的常見誤區(qū)。 誤區(qū)一 數(shù)據(jù)科學(xué)是對(duì)模型進(jìn)行微調(diào)以盡量達(dá)到最佳性能。 在kaggle上也許如此?,F(xiàn)實(shí)的情況是絕大多數(shù)情況下,你會(huì)花大部分的時(shí)間清洗、合并數(shù)據(jù)集。你基本上就像一個(gè)數(shù)據(jù)清潔工。 這是非常重要的一步。如果你要生成模型,當(dāng)中若有大量缺失、混亂的值,你的模型不會(huì)良好的運(yùn)行。所以該步驟很重要,不要小看它。這也會(huì)成為你工作的很大一部分。如果你不喜歡這個(gè)過程,那么數(shù)據(jù)科學(xué)可能不適合你。但之后得到回報(bào)是完全值得的。 誤區(qū)二 大數(shù)據(jù)無處不在,需要使用Hadoop和Spark來解決每個(gè)問題。 上周的一篇報(bào)告表明,Hadoop的熱度開始下降。因?yàn)楹芏喙鹃_始意識(shí)到他們并不需要Hadoop,大多數(shù)問題其實(shí)是可以用單一的機(jī)器處理。 一開始許多公司公司看到Hadoop和Spark這種高大上的工具覺得“天啊,我們需要用這個(gè)工具?!钡谑聦?shí)中他們實(shí)際上沒有那么多的數(shù)據(jù)。 這可能會(huì)隨時(shí)間而改變,但是我現(xiàn)在想說的是,一開始你可以并不需要使用Hadoop和Spark處理問題。但也存在例外。 誤區(qū)三 深度學(xué)習(xí)能解決一切問題,其他方法都是過時(shí)的,沒必要使用其他方法。 現(xiàn)實(shí)是,也許你并不需要它。除非你需要處理圖像,提高性能等。 比如對(duì)許多圖片進(jìn)行分類。如果你在一家服裝公司工作,你想讓計(jì)算機(jī)自動(dòng)識(shí)別這是紅色裙子,或?qū)儆谀硞€(gè)品牌之類的,那么深度學(xué)習(xí)對(duì)你是很有幫助的。 但如果是處理流失模型,或者試圖了解客戶如何與某種數(shù)據(jù)的互動(dòng),并沒有涉及圖像。深度學(xué)習(xí)不會(huì)是你的解決方案。因此你可以暫時(shí)避免學(xué)習(xí)太多深度學(xué)習(xí)的內(nèi)容 觀眾提問 問題1 一名大學(xué)生小白該如何成為數(shù)據(jù)科學(xué)家?可以做些什么項(xiàng)目?應(yīng)該關(guān)注什么技能?該如何找工作? 這些我之前講的基本都囊括了,要補(bǔ)充的一點(diǎn)是找一份實(shí)習(xí)工作。 我認(rèn)為實(shí)習(xí)真的很重要,無需過多的強(qiáng)調(diào)。試著找找科學(xué)數(shù)據(jù)或者數(shù)據(jù)分析的實(shí)習(xí),工作經(jīng)驗(yàn)真的很重要。實(shí)習(xí)結(jié)束的時(shí)候,你會(huì)有收獲的實(shí)習(xí)經(jīng)驗(yàn)。這會(huì)讓你找工作更加容易。 問題2 一個(gè)有其他領(lǐng)域經(jīng)驗(yàn)的人如何進(jìn)行轉(zhuǎn)行到數(shù)據(jù)科學(xué)?例如有三年的Java經(jīng)驗(yàn),現(xiàn)在想成為數(shù)據(jù)科學(xué)家;或者掌握Hive、Pig、Flume、Hadoop。 聽起來這個(gè)人有軟件工程或數(shù)據(jù)工程師背景。我認(rèn)為有編程經(jīng)驗(yàn)很好。但還需要學(xué)習(xí)很多關(guān)于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)知識(shí)。 kaggle是不錯(cuò)的開始。你已經(jīng)有很多技能了,但是你需要補(bǔ)充一些空白。比如數(shù)學(xué)、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)以及可視化。 同時(shí)掌握如何解決問題,溝通同樣也很重要。 當(dāng)剛成為數(shù)據(jù)科學(xué)家時(shí),我低估了溝通的重要性。這很重要,你需要跟很多不同的利益相關(guān)者溝通。 問題3 機(jī)器學(xué)習(xí)工程師與數(shù)據(jù)科學(xué)家有什么區(qū)別? 有點(diǎn)難說,因?yàn)閿?shù)據(jù)科學(xué)家是一個(gè)總稱詞?;旧匣旌狭私y(tǒng)計(jì)、計(jì)算機(jī)科學(xué)以及數(shù)學(xué)。機(jī)器學(xué)習(xí)工程師絕對(duì)包含在內(nèi)。 但我覺得機(jī)器學(xué)習(xí)工程師更注重把成果做出產(chǎn)品,他們就不太專注于回答商業(yè)中的問題,他們不太關(guān)注探索性數(shù)據(jù)分析,不太關(guān)注銷量指標(biāo)。他們更專注于做出產(chǎn)品。例如推薦系統(tǒng)或?yàn)橛脩暨M(jìn)行圖像分類等。 問題4 統(tǒng)計(jì)學(xué)家與數(shù)據(jù)科學(xué)家有什么區(qū)別? 是一個(gè)棘手的問題,存在很多爭(zhēng)論。 我得出的結(jié)論是:統(tǒng)計(jì)學(xué)家往往不具備太多的編程經(jīng)驗(yàn),他們更專注于推理,得出結(jié)論,理解不確定性,置信區(qū)間之類的問題。 而在數(shù)據(jù)科學(xué)家更專注于進(jìn)行預(yù)測(cè),構(gòu)建能夠自動(dòng)完成上述內(nèi)容的產(chǎn)品。因此兩者的關(guān)注點(diǎn)不太相同。 問題5 數(shù)據(jù)工程師與數(shù)據(jù)科學(xué)家有什么區(qū)別? 可以把數(shù)據(jù)工程師理解為是管道工。他們復(fù)雜建管道,如果你要建一個(gè)噴泉。你需要人建管道,把水從水源一直運(yùn)到噴泉。 數(shù)據(jù)科學(xué)家再從那里接手,他們處理水如何從管道出來,噴泉的外形,會(huì)定期噴水還是有好的噴水效果等等。 工程師關(guān)注于數(shù)據(jù)的骨干結(jié)構(gòu),數(shù)據(jù)是如何被處理的。 數(shù)據(jù)科學(xué)家對(duì)數(shù)據(jù)做些有意思的事情。比如初始化 生成模型、生成產(chǎn)品、推薦系統(tǒng)等等。但沒有工程師的幫助無法完成這些。 問題6 數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)的關(guān)系是什么? 我認(rèn)為機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)家的工具箱中的一個(gè)重要工具,但不是唯一的。 許多數(shù)據(jù)科學(xué)工作側(cè)重于預(yù)測(cè),但一些數(shù)據(jù)科學(xué)的工作更側(cè)重于推理。這僅取決于你對(duì)數(shù)據(jù)科學(xué)的個(gè)人定義,以及你被要求做的工作。我認(rèn)為這是數(shù)據(jù)科學(xué)的重要組成部分,但不是全部。 問題7 目前行業(yè)中最通用的機(jī)器學(xué)習(xí)算法是什么? 在Kaggle能夠很好的理解這點(diǎn),因?yàn)樗惴ㄍS著時(shí)間而改變。以前最流行的算法是隨機(jī)森林,然后出現(xiàn)了Adaboost等等。接著有了一些計(jì)算的進(jìn)步以及如何應(yīng)用到深度學(xué)習(xí)中。如今深度學(xué)習(xí)變得更受歡迎。 但主要取決于問題,我不會(huì)太關(guān)注與使用什么算法。首先應(yīng)該理解你需要解決的問題,你可以之后再關(guān)注模型。因?yàn)闇y(cè)試各種不同的模型,看看它們的性能,然后選擇最佳的這樣更容易。 問題8 數(shù)據(jù)科學(xué)家的工作的前景怎么樣?五到十年之后還會(huì)存在嗎?或者被自動(dòng)化? 這取決于你作為數(shù)據(jù)科學(xué)家在從事的工作內(nèi)容。 如果你進(jìn)行非?;镜臄?shù)據(jù)調(diào)查,處理并不是很復(fù)雜查詢。如果你只是在做業(yè)務(wù)報(bào)告 這很可能很容易被自動(dòng)化。 但如果你真正在分析公司的問題,設(shè)計(jì)的機(jī)器學(xué)習(xí)模型,或其他專門針對(duì)客戶、公司需求的產(chǎn)品。那么是很難被自動(dòng)化的。 |
|