數(shù)據(jù)產(chǎn)品經(jīng)理的工作類型和能力要求

heii2 2017-01-15

展開全文

世界正在信息化，數(shù)據(jù)越來越多，基于數(shù)據(jù)開發(fā)的產(chǎn)品也越來越多，越來越多！

一般數(shù)據(jù)產(chǎn)品，都包括如下典型流程：

1.數(shù)據(jù)獲取

2.數(shù)據(jù)轉(zhuǎn)換

3.數(shù)據(jù)應用

數(shù)據(jù)產(chǎn)品經(jīng)理的工作，如果按上面的數(shù)據(jù)流程來看，主要包括三種類型的工作，不同的數(shù)據(jù)PM工作偏向不同（以下分類也不是嚴格劃分的）。

一.數(shù)據(jù)獲取、清洗

要做數(shù)據(jù)產(chǎn)品，首先要有數(shù)據(jù)，數(shù)據(jù)來源，大概有2種方式：別人給、自己找。

別人給，當然好，但是要么得掏錢，要么會有使用限制。

別人給的數(shù)據(jù)，數(shù)據(jù)質(zhì)量也可能會是問題，亂碼、缺字段是常有的事。

自己找，會比較麻煩，自己的系統(tǒng)，可以加碼、埋點，地圖的產(chǎn)品，會需要定期更新地圖。

數(shù)據(jù)不受自己掌控的話，看看能不能通過爬蟲抓?。ㄅ老x幫你圓大數(shù)據(jù)的夢），有很多基于爬蟲的數(shù)據(jù)分析產(chǎn)品，用戶分析、輿情分析、物價分析、量化投資等。

在數(shù)據(jù)獲取和清洗環(huán)節(jié)，數(shù)據(jù)PM需要：

1.會將業(yè)務需求進行解讀。

最終轉(zhuǎn)化成不同的數(shù)據(jù)需求，數(shù)據(jù)PM首先要確定這些數(shù)據(jù)如何獲取，確定最終的方案。

2.特別注意數(shù)據(jù)質(zhì)量和數(shù)據(jù)穩(wěn)定性。

上游數(shù)據(jù)質(zhì)量就差的話，下游的每個環(huán)節(jié)都要浪費很多時間來處理。

數(shù)據(jù)質(zhì)量可以靠校驗、對比，數(shù)據(jù)穩(wěn)定性可以靠監(jiān)控。

數(shù)據(jù)的上游，需要勇于懷疑數(shù)據(jù)的質(zhì)量，這是最容易出問題的環(huán)節(jié)，在這里，各種抽樣、枚舉、對比、假設，各種SQL、ES、Hive查詢，善于對數(shù)據(jù)做各種圖表分析。

要比用戶更早的發(fā)現(xiàn)問題，比工程師更快的排查問題原因。

3.評估數(shù)據(jù)的成本和收益。

數(shù)據(jù)是有成本的，量越大，質(zhì)量越高，成本越高。所以，要合理的設計數(shù)據(jù)獲取的策略：

走接口、FTP、還是硬盤郵寄；

數(shù)據(jù)多久更新一次，是否去重，如何去重；

熱數(shù)據(jù)怎么存，存多久，冷數(shù)據(jù)怎么存；

雖然說數(shù)據(jù)越全，數(shù)據(jù)質(zhì)量越高越好，但是一分錢一分貨，最終的數(shù)據(jù)獲取和清洗方案，需要綜合考慮成本、收益、開發(fā)難度、開發(fā)排期（似乎每個產(chǎn)品都這樣，不止是數(shù)據(jù)產(chǎn)品@@）。

經(jīng)常需要談數(shù)據(jù)合作，找數(shù)據(jù)找破頭；

經(jīng)常需要看API文檔，接口查字段；

經(jīng)常需要和人撕，別人的東西總是容易出問題的。

二.數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)服務

基礎數(shù)據(jù)已經(jīng)有了，開始要大干一場了，數(shù)據(jù)轉(zhuǎn)換的環(huán)節(jié)，高端的說法，是ETL，我簡單的理解為：拿到基礎數(shù)據(jù)后，會根據(jù)不同的業(yè)務需求再做數(shù)據(jù)清洗，然后將數(shù)據(jù)導入各個數(shù)據(jù)轉(zhuǎn)換或計算模型，并對更下游的應用提供數(shù)據(jù)服務。

這里的模型，不一定是用戶畫像、推薦這些，也可以是基礎的篩選、排序、匹配、簡單的邏輯計算。

為了讓應用層拿到更高質(zhì)量的數(shù)據(jù)，減少應用層的計算，這一層做有很多很多的小的計算模塊，也經(jīng)常做服務分層，分為基礎數(shù)據(jù)服務層（業(yè)務弱相關(guān)層）、業(yè)務強相關(guān)層。

數(shù)據(jù)轉(zhuǎn)換層，可以對外提供商用的計算、存儲服務，還可以直接數(shù)據(jù)變現(xiàn)，比如ID匹配，或者直接賣數(shù)據(jù)。

在數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié)，數(shù)據(jù)PM特別需要和架構(gòu)師深入溝通（或者工程師），數(shù)據(jù)PM的職責包括：

1.需要了解很多數(shù)據(jù)存儲、計算的知識

MySQL、Hadoop、HBase、Spark、Redis、Kafka...很多很多，不需要都深入了解，但至少了解他們的功能、特點、差別，然后能更好的和工程師溝通，更好的參與方案設計。

2.全局設計能力

PM更了解業(yè)務，工程師更了解技術(shù)，兩者協(xié)作，完成數(shù)據(jù)處理流程的設計或優(yōu)化。

但是，大公司，可能分了很多很多層，基礎服務層，可能不需要PM，PM提需求就行。這部分比較虛，沒什么經(jīng)驗的時候也沒法做，做久了、思考深了，慢慢就會了（其實，這一層，和應用層的關(guān)聯(lián)很大）。

3.成本收益評估、數(shù)據(jù)質(zhì)量、服務穩(wěn)定性

數(shù)據(jù)轉(zhuǎn)換層，會消耗更多的計算資源，這里通常有著龐大的集群，所以，這里設計的好，能節(jié)省大量的資源，同樣也要評估成本收益，要勇于拒絕應用層妙想天開的需求。

這一塊的數(shù)據(jù)質(zhì)量、服務穩(wěn)定性，同樣重要，對上要擔心數(shù)據(jù)供應的問題，還需要對下游的數(shù)據(jù)應用負責，三明治的感覺，出問題的時候容易感覺鴨梨山大！

數(shù)據(jù)轉(zhuǎn)換層，需要更強的邏輯分析能力，業(yè)務那邊反應的問題，很可能是他們自己的問題，也可能是上游數(shù)據(jù)供應的問題，當然，更有可能是漫長的數(shù)據(jù)轉(zhuǎn)換流程，有環(huán)節(jié)出了問題。

這一層，除了要會各種SQL、ES、Hive查詢，還需要熟練Excel或者SPSS，還需要熟練使用業(yè)務端的產(chǎn)品（故障復現(xiàn)很重要），還需要做好業(yè)務級指標的監(jiān)控告警，最最重要的是，要提前想好各種情況的應急方案，是艱難的提供服務，還是提供有損服務，還是人工支持。

三.數(shù)據(jù)應用、數(shù)據(jù)展現(xiàn)

應用層，各個公司的數(shù)據(jù)應用層就豐富多彩千差萬別了，有流量分析、廣告分析、用戶分析、銷量分析、財務分析、傳播分析、ERP...(額，本狗知道的有限)。

但是，本狗認為用戶畫像、反作弊、廣告投放策略、推薦、NLP等模型或策略類的產(chǎn)品，才算是數(shù)據(jù)PM，像BI類的產(chǎn)品，各種業(yè)務的指標維度，以及可視化展現(xiàn)（業(yè)務有多豐富，BI系統(tǒng)就有多么龐大），應該分類為是商業(yè)（數(shù)據(jù)分析）產(chǎn)品，這類的PM工作和具體的業(yè)務嚴重綁定，而且經(jīng)常有很多定制化功能要做。

本環(huán)節(jié)的數(shù)據(jù)PM，能力偏向如下：

1.數(shù)學功底及數(shù)據(jù)分析能力

懂算法、建模、調(diào)參，是必不可少的，貝葉斯、隱馬、協(xié)同過濾…撿起矩陣論、數(shù)理統(tǒng)計的課本，掏出機器學習、人工智能的經(jīng)典，親手擼起R、python、java，準備一大疊白紙推公式...

但是大公司，會有專門的算法工程師，PM只要能理解就行。數(shù)據(jù)分析能力也是必須的，這里更需要去解讀數(shù)據(jù)，特別是異常的數(shù)據(jù)。

2.深度理解業(yè)務

用戶畫像、反作弊、廣告投放策略、推薦、NLP這些，是和業(yè)務緊密關(guān)聯(lián)的，比如廣告、打車兩個領(lǐng)域，都有反作弊。

這些應用離錢更近，一點點的指標的改進，都能帶來很多錢。

數(shù)據(jù)產(chǎn)品和商業(yè)產(chǎn)品、用戶產(chǎn)品，差別很大，每天都是和數(shù)據(jù)打交道，需要深入了解各種數(shù)據(jù)分析方法、數(shù)據(jù)的存儲計算。

數(shù)據(jù)PM也需深入理解業(yè)務，否則就變成數(shù)據(jù)分析師或者數(shù)據(jù)科學家了。

經(jīng)常發(fā)出這樣的感慨：數(shù)據(jù)質(zhì)量怎么這么差?。∏懊娴娜饲逑戳嗣?？尼瑪清洗了過后怎么還這么差...

經(jīng)常忙于這樣的事情：找好樣本、維護黑名單、挑語料、人工標注…吃力而且不討好。

End.

作者：楠楠（中國統(tǒng)計網(wǎng)特邀認證作者）

原文鏈接：http://www./cms/article/articledetails?articleid=4752