這個(gè)問(wèn)題真心能寫一本書,在百度有上百人從事和評(píng)估相關(guān)的工作 latent Z 說(shuō)的七個(gè)維度,只是評(píng)估網(wǎng)頁(yè)搜索效果的指標(biāo)之一:Q-U相關(guān)性的評(píng)價(jià)標(biāo)準(zhǔn)中的一部分(直接從文檔里抄下來(lái)的小標(biāo)題啊!專業(yè)一點(diǎn)好不好……) 所謂檢索滿意度是個(gè)很虛的東西,但是可以從用戶行為中看到端倪。通過(guò)分析用戶點(diǎn)擊順序、停留時(shí)間,點(diǎn)擊數(shù)量等,能夠大概分析出一個(gè)用戶是否滿意,花了多長(zhǎng)時(shí)間滿意,被哪一個(gè)結(jié)果所滿足?;蛘咄ㄟ^(guò)AB Test,Interleaving等方法,可以對(duì)比A、B搜索結(jié)果的好壞,得到一個(gè)相對(duì)值。舉個(gè)簡(jiǎn)化了的栗子: 某用戶搜了【知乎】,然后直接點(diǎn)擊了首位的知乎網(wǎng)站,之后沒(méi)有點(diǎn)別的?;究梢耘袛酁闈M足了,而且滿足程度非常高; 某用戶搜了【蒼老師最新作品下載】,點(diǎn)了一個(gè)結(jié)果,過(guò)一會(huì)又來(lái)點(diǎn)另一個(gè),過(guò)一會(huì)又來(lái)點(diǎn)……翻頁(yè)點(diǎn)了十幾個(gè)最后走了,他的滿足程度可能就很低(都是無(wú)效資源啊,下載不了,只能一個(gè)一個(gè)換) 這類方法的前提是你能夠得到大量的用戶行為統(tǒng)計(jì),基于這些實(shí)際數(shù)據(jù)進(jìn)行分析。但現(xiàn)實(shí)中并不是總有用戶數(shù)據(jù),比如新策略還沒(méi)上線,或者你是競(jìng)爭(zhēng)對(duì)手的人等等。 實(shí)際上還有五花八門的人工評(píng)估從各個(gè)角度判斷搜索結(jié)果質(zhì)量。人工評(píng)估就是將現(xiàn)實(shí)中用戶的偏好抽象為幾個(gè)考察點(diǎn),比如上面說(shuō)的七個(gè)維度,然后模擬這個(gè)過(guò)程。我說(shuō)一點(diǎn)眾所周知的思路吧: 對(duì)搜索結(jié)果中的前N條URL分別進(jìn)行Query-URL相關(guān)性評(píng)估,并根據(jù)排名賦予權(quán)重,計(jì)算出一個(gè)值,名曰DCG,通過(guò)這個(gè)絕對(duì)數(shù)值反映單次搜索前N結(jié)果的質(zhì)量 將同一query下的百度搜索結(jié)果和競(jìng)品結(jié)果進(jìn)行橫向?qū)Ρ?,判斷好壞及程度,得出誰(shuí)家搜索質(zhì)量更好的結(jié)論,名曰Side-by-side。 在評(píng)估中如果隱去兩側(cè)所有品牌標(biāo)識(shí),并左右環(huán)境順序隨機(jī)互換,即為盲測(cè),盲測(cè)的結(jié)論一般都會(huì)非??陀^反應(yīng)搜索引擎質(zhì)量差距。 以上是僅關(guān)注搜索結(jié)果及其排序的評(píng)估方法舉例。除此之外,摘要、飄紅、sug等感知項(xiàng)目,也都會(huì)影響到結(jié)論,每種都有自己的評(píng)估方法。 最后如何評(píng)估,選取關(guān)注哪些指標(biāo),關(guān)鍵在于你評(píng)估的目的是什么了。“檢索滿意度” 也是個(gè)很大的話題?。?br> --------------------Update 2013-7-25-------------------- 鑒于有人還是覺(jué)得這事太抽象,我就舉個(gè)具體的栗子 第一步:明確評(píng)估的背景、目的、你所掌握的資源 在這里我們假設(shè)一個(gè)第三方研究者,想比較百度和谷歌搜索到底哪個(gè)好。這個(gè)問(wèn)題在知乎經(jīng)常有人討論,但大家大多只是說(shuō)自己的使用感受,而沒(méi)有人能拿出信服的調(diào)研數(shù)據(jù),現(xiàn)在我們就是要解決這個(gè)問(wèn)題。由于作為第三方研究者很難獲取到兩個(gè)搜索引擎完整的用戶行為,即使有了不可控變量也太多,無(wú)法得到嚴(yán)謹(jǐn)?shù)慕Y(jié)論。但是抓取雙方的搜索結(jié)果是很容易的 第二步:確定評(píng)估方法 評(píng)估的基本方法是顯而易見(jiàn)的:選定N個(gè)query,把每一個(gè)query在兩邊同時(shí)搜一下就可以對(duì)二者進(jìn)行橫向比較了,最后算一個(gè)平均指標(biāo)。 重點(diǎn)在于指標(biāo)如何選取,在這里我們可以用上面提到的兩種角度,即: 1 對(duì)前N結(jié)果(一般都是3,有時(shí)還有5或10)逐個(gè)判斷相關(guān)性,然后根據(jù)位置賦予權(quán)重,分別計(jì)算兩側(cè)搜索結(jié)果質(zhì)量值(DCG) 2 對(duì)兩側(cè)結(jié)果進(jìn)行綜合比較,給出一個(gè)相對(duì)值(左邊好?右邊好?好的程度?) 第三步:制定評(píng)估標(biāo)準(zhǔn) 這一步很重要,既然要評(píng)估,那就一定要先確定下來(lái)什么叫“好”,什么叫“差”,標(biāo)準(zhǔn)必須盡量反映用戶的真實(shí)感受而且始終保持一致。在這個(gè)方面,百度也好谷歌也好,都有厚厚的一坨規(guī)定,且基本思想大致相同。如果可以搞到一份,那么這個(gè)步驟就省力了。 第四步:數(shù)據(jù)準(zhǔn)備 1 抽query:在本次評(píng)估的背景下,從數(shù)量上來(lái)說(shuō),使用1000個(gè)query作為樣本是性價(jià)比比較高的選擇。太少的話波動(dòng)大,太多會(huì)標(biāo)到吐血(熟練標(biāo)注員每人每天可以標(biāo)100Q左右)。Query必須隨機(jī)抽取于近期用戶自然產(chǎn)生的query,而不是自己憑空編出來(lái)的1000個(gè)詞,這樣能夠確保Query類型(長(zhǎng)短冷熱中外...)的分布接近實(shí)際比例,進(jìn)而才有可靠的結(jié)論 2 抓網(wǎng)頁(yè):query確定下來(lái),就要開始抓百度和谷歌的搜索結(jié)果了。為了保證結(jié)果公平可靠,應(yīng)該進(jìn)行盲測(cè),即隱去兩邊品牌特征,再狠一點(diǎn)的,應(yīng)該在評(píng)估過(guò)程中隨機(jī)調(diào)換左右順序。這里比較麻煩的是阿拉丁啊,知識(shí)圖譜啊這類特型展現(xiàn),熟悉搜索引擎的人一眼就看出是誰(shuí)家的,這個(gè)暫時(shí)就沒(méi)辦法了,評(píng)估時(shí)盡量保持客觀中立吧。 第五步:評(píng)估 最主要的部分來(lái)了,這里要對(duì)抓取的結(jié)果進(jìn)行人工評(píng)估。你可以自己一個(gè)人連評(píng)10天;或者找?guī)讉€(gè)人一起做,但是要先對(duì)他們進(jìn)行統(tǒng)一培訓(xùn),以免標(biāo)準(zhǔn)不一;也可以找一群人,每個(gè)人都做一遍,然后取他們平均數(shù)也好多數(shù)投票也好,當(dāng)然也得培訓(xùn)了,還得防著濫竽充數(shù)的。成本和靠譜程度依次遞增。 第六步:統(tǒng)計(jì) 這一步?jīng)]啥好說(shuō)的,按照之前想好的方式統(tǒng)計(jì)一下結(jié)果,做個(gè)總結(jié)就OK了。百度和谷歌誰(shuí)更好,哪里好,好多少,一清二楚。 然后下一次再和別人討論百度好還是谷歌好的時(shí)候,你“嗖”的一下掏出這份報(bào)告,小伙伴們都會(huì)驚呆的。那些只知道往外扔一兩個(gè)badcase來(lái)說(shuō)明問(wèn)題的人真是弱爆了……百度對(duì)網(wǎng)頁(yè)搜索的檢索質(zhì)量評(píng)價(jià) |
|