picture from Internet 解析文章首發(fā)于唧唧堂網(wǎng)站www.jijitang.com 解析作者|唧唧堂MIS信息系統(tǒng)研究小組 polly;審校編輯|劉祎迪,Runsong 本文是針對論文《大數(shù)據(jù)時(shí)代下通過Twitter測量的國民幸福真的準(zhǔn)確嗎?——社會(huì)媒體分析方法論上的局限性》 (Putting the methodological brakes on claims to measure national happiness through Twitter: Methodological limitations in social media analytics)的解析,該論文于2017年9月發(fā)表在《公共科學(xué)圖書館》(Plos One)。研究作者是Jensen, E. A. 研究背景 伴隨著社交媒體在全球的迅速發(fā)展,利用容易獲取的“大數(shù)據(jù)”等現(xiàn)有資源發(fā)展社會(huì)科學(xué)知識的方法受到越來越多人的關(guān)注?;谏缃幻襟w的研究使得大樣本量數(shù)據(jù)的分析成為可能,關(guān)于大數(shù)據(jù)的研究吸引了來自科學(xué)期刊和新聞媒體的共同關(guān)注。 然而在大數(shù)據(jù)分析熱潮下,那些長久建立起來的社會(huì)研究準(zhǔn)則經(jīng)常被忽視,但并沒有研究對“由于忽視準(zhǔn)則而帶來的相關(guān)后果”進(jìn)行過準(zhǔn)確的說明。本篇文章辯證的評價(jià)了Mitchell等人于2013年發(fā)表的一項(xiàng)名為《地域幸福感:利用社交網(wǎng)絡(luò)推特的推文內(nèi)容、個(gè)人信息簡介、所在地等數(shù)據(jù)綜合分析地域幸福感》(The Geography of Happiness: Connecting Twitter Sentiment and Expression, Demographics, and Objective Characteristics of Place)的研究,試圖說明方法論上的局限性對大數(shù)據(jù)研究的負(fù)性影響,主要涉及以下幾個(gè)方面: ①由推論概括性引發(fā)的過度解釋問題; ②關(guān)鍵概念操作性定義的局限; ③實(shí)際抽樣偏差; ④解釋二手?jǐn)?shù)據(jù)形式內(nèi)在缺陷的失敗。 大數(shù)據(jù)分析是一種利用類似“推特”這樣的網(wǎng)絡(luò)平臺上的社交媒體數(shù)據(jù)進(jìn)行相關(guān)社會(huì)問題調(diào)查的方法,以往對于“人口的調(diào)查”通常采用較為傳統(tǒng)的社會(huì)調(diào)查或其它方式,現(xiàn)如今我們可以利用大數(shù)據(jù)分析方法對這些問題進(jìn)行分析。 居住在城市與幸福感之間存在什么關(guān)系?Mitchell等人研究的主要目的便是探索地域與社會(huì)幸福水平之間的關(guān)系以及對其的潛在影響。這篇研究從推特用戶社交媒體上表現(xiàn)出來的情緒狀態(tài)及行為態(tài)度數(shù)據(jù)推斷其線下社會(huì)真實(shí)行為,使得網(wǎng)絡(luò)世界與現(xiàn)實(shí)生活相連接。但是這兩個(gè)世界并不是協(xié)同擴(kuò)展的,為了驗(yàn)證或校正使用推特?cái)?shù)據(jù)推論線下真實(shí)行為的準(zhǔn)確性,需要有證據(jù)證明Twitter用戶和語音模式的真實(shí)性。我們不能簡單地假定用戶線上網(wǎng)絡(luò)世界的情感與行為就是用戶線下真實(shí)世界行為與情感的虛擬化表現(xiàn)。線上社交生活與線下真實(shí)社交是有所差別的。網(wǎng)絡(luò)社區(qū)衍生出的風(fēng)格迥異的文化模式有著與個(gè)體參加真實(shí)社區(qū)不同的特征表現(xiàn)。 雖然基于推特或臉書等社交網(wǎng)絡(luò)所獲得的用戶數(shù)據(jù)似乎是可信的,精確的分析框架會(huì)在一定程度上限制將不可控錯(cuò)誤引入分析中的風(fēng)險(xiǎn),但目前鮮有關(guān)于建立社交媒體內(nèi)容與真實(shí)社會(huì)生活之間關(guān)系的驗(yàn)證性研究。目前針對社交媒體內(nèi)容與線下真實(shí)情感狀態(tài)、態(tài)度之間的關(guān)系是否對等的假設(shè)依舊存疑。作者將從操作定義的表面效度、代表性樣本的重要性、大數(shù)據(jù)分析即二次分析三個(gè)方面出發(fā),針對Mitchell文章中存在的幾點(diǎn)局限性進(jìn)行詳細(xì)論證,以期對未來心理學(xué)工作者在利用大數(shù)據(jù)分析方法進(jìn)行研究時(shí)提供可參考借鑒之處。 一、操作定義的表面效度 在Mitchell的研究中,他讓被試對推特用戶所發(fā)布的推文中有關(guān)情感或態(tài)度的詞在悲傷—高興維度上進(jìn)行九點(diǎn)評分,以此來分析不同地區(qū)人們的幸福指數(shù)。事實(shí)上在此過程中研究者并未考慮推文內(nèi)容出現(xiàn)的情感或態(tài)度類詞語的背景環(huán)境因素。單個(gè)詞語所表達(dá)的情感正負(fù)性可能與整句話所要傳達(dá)的情感相矛盾,所以單純分析詞匯情感效價(jià)而忽視對話環(huán)境或背景在某種程度上會(huì)降低研究的效度。 二、代表性樣本的重要性 Mitchell的文章中分析了一千萬名推特用戶,正如我們所知,一個(gè)擁有大樣本量的研究并不代表這是一個(gè)好的或是精確的研究。為了使研究結(jié)論普適性更廣,研究者必須確保抽取的樣本在所要研究的對象中具有絕對的代表性。Mitchell的文章中僅僅基于地理標(biāo)簽分析了2011年來自美國部分推特用戶的數(shù)據(jù)信息,并沒有證據(jù)充分說明抽取的這一部分樣本可以代表全部推特用戶。事實(shí)上最近研究表明:不同地區(qū)的推特用戶與所有推特用戶之間存在明顯的差異,所以基于地理標(biāo)簽選取的樣本相對總體樣本來說存在著穩(wěn)定的系統(tǒng)誤差。 數(shù)據(jù)獲得的難易程度會(huì)影響取樣代表性,即當(dāng)很容易獲取某些數(shù)據(jù)時(shí),即使這些數(shù)據(jù)存在局限性,研究者會(huì)傾向于使用這些數(shù)據(jù)。此外Mitchell認(rèn)為從某一地區(qū)選取的推特用戶數(shù)據(jù)堪比當(dāng)?shù)厮腥耍聦?shí)上當(dāng)?shù)赝铺赜脩魯?shù)據(jù)的相關(guān)人口學(xué)信息特點(diǎn)在很多方面不同于當(dāng)?shù)厝藗?,例如推特用戶中男女比例差異明顯,男性用戶大約占總體的71.8%,所以由此得出的研究結(jié)論在推及總體樣本時(shí)勢必存在誤差。 Mitchell文章中存在的另一個(gè)局限性在于所提出的“一般幸?!钡母拍?。由于取樣偏差,所以基于有偏樣本數(shù)據(jù)下得到的“一般幸?!狈?jǐn)?shù)實(shí)則存疑。如若想要獲取準(zhǔn)確的“一般幸?!狈?jǐn)?shù),必須遵循以下幾點(diǎn)要求: ①推特用戶的數(shù)據(jù)信息可以準(zhǔn)確的反應(yīng)線下個(gè)體的幸福感。 ②自動(dòng)情感分析工具可以精確區(qū)分推特用戶數(shù)據(jù)信息中幸福和悲傷部分。 ③所抽取的推特用戶可以作為當(dāng)?shù)赜脩舻拇硇詷颖尽?/span> ④“一般幸?!钡母拍钤瓌t上必須是有意義的。事實(shí)上Mitchell的文章并沒有遵循以上幾點(diǎn)要求,所以所得結(jié)論正確性還有待考究。 picture from internet 三、大數(shù)據(jù)分析是二次分析 長久以來那些影響本文中所討論的大數(shù)據(jù)分析類型的挑戰(zhàn)同時(shí)也影響著那些試圖利用現(xiàn)有數(shù)據(jù)發(fā)展新知識的社會(huì)科學(xué)家們。對于方法論文獻(xiàn)中的二次分析,我們需要充分理解影響這類研究的局限性。 相比其他人,某些個(gè)體會(huì)提供更多的數(shù)據(jù)。例如對于那些經(jīng)常發(fā)推文的推特用戶較之其他用戶會(huì)提供更多的數(shù)據(jù),這也意味著這些用戶的數(shù)據(jù)占所收集數(shù)據(jù)的大部分。 此外利用大數(shù)據(jù)分析方法很可能會(huì)漏掉某些樣本數(shù)據(jù),例如對于那些從不使用推特的人很可能就不在研究分析的范圍內(nèi)。 大數(shù)據(jù)分析方法下很難準(zhǔn)確找到數(shù)據(jù)的最初源頭,這一局限性使得研究結(jié)論的概括性受到威脅。例如一位居住在馬薩諸塞州的推特用戶在賓夕法尼亞州發(fā)布了一條推文,在分析數(shù)據(jù)時(shí)可能將這位用戶的推文內(nèi)容幸福指數(shù)算在賓夕法尼亞州,但他的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)信息將在馬薩諸塞州內(nèi)進(jìn)行分析,以這樣的方式計(jì)算成千上萬的用戶的數(shù)據(jù)就會(huì)產(chǎn)生一系列的不可控誤差。 大數(shù)據(jù)分析方法下得出的研究結(jié)論可能華而不實(shí),例如Mitchell的研究得出用戶推文內(nèi)容是反映線下個(gè)體幸福感的有效指標(biāo),但此假設(shè)并未得到有效的驗(yàn)證,所以個(gè)體真實(shí)情緒與其社交媒體上發(fā)布的內(nèi)容之間存有差距。 數(shù)據(jù)分析時(shí)我們會(huì)盡可能最大化利用現(xiàn)有數(shù)據(jù),但無法做到將所有相關(guān)變量都考慮在內(nèi),所以在對變量之間關(guān)系做因果解釋時(shí)需謹(jǐn)慎。 統(tǒng)計(jì)分析的基本原則之一就是重復(fù),相關(guān)并不代表因果,我們必須避免那種大樣本量可以克服各種偏差和混淆變量的天真想法。本文雖然提出了大數(shù)據(jù)分析方法存在的一些局限性,但并不意味我們要取消所有有關(guān)社交媒體的研究。相反大數(shù)據(jù)分析方法應(yīng)該向其他社會(huì)調(diào)查方法一樣對推論和結(jié)論概括性設(shè)置一個(gè)合理的偏差校正值。如果將研究結(jié)果推論到特定的社交媒體用戶圈內(nèi),而不是一般大眾,那么研究的信效度是否也會(huì)更有保障。此外將社交媒體上所獲取的用戶數(shù)據(jù)結(jié)果推論到線下廣大人群需要說明該數(shù)據(jù)存在的取樣偏差類型。 研究結(jié)論 大數(shù)據(jù)時(shí)代的到來對心理學(xué)研究者來說既是機(jī)遇同時(shí)也是挑戰(zhàn),我們在運(yùn)用大數(shù)據(jù)分析個(gè)體心理現(xiàn)象及其規(guī)律的同時(shí),也要注意不能脫離方法論的指導(dǎo)。研究者并不能從推特用戶的推文內(nèi)容直接推斷用戶在真實(shí)生活場景下的會(huì)話模式,網(wǎng)絡(luò)社交媒體很可能存在一套其自身特有的會(huì)話策略或溝通方式。事實(shí)上對于那些影響線下真實(shí)社交場景的因素諸如:權(quán)利、聲音、符號表征、身份、領(lǐng)導(dǎo)力、爭奪稀缺資源及可視化表征等同樣會(huì)對網(wǎng)絡(luò)產(chǎn)生強(qiáng)有力的影響。 當(dāng)前大數(shù)據(jù)分析方法面臨的一個(gè)嚴(yán)峻的挑戰(zhàn)就是研究者很難說清楚某一現(xiàn)象的出現(xiàn)是受哪些因素的影響。研究者在運(yùn)用大數(shù)據(jù)分析方法時(shí)不僅要理解并公開聲明此數(shù)據(jù)集的局限性所在,同時(shí)也要清醒地意識到此數(shù)據(jù)集在解決問題中的不足之處以及研究者如何對所得結(jié)論給出一個(gè)合適、恰當(dāng)?shù)慕忉尅?/span> 參考文獻(xiàn): Jensen, E. A. (2017). Putting the methodological brakes on claims to measure national happiness through Twitter: Methodological limitations in social media analytics. PloS one, 12(9), e0180080.
|
|