大數(shù)據(jù)文摘作品 轉(zhuǎn)載具體要求見文末 作者| Marisa Krystian 選文|Aileen 翻譯|行者 校對|肖文琪 伯靈頓佛蒙特大學故事計算實驗室的安德魯·里根(Andrew Reagan)和他的研究團隊用情緒分析繪制了約1300多個故事的情感線,然后使用數(shù)據(jù)挖掘技術(shù)來揭示最常見的情感線是什么樣子。研究中,安德魯·里根和他的研究團隊發(fā)現(xiàn),形成復(fù)雜敘事的基石僅僅源自于六種核心故事線。 ◆ ◆ ◆ 導(dǎo)言 人們天生喜歡去尋找并轉(zhuǎn)述各類故事。我們所擁有的那種分享信息并定義自身存在性的能力就可以很好地解釋為什么我們天生沉迷于此。 而現(xiàn)在,隨著計算能力、語言處理和文本數(shù)字化三種技術(shù)方面的改善,以文字“大數(shù)據(jù)”來研究某種文化成為了可能。 正如美國作家?guī)鞝柼亍ゑT內(nèi)古特(Kurt Vonnegut)曾經(jīng)說過的那樣:“這些故事都有著美麗而方便計算的格式,沒有理由說我們不能把它們套進計算機的算法里去?!?/span>
(注:整個系列共七部書可以被定義為一個復(fù)雜的“殺死怪物”情節(jié)。數(shù)據(jù)分析:Hedonometer / Andy Reagan / Kirsch) 伯靈頓佛蒙特大學故事計算實驗室的安德魯·里根(Andrew Reagan)和他的研究團隊用情緒分析繪制了約1300多個故事的情感線,然后使用數(shù)據(jù)挖掘技術(shù)來揭示最常見的情感線是什么樣子。研究中,安德魯·里根和他的研究團隊發(fā)現(xiàn),形成復(fù)雜敘事的基石僅僅源自于六種核心故事線。 這項研究令人著迷的奇妙之處就在于首次提出了基本故事線的確存在的實驗性依據(jù),并由此解開了講故事之所以能夠吸引人們的本質(zhì)特征。 ◆ ◆ ◆ 實驗展示 科學家收集了1327本書作為樣本,這些樣本書絕大多數(shù)采用了收錄進古登堡計劃中的元數(shù)據(jù)來虛構(gòu)故事(P.S.古登堡計劃是于1971年發(fā)起的世界上第一個數(shù)字圖書館。其中所有書籍的輸入都是由志愿者完成的)。為了生成樣本書的情感線,研究者將文本分為了一個個10000的小塊,并分析每個小塊里的所表達的感情。(如圖2所示)
圖2 研究中所有樣本書的故事線和相應(yīng)的數(shù)據(jù)可視化如圖3所示。
六種基本故事線形態(tài)分別為:
(點擊查看高清圖片) (注:從左至右從上到下依次為:“白手起家”、“陷入困境的人”、“灰姑娘”、“悲劇”、“俄狄浦斯”、“伊卡洛斯”。數(shù)據(jù)分析:Reagan et. al/ University of Vermont) ◆ ◆ ◆ 結(jié)論
當研究團隊確定了六種基本的情感故事線之后,又進一步觀察了情感線與其故事下載量之間的關(guān)系,并據(jù)此探索最受歡迎的情感故事線類型。最終的研究結(jié)果顯示,最受歡迎的故事往往遵循“伊卡洛斯”和“俄狄浦斯”兩種類型的情感故事線。
另外,把眾多感情線揉到一起的那些更復(fù)雜的故事同樣受到追捧。事實上,研究結(jié)果顯示,最受歡迎的故事往往是連續(xù)兩次出現(xiàn)“陷入困境的人”的,還有“灰姑娘”緊接一個“悲劇”的故事。
原文鏈接:https://blog./scientists-use-big-data-to-discover-6-basic-emotional-story-arcs/ 關(guān)于轉(zhuǎn)載 |
|