你在游戲里，變成了“巴普洛夫的狗”

新用戶50139826 2021-05-30

展開(kāi)全文

本文來(lái)自微信公眾號(hào)：rct studio，原文標(biāo)題：《期望、行為和獎(jiǎng)勵(lì)：在不確定和未知的游戲中，獲得確定的快樂(lè)》

大自然讓我們熱愛(ài)冒險(xiǎn)，從而能更好地生存和繁衍。人們要敢于冒險(xiǎn)，才能獲得更大的收益。雖然冒險(xiǎn)就意味著未知，但不確定的獎(jiǎng)勵(lì)會(huì)格外的誘人，也能在關(guān)鍵時(shí)刻幫助我們做出決定。

在長(zhǎng)期的進(jìn)化和演變中，每個(gè)人都會(huì)對(duì)自己行為的不確定結(jié)果抱有各種期待，這種期待和幻想的產(chǎn)生，也會(huì)伴隨著愉悅的出現(xiàn)。在期望還沒(méi)有實(shí)現(xiàn)前，隨著它的增加，愉悅就已經(jīng)會(huì)不斷地上升。而一旦不確定的期望獲得滿足，對(duì)應(yīng)的行為就會(huì)得到更強(qiáng)的鞏固。

當(dāng)獎(jiǎng)勵(lì)和期望的范圍是有限的，固定目標(biāo)的無(wú)法獲得反而會(huì)刺激人們產(chǎn)生克服不確定性的需求，并持續(xù)地強(qiáng)化這種行為。

若獎(jiǎng)勵(lì)的目標(biāo)或范圍是無(wú)法預(yù)計(jì)的，或是每一次獲得的獎(jiǎng)勵(lì)都是超出預(yù)先設(shè)想之外的，人們獲取滿足和快樂(lè)的方式，就跳出了系統(tǒng)內(nèi)的約束，從而轉(zhuǎn)向了對(duì)未知的不斷探索。

大多情況下，我們總是在用新方法解決舊問(wèn)題。概率可以給予我們期望并產(chǎn)生愉悅，但又會(huì)將這種快樂(lè)約束在有限目標(biāo)的無(wú)盡嘗試中。

當(dāng)我們跳出概率的固有約束，就能在創(chuàng)造和探索豐富的可能中，獲得屬于自己的快樂(lè)與滿足。

一、期望的起點(diǎn)：不確定、未知、不可知

我們對(duì)于世界的認(rèn)識(shí)是離散化的，從認(rèn)知的狀態(tài)和認(rèn)知的可行性來(lái)說(shuō)，可以分為這四個(gè)部分：

通過(guò)我們已有的認(rèn)知邏輯，世界中一部分的信息是可知，其中雖然有一部分信息是我們暫時(shí)不知道的，但隨著對(duì)世界認(rèn)識(shí)的不斷增加，這部分信息是可以被我們所知道的。對(duì)于這一類信息，我們的認(rèn)知方式是離散的，也就是通過(guò)概率去獲得信息，并做出對(duì)應(yīng)的反應(yīng)。

同時(shí)，由于邏輯系統(tǒng)自身的限制，我們無(wú)法通過(guò)這些系統(tǒng)認(rèn)知到世界中的其他信息，因此這部分信息是我們無(wú)論使用任何方法是都無(wú)法知道的。對(duì)于這些信息，我們只有跳出現(xiàn)有的邏輯系統(tǒng)才能獲得。

當(dāng)事件的發(fā)生與否是不確定的，這也就是事件的發(fā)生概率。我們知道事件發(fā)生的結(jié)果數(shù)量是有限的，只是不確定每次發(fā)生的結(jié)果是什么。為了能更簡(jiǎn)單的理解可知信息的不確定性，我們使用期望來(lái)描述。

因此，我們的期望來(lái)源于“可知但不確定”的事件，而不是“可知但未知”的事件。

對(duì)于“可知但不確定”的事件，我們對(duì)于事件發(fā)生的結(jié)果有著明確的認(rèn)知，從而會(huì)預(yù)先理解到每一個(gè)結(jié)果，對(duì)其產(chǎn)生情感上的期望，并帶來(lái)多巴胺和快樂(lè)。

而對(duì)于“可知卻未知”，由于我們無(wú)法明確每一個(gè)結(jié)果是什么，因此每一次出現(xiàn)的結(jié)果都是 over expectation，從而會(huì)給人們來(lái)帶另外一種情感上的刺激，也就是另外一種快樂(lè)。

進(jìn)一步來(lái)看，人們對(duì)期望實(shí)現(xiàn)的不確定，不僅體現(xiàn)在多巴胺所帶來(lái)的快樂(lè)和反饋機(jī)制上，也會(huì)體現(xiàn)在人們的決策機(jī)制上。

在行為經(jīng)濟(jì)學(xué)中，2002 年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼告訴我們：在必然會(huì)發(fā)生損失的情況下，人們的行為會(huì)表現(xiàn)出風(fēng)險(xiǎn)偏好；而在必然會(huì)受益的情況下，人們的行為反而表現(xiàn)出風(fēng)險(xiǎn)厭惡。

同時(shí)，人們?cè)诿鎸?duì)小概率的損失時(shí)，則會(huì)傾向于風(fēng)險(xiǎn)規(guī)避，而面對(duì)小概率的獲得時(shí)，人們又傾向于風(fēng)險(xiǎn)偏好。

這樣的決策方式，也對(duì)經(jīng)濟(jì)學(xué)中的理性人假設(shè)提出了挑戰(zhàn)，它指出我們的決策并不是我們想象的那么理性，我們的預(yù)期會(huì)通過(guò)影響情感從而改變純粹理性的決策。

消費(fèi)者，或稱為玩家，都是趨利避害的動(dòng)物。雖然客觀上的利其實(shí)是食物、生存條件等，但人類主觀上的利全都是愉悅感。人們長(zhǎng)期的演變中，進(jìn)化出了一種獲取快樂(lè)的機(jī)制，不同的行為會(huì)激發(fā)大腦中負(fù)責(zé)提供獎(jiǎng)勵(lì)的那部分組織分泌多巴胺，從而讓人們?cè)谥饔^上覺(jué)得很開(kāi)心。這種神經(jīng)機(jī)制，也會(huì)將人們的行為與快樂(lè)所聯(lián)系在一起，促使人類實(shí)施更多這樣的行為。

同時(shí)，不確定性也和多巴胺建立了對(duì)應(yīng)的激勵(lì)關(guān)系。在隨機(jī)性的結(jié)果出現(xiàn)前，人們往往對(duì)結(jié)果有期待，這種期待會(huì)隨著行為的增加而累積。當(dāng)期待被實(shí)現(xiàn)時(shí)，相比于確定的結(jié)果，不確定性會(huì)使人們分泌更多的多巴胺，從而獲得更多的快樂(lè)，這會(huì)使得反饋機(jī)制得到更穩(wěn)固的強(qiáng)化。

只要人們對(duì)于未知的有期待，快樂(lè)就會(huì)因此而產(chǎn)生。如果個(gè)體對(duì)行為結(jié)果沒(méi)有期待，就算事情的結(jié)果對(duì)個(gè)體再有適應(yīng)的意義，也很難讓其持續(xù)地進(jìn)行對(duì)應(yīng)的行為。

然而，對(duì)于無(wú)法預(yù)料到的結(jié)果，我們無(wú)法產(chǎn)生期望，從而無(wú)法進(jìn)行上述的反饋機(jī)制。意料之外的結(jié)果也會(huì)讓我們通過(guò)類比和聯(lián)想的方式，從已有的快樂(lè)中找到最相似的一種，產(chǎn)生對(duì)應(yīng)的多巴胺和快樂(lè)。

無(wú)論是已知的期望還是未知的刺激，僅存在幻想是無(wú)法持續(xù)地驅(qū)動(dòng)人們做出對(duì)應(yīng)的決策和行為。雖然人們追求快樂(lè)，逃避痛苦；追求確定，逃避未知，但期望和不確定性卻構(gòu)成了人們對(duì)某個(gè)事物的情感依賴。

二、行為與反饋：巴普洛夫的狗、斯金納的老鼠和鴿子

心理學(xué)家巴甫洛夫（Ivan Pavlov）通過(guò)研究動(dòng)物的條件反射行為，提出了高級(jí)神經(jīng)活動(dòng)學(xué)說(shuō)。這種高級(jí)的神經(jīng)活動(dòng)，使得動(dòng)物的軀體能與外界產(chǎn)生一系列的復(fù)雜關(guān)系，并在不斷的完善中適應(yīng)于周圍環(huán)境。

在經(jīng)典的條件反射實(shí)驗(yàn)中，巴甫洛夫?qū)吩诓煌闆r下的唾液分泌進(jìn)行了測(cè)量，發(fā)現(xiàn)狗在聞到、看到、靠近和吃食物的時(shí)候，都會(huì)分泌唾液。他認(rèn)為狗的這種反應(yīng)是本能且固有的，將食物稱為無(wú)條件刺激（unconditioned stimulus，簡(jiǎn)稱 UCS），也把產(chǎn)生的唾液分泌稱為無(wú)條件反射（unconditioned reflex，簡(jiǎn)稱 UCR）。

在另一組實(shí)驗(yàn)中，巴甫洛夫給狗食物之前，會(huì)開(kāi)啟一個(gè)節(jié)拍器，然后每次都重復(fù)這個(gè)操作，狗在聽(tīng)到節(jié)拍器而沒(méi)有食物時(shí)，也會(huì)分泌唾液。之后，他又將節(jié)拍器換成了鈴聲、哨子等，也都發(fā)生了一樣的結(jié)果。但如果只進(jìn)行各種刺激，而不提供食物，狗也會(huì)逐漸地不分泌唾液。

在將無(wú)條件刺激（食物）和引起探索性反射的中性刺激結(jié)合后，狗就能對(duì)某一種刺激形成條件作用。鈴聲就成了條件刺激（conditioned stimulus，簡(jiǎn)稱 CS），由鈴聲引起的唾液分泌就是條件反射（conditioned reflex，簡(jiǎn)稱 CR）。

實(shí)驗(yàn)的結(jié)果說(shuō)明了，當(dāng)中性的刺激和無(wú)條件的刺激結(jié)合后，動(dòng)物能逐漸地學(xué)會(huì)對(duì)那個(gè)中性刺激做出反應(yīng)。這種刺激可以通過(guò)重復(fù)的條件刺激來(lái)強(qiáng)化，也可以通過(guò)只給條件刺激而不提供無(wú)條件刺激來(lái)削弱甚至完全消失。

在巴普洛夫的條件反應(yīng)學(xué)說(shuō)被提出后，早期的行為主義實(shí)驗(yàn)幾乎都在嘗試將某種刺激與生物的某種行為關(guān)聯(lián)起來(lái)，從而觀察與分析對(duì)應(yīng)的反應(yīng)。

更值得一提的是，條件刺激下的反應(yīng)不僅是生理上的，也是心理上的。當(dāng)生理上的感覺(jué)伴隨著條件刺激發(fā)生時(shí)，動(dòng)物會(huì)非條件性地產(chǎn)生不同的情緒，比如開(kāi)心、難過(guò)、焦慮、害怕等。在這種刺激重復(fù)發(fā)生幾次后，即使生理上的感覺(jué)沒(méi)有真的發(fā)生，這種條件刺激也會(huì)讓人們產(chǎn)生對(duì)應(yīng)的情緒。

一位來(lái)自哈佛大學(xué)的心理學(xué)教授斯金納（Burrhus Frederic Skinner），通過(guò)一個(gè)實(shí)驗(yàn)將這種生理上和心理上的條件性刺激，同時(shí)變得可操作化。他設(shè)計(jì)了一個(gè)箱子，里面有一個(gè)可以按鈕，同時(shí)在箱子的底部擺放著一個(gè)是食物盤。

在箱子的外部，按鈕與提供食物的裝置相連，只要箱內(nèi)的動(dòng)物按下按鈕，食物就會(huì)出現(xiàn)在食物盤內(nèi)。然后他將一只饑餓的老鼠放在箱子里，當(dāng)老鼠按下按鈕時(shí)，它就能獲得食物。

同時(shí)，當(dāng)實(shí)驗(yàn)人員不再投放食物，老鼠按下按鈕也不會(huì)獲得食物時(shí)，老鼠已建立的行為習(xí)慣就會(huì)很快地消失。在另外一個(gè)對(duì)照實(shí)驗(yàn)中，實(shí)驗(yàn)人員將食物的出現(xiàn)機(jī)制改成了隨機(jī)掉落，老鼠同樣也學(xué)會(huì)了不停的按下按鈕。即便是按下不確定的幾十次才會(huì)掉落一個(gè)食物，老鼠仍然會(huì)在很長(zhǎng)的一段時(shí)間里，保持這一行為習(xí)慣。

因此斯金納認(rèn)為，動(dòng)物不僅會(huì)受到刺激而給出反應(yīng)，還會(huì)受事后刺激的持續(xù)影響；只要?jiǎng)游锩靼祝合胍@得獎(jiǎng)賞就需要完成所需的條件，他們的行為就可以被操作和影響。斯納金同樣也專門研究了行為模式的消退速度。他發(fā)現(xiàn)，相比起固定間隔的刺激與操作，隨機(jī)間隔的刺激會(huì)讓個(gè)體以最長(zhǎng)的時(shí)間持續(xù)發(fā)生某種行為。

除此之外，斯金納也提出了強(qiáng)化物的概念，用以描述各種需求，它們能讓個(gè)體被不斷刺激從而強(qiáng)化對(duì)應(yīng)的行為。在實(shí)驗(yàn)中，如果我們把老鼠按下按鈕視為一個(gè)想要其不斷執(zhí)行的操作，那作為獎(jiǎng)勵(lì)的食物就是“積極強(qiáng)化物”。而當(dāng)個(gè)體為消除某種刺激而做出某種重復(fù)的行為時(shí)，這個(gè)刺激就叫“消極強(qiáng)化物”。

一級(jí)強(qiáng)化物主要解決人的基本生理需求，比如呼吸、進(jìn)食、休息等，它們具有較強(qiáng)的邊際效益。同時(shí)，當(dāng)人們對(duì)于這一類需求的滿足感達(dá)到一個(gè)上限后，短期內(nèi)，一級(jí)強(qiáng)化物對(duì)行為的刺激和強(qiáng)化作用將會(huì)大幅減弱。

二級(jí)強(qiáng)化物（刺激強(qiáng)化物）本身是一個(gè)中性刺激，一開(kāi)始對(duì)行為沒(méi)有強(qiáng)化作用，但它可以和一系列的一級(jí)強(qiáng)化物產(chǎn)生關(guān)聯(lián)，從而發(fā)揮作用，比如金錢本來(lái)只是一堆紙或者數(shù)字，但它可以基于貨幣的屬性換取更多人們想要的東西。

當(dāng)二級(jí)強(qiáng)化物和一級(jí)強(qiáng)化物組合后，二級(jí)強(qiáng)化物所產(chǎn)生的邊際效益會(huì)減弱很多，從而人們會(huì)在更長(zhǎng)的時(shí)間里為這種強(qiáng)化物進(jìn)行付出。

另外，斯金納還做使用鴿子做了一個(gè)有趣的實(shí)驗(yàn)。在鴿子每次成功轉(zhuǎn)圈飛行后，他給鴿子提供食物進(jìn)行獎(jiǎng)勵(lì)，讓鴿子學(xué)會(huì)了轉(zhuǎn)圈。

當(dāng)他不定時(shí)地進(jìn)行投喂時(shí)，發(fā)現(xiàn)其中有幾只鴿子會(huì)在投食的食物會(huì)做出某些特定動(dòng)作，認(rèn)為這些動(dòng)作會(huì)和食物的出現(xiàn)有一定管關(guān)聯(lián)，比如點(diǎn)頭、搖擺、將頭伸向某個(gè)固定方向等。這種迷信的行為，其實(shí)在人類身上也經(jīng)常出現(xiàn)。

人們的行為在不斷地被強(qiáng)化過(guò)程中，也會(huì)在心理上獲得一系列的情緒波動(dòng)，從而產(chǎn)生心流般的愉悅體驗(yàn)。這些理論被提出后，被我們廣泛地應(yīng)用在各行各業(yè)，產(chǎn)品設(shè)計(jì)者們使用這些方法讓用戶和玩家感到持續(xù)的快樂(lè)。

三、源于不確定的快樂(lè)：游戲中的收集

2019 年 11 月，泡泡瑪特在天貓“雙十一”當(dāng)天的銷量為 8252 萬(wàn)，斬獲天貓玩具類目第一名。一年后，2020 年 12 月 11 日，泡泡瑪特（Pop Mart）在香港上市，公司市值破 1000 億港元。憑借著對(duì)潮流文化的理解和玩具IP的成功孵化，泡泡瑪特讓產(chǎn)品進(jìn)入了用戶的習(xí)慣區(qū)間，從而讓現(xiàn)實(shí)化的虛擬形象獲得了持續(xù)的生命力。

在消費(fèi)者購(gòu)買盲盒之前，廠商就提供了對(duì)應(yīng)的幻想，告訴消費(fèi)者他可能獲得的對(duì)象。在打開(kāi)盒子之前，消費(fèi)者的期待值會(huì)一直累加，并在打開(kāi)盒子的一瞬間達(dá)到頂峰。隨后而來(lái)的只有兩種情況，沒(méi)有獲得期望中物品的消費(fèi)者，收獲了失望但立馬想要翻盤；期望實(shí)現(xiàn)的消費(fèi)者將會(huì)獲得巨大的快樂(lè)，并想要讓這種快樂(lè)繼續(xù)下去。

在感性驅(qū)動(dòng)下，消費(fèi)者除了將盲盒視為滿足自身占有欲的載體，更是將其當(dāng)作展示自我優(yōu)勢(shì)的實(shí)現(xiàn)方式。在此基礎(chǔ)上，他們也會(huì)和其他人進(jìn)行炫耀和比較，從而獲得進(jìn)一步的快感和滿足。

事實(shí)上，在 20 世紀(jì)初，糖果生產(chǎn)商們就推出了具有蒸汽挖掘機(jī)外表的糖果販賣機(jī)，也就是最原始的抓娃娃機(jī)，人們只要按一下，百分之百會(huì)有糖果出來(lái)。后來(lái)，當(dāng)糖果機(jī)在美國(guó)和日本流行時(shí)，人們能抓的東西就不僅僅是糖果了，而是會(huì)有很多小型的玩具。20 世紀(jì)中后期，經(jīng)濟(jì)的發(fā)展，也讓娃娃機(jī)中的物品加入了各種各樣的文化和娛樂(lè)形象，風(fēng)靡一時(shí)。

如果說(shuō)玩家在體驗(yàn)娃娃機(jī)時(shí)，能夠精準(zhǔn)地通過(guò)按鍵控制機(jī)器的橫縱移動(dòng)來(lái)抓起商品，是一種可以被訓(xùn)練的技術(shù)，那么之后出現(xiàn)的扭蛋機(jī)，則是在游戲化的體驗(yàn)中真正引入了抽獎(jiǎng)概念。扭蛋機(jī)前的宣傳卡會(huì)清楚地展示里面賣的是什么，只要玩家投入硬幣然后扭動(dòng)開(kāi)關(guān)，裝有圖示中隨機(jī)一款玩具的扭蛋就會(huì)從出口落下。

相比起扭蛋這種依賴于固定場(chǎng)所和機(jī)器的抽獎(jiǎng)方式，美國(guó)數(shù)學(xué)教授 Richard Garfield 在 1993 年發(fā)明了萬(wàn)智牌，它不僅代表著交換式卡牌游戲誕生的里程碑，也代表了“抽獎(jiǎng) 收集應(yīng)用”的鐵三角模式。

在商店出售的每一個(gè)包里都有數(shù)量和稀有度固定的隨機(jī)卡牌，只有當(dāng)玩家購(gòu)買后才知道卡牌具體是什么型，為了組成自己的組合，很多玩家會(huì)通過(guò)交換來(lái)?yè)Q得自己想要的實(shí)體卡牌，這也就是交換式卡牌（TCG, trading card game）的由來(lái)。

事實(shí)上，除了像神奇寶貝、游戲王這種通過(guò)抽獎(jiǎng)獲取并具有收藏屬性的卡牌外，很多消費(fèi)品也包含了這兩種屬性，比如在十幾年前小浣熊干脆面出的水滸系列卡牌，和現(xiàn)在很多口紅廠商使用的禮盒套裝等。這一類收集的對(duì)象往往是實(shí)體，人們對(duì)其收藏價(jià)值能有較為直觀的認(rèn)知。

雖然通過(guò)不確定的獲取來(lái)完成物品的收藏能給人們自己帶來(lái)持續(xù)的滿足感，但人們更關(guān)注是否能使用物品來(lái)獲得人與人之間的比較優(yōu)勢(shì)。當(dāng)收集和養(yǎng)成、對(duì)抗等應(yīng)用型功能所結(jié)合，人們就會(huì)更將其視為自己實(shí)現(xiàn)差異化的方式。

在信息時(shí)代，收藏對(duì)象的實(shí)體載體在完成數(shù)字化的同時(shí)，也承載了更加多樣的關(guān)系。電腦游戲誕生后，玩家之間的交易變成了玩家和游戲廠商之間的交易，也就從交換式卡牌（TCG, trading card game）慢慢的變成了收集式卡牌（CCG, collectible card game）。

當(dāng)用戶使用這些數(shù)字內(nèi)容進(jìn)行交互時(shí)，這些關(guān)系會(huì)以更高的頻次和更快的速度對(duì)人們的期望進(jìn)行刺激、反饋和滿足，并在這樣的過(guò)程中建立越來(lái)越穩(wěn)固的情感鏈接。

對(duì)于中國(guó)玩家來(lái)說(shuō)，大部分人最早是通過(guò)《擴(kuò)散性百萬(wàn)亞瑟王》這款游戲接觸到“抽獎(jiǎng) 收集應(yīng)用”的模式。在過(guò)去十年里，日本動(dòng)漫對(duì)于國(guó)內(nèi)市場(chǎng)的影響逐漸增大，玩家和用戶在接受二次元風(fēng)格的游戲內(nèi)容時(shí)，也推動(dòng)了后續(xù)國(guó)內(nèi)一眾廠商選擇了這種以抽卡為主的 F2P IAP 模式。

隨著這種商業(yè)模式在中國(guó)游戲市場(chǎng)成為主流，傳統(tǒng)的 copy sales、內(nèi)容直購(gòu)等模式也在逐漸向抽獎(jiǎng)靠攏，比如 RPG 游戲《魔獸世界》中的抽坐騎、FPS游戲《CS:GO》中的抽槍械皮膚等。

當(dāng)實(shí)體對(duì)象變成了數(shù)字內(nèi)容，不僅解決了供給的限制，也降低了流動(dòng)的障礙，從而將收集本身變得更有效，數(shù)字技術(shù)也將內(nèi)容的其他屬性實(shí)現(xiàn)了更多元化的呈現(xiàn)。

設(shè)計(jì)者們不僅在卡牌本身內(nèi)容上，也在角色、裝備、技能等游戲元素中加上了不確定性，讓玩家不斷地產(chǎn)生預(yù)期，從而在一次次地靠近預(yù)期過(guò)程中，獲得不確定的快樂(lè)。

同時(shí)，為了更好地將斯金納的強(qiáng)化理論應(yīng)用在游戲中，設(shè)計(jì)者們也將集換式的內(nèi)容加上了如同對(duì)抗、養(yǎng)成、社交等游戲機(jī)制和玩法，不僅通過(guò)其他玩家強(qiáng)化自身和數(shù)字內(nèi)容的關(guān)系，也通過(guò)數(shù)字內(nèi)容本身進(jìn)一步地將人與人之間的各種需求放大。

這些常見(jiàn)的抽卡類游戲，就是基于人們的反饋機(jī)制，滿足玩家這種由不確定和預(yù)期產(chǎn)生的快樂(lè)。當(dāng)玩家預(yù)期自己能獲得想抽到的角色時(shí)，大腦就已經(jīng)開(kāi)始分泌多巴胺，而不是真的等好事情發(fā)生才開(kāi)始分泌。

對(duì)于人們來(lái)說(shuō)，“差一點(diǎn)就贏/獲得”引起的多巴胺分泌程度只比“真的贏/獲得”稍低一點(diǎn)而已，并且“差一點(diǎn)就贏/獲得”為人們提供了不確定的引導(dǎo)，從而不斷地強(qiáng)化玩家的行為。

玩家的期望就是隨機(jī)出現(xiàn)的強(qiáng)化物，玩家偶然實(shí)現(xiàn)一次期望，接下來(lái)就會(huì)渴望下一次實(shí)現(xiàn)，如此循環(huán)往復(fù)。

在人工智能領(lǐng)域中的強(qiáng)化學(xué)習(xí)，不僅是心理學(xué)和計(jì)算科學(xué)交叉的產(chǎn)物，也是我們通過(guò)機(jī)器了解自己的重要方式，其核心在于讓機(jī)器通過(guò)通過(guò)正確的行為來(lái)獲得正確預(yù)測(cè)的獎(jiǎng)勵(lì)。

雖然機(jī)器和人們?cè)陬A(yù)測(cè)未來(lái)的時(shí)候總會(huì)發(fā)生偏差，但事實(shí)上我們從自己身上發(fā)生了可以通過(guò)多次執(zhí)行來(lái)不斷地讓我們的行為逼近正確。在強(qiáng)化學(xué)習(xí)的理論中，雖然我們無(wú)法獲得絕對(duì)準(zhǔn)確的預(yù)測(cè)，但我們可以通過(guò)環(huán)境的反饋不斷地調(diào)整策略。

當(dāng)我們讓目前行為和預(yù)期行為所帶來(lái)的獎(jiǎng)勵(lì)預(yù)測(cè)誤差逐步趨近于零，這就達(dá)到了強(qiáng)化學(xué)習(xí)的最優(yōu)狀態(tài)。

在經(jīng)典的強(qiáng)化學(xué)習(xí)理論中，機(jī)器最終學(xué)習(xí)的目標(biāo)不是獲得最大的獎(jiǎng)勵(lì)，而是獲得最小的預(yù)測(cè)誤差，并可以很好地解釋心理學(xué)中的條件反射現(xiàn)象。同時(shí)，它也告訴我們快樂(lè)并不是來(lái)源于獎(jiǎng)勵(lì)的絕對(duì)值，并不是獲得越大的獎(jiǎng)勵(lì)就會(huì)越快樂(lè)，其實(shí)我們要的是獎(jiǎng)勵(lì)的相對(duì)變化預(yù)期。

即使如此，經(jīng)典的強(qiáng)化學(xué)習(xí)理論默認(rèn)了未來(lái)發(fā)生的獎(jiǎng)勵(lì)是一定的，而沒(méi)有考慮不確定的預(yù)期。為了解決這個(gè)問(wèn)題，分布式的強(qiáng)化學(xué)習(xí)理論指出，我們和機(jī)器不僅需要考慮未來(lái)獎(jiǎng)勵(lì)的期望，同樣要考慮期望的整個(gè)分布。它代表了不確定性的大小也會(huì)影響到?jīng)Q策的發(fā)生，我們需要將期望的分布作為獎(jiǎng)勵(lì)的一部分。

當(dāng)不同的個(gè)體具有不同的對(duì)未來(lái)的獎(jiǎng)勵(lì)預(yù)期分布，那么它在正向或負(fù)向的誤差反饋中會(huì)得到不對(duì)稱的刺激，從而表現(xiàn)出具體的性格。根據(jù)這個(gè)想法，Deepmind 也對(duì)多巴胺神經(jīng)細(xì)胞進(jìn)行了實(shí)驗(yàn)，觀測(cè)到了性質(zhì)相同的現(xiàn)象：不同的細(xì)胞對(duì)正向或負(fù)向的預(yù)期獎(jiǎng)勵(lì)具有不確定的反應(yīng)。

因此，我們的神經(jīng)系統(tǒng)會(huì)不停地預(yù)測(cè)此刻的行為和下一刻獎(jiǎng)勵(lì)的關(guān)系。當(dāng)這種預(yù)測(cè)出現(xiàn)了偏差，就要通過(guò)一個(gè)神經(jīng)遞質(zhì)，來(lái)讓所有做出預(yù)測(cè)的神經(jīng)元改變預(yù)期，而這種神經(jīng)遞質(zhì)就是多巴胺。

只要我們有行為，神經(jīng)系統(tǒng)就會(huì)基于我們的認(rèn)知產(chǎn)生預(yù)期。事實(shí)和預(yù)期的絕對(duì)偏差將會(huì)產(chǎn)生多巴胺，從而改變我們的下一次預(yù)期。如果這個(gè)預(yù)期恰好是我們所需求的，預(yù)期的偏差和調(diào)整就會(huì)給我們帶來(lái)所謂的快樂(lè)，即源于不確定的快樂(lè)。

四、發(fā)現(xiàn)未知的快樂(lè)：游戲中的探索

人類十分擅長(zhǎng)使用現(xiàn)有的邏輯系統(tǒng)識(shí)別一系列的現(xiàn)象，并嘗試去發(fā)現(xiàn)與總結(jié)規(guī)律，以至于有時(shí)我們會(huì)經(jīng)常誤認(rèn)為，在完全隨機(jī)的事情背后也存在規(guī)律。

當(dāng)某種行為提供了一種反饋，我們總是會(huì)不由自主地將它與其他事情聯(lián)系起來(lái)，非常希望找到一個(gè)與結(jié)果相關(guān)的原因，從而弄明白怎么做才能實(shí)現(xiàn)我們的想法、獲得想要的東西。

期望和不確定性確實(shí)會(huì)給人帶來(lái)實(shí)現(xiàn)愿望的快樂(lè)，但斯金納的理論同樣告訴我們，如果我們通過(guò)“假想”的推理或儀式獲得反饋，很可能會(huì)讓我們進(jìn)入通過(guò)自我強(qiáng)化來(lái)獲得愉悅的誤區(qū)。

我們想要的愉悅感，其實(shí)是獎(jiǎng)勵(lì)的一種表現(xiàn)形式。這種感覺(jué)來(lái)源于做出的行為和對(duì)應(yīng)的結(jié)果之間的關(guān)系。然而，獎(jiǎng)勵(lì)不等同于愉悅感，也不等同于快樂(lè)。

雖然愉悅感會(huì)伴隨多巴胺的出現(xiàn)而產(chǎn)生，但準(zhǔn)確地說(shuō)，多巴胺并不是獎(jiǎng)勵(lì)本身產(chǎn)生的，而是來(lái)源于我們對(duì)獎(jiǎng)勵(lì)的期望和實(shí)際發(fā)生情況的差距。

在行為的參與下，這種獎(jiǎng)勵(lì)的預(yù)測(cè)誤差會(huì)引起多巴胺的釋放，并在反饋機(jī)制的作用下，促使我們發(fā)生更多的行為將偶然的獎(jiǎng)勵(lì)變成必然。因此，從不確定中產(chǎn)生快樂(lè)的路徑為：確定的行為，以不確定的發(fā)生概率，發(fā)生確定的可能結(jié)果。

事實(shí)上，同樣是從不確定中獲得快樂(lè)，我們可以通過(guò)修改發(fā)生的路徑，從而帶來(lái)不一樣的結(jié)果。當(dāng)我們不斷地發(fā)生某個(gè)確定的行為時(shí)，如果我們每次獲得的結(jié)果是不一樣的，并且無(wú)法預(yù)測(cè)到結(jié)果是什么，那么每一次的實(shí)際結(jié)果所帶來(lái)的獎(jiǎng)勵(lì)都是和事先預(yù)期具有差距的，也會(huì)因此產(chǎn)生多巴胺和愉悅感。

這就是在探索和發(fā)現(xiàn)未知過(guò)程中，通過(guò)獲得超出預(yù)期的結(jié)果而帶來(lái)快樂(lè)和滿足。

我們?cè)谟螒蛑羞M(jìn)行探索時(shí)，會(huì)進(jìn)入到不同的地圖、遇到不同的怪物和 NPC、產(chǎn)生不同的對(duì)話和故事。但目前大部分的這些內(nèi)容都是靠人力產(chǎn)出的，從而在投入產(chǎn)出效率的約束下，無(wú)法在嚴(yán)格意義上給予玩家持續(xù)提供超出預(yù)期的體驗(yàn)。玩家在逐漸熟悉這些有限的內(nèi)容時(shí)，就將自己的期望快速地消耗完畢，從而失去了心流體驗(yàn)。

很明顯的一點(diǎn)是，如果我們想給玩家或用戶帶來(lái)持續(xù)的超越預(yù)期，并讓其感到持續(xù)的快樂(lè)，使用傳統(tǒng)的技術(shù)、生產(chǎn)方式是永遠(yuǎn)無(wú)法實(shí)現(xiàn)的，人們消耗內(nèi)容的速度會(huì)遠(yuǎn)大于生產(chǎn)內(nèi)容的速度。

因此，在人工智能的協(xié)助下，人們才有可能生產(chǎn)出能夠持續(xù)地給用戶提供超出預(yù)期的結(jié)果，進(jìn)一步可以在條件反射機(jī)制上，通過(guò)將這種結(jié)果作為神經(jīng)系統(tǒng)的獎(jiǎng)勵(lì)，來(lái)鼓勵(lì)人們?nèi)ヌ剿魑粗?，去嘗試新的體驗(yàn)。

事實(shí)上，涌現(xiàn)式體驗(yàn)就是在這個(gè)方向上的一種嘗試，從康威生命游戲（Conway's Game of Life）到荒野大鏢客 2（RDR 2），基于簡(jiǎn)單規(guī)則下的復(fù)雜系統(tǒng)為我們提供了獲得快樂(lè)的另一種方式。

在每一次的交互中，即使我們執(zhí)行同樣的行為和操作，數(shù)字內(nèi)容也會(huì)給我們提供不同的反應(yīng)，這種反應(yīng)同時(shí)還是我們無(wú)法進(jìn)行預(yù)期的，自然也就不存在概率問(wèn)題。

我們不僅會(huì)因?yàn)轭A(yù)期的超越而感到快樂(lè)，也會(huì)很迷信地嘗試從結(jié)果反向?qū)ふ乙?guī)律，并在尋找的過(guò)程中因?yàn)樵俅纬筋A(yù)期產(chǎn)生更多的快樂(lè)。

寫(xiě)在最后

無(wú)論是科學(xué)還是游戲，人們?cè)诠亲永锼坪蹙筒刂鴮?duì)完美和完整的追求。事實(shí)上，正如絕對(duì)的完美是不存在的，我們也無(wú)法對(duì)未來(lái)做出絕對(duì)準(zhǔn)確的預(yù)測(cè)。

雖然我們能通過(guò)重復(fù)地做某件事情，來(lái)嘗試建立認(rèn)知并獲取世界的規(guī)律，但單向前進(jìn)的人生使得我們?cè)诿恳淮蔚臎Q定中都無(wú)法完全還原所有因素，我們也因此會(huì)更加在乎不確定性的識(shí)別和期望的管理。

在以游戲和社交為主的數(shù)字世界中，當(dāng)我們一次次地產(chǎn)生期望、獲得反饋和調(diào)整期望時(shí)，我們不僅獲得了認(rèn)知，也收獲了快樂(lè)。事實(shí)上，在短暫的生命里，如何獲得更多的快樂(lè)也成為了很多人想要解決的問(wèn)題，而在大多情況下，我們總是在用新方法解決舊問(wèn)題。

概率可以給予我們期望并產(chǎn)生愉悅，但又會(huì)將這種快樂(lè)約束在有限目標(biāo)的無(wú)盡嘗試中。當(dāng)我們跳出概率的固有約束，就能在創(chuàng)造和探索未知中，獲得更加深層次的快樂(lè)與滿足。

本文來(lái)自微信公眾號(hào)：rct studio，運(yùn)用人工智能打造下一代交互式娛樂(lè)體驗(yàn)

本內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表虎嗅立場(chǎng)。授權(quán)事宜請(qǐng)聯(lián)系 hezuo@huxiu.com
如對(duì)本稿件有異議或投訴，請(qǐng)聯(lián)系tougao@huxiu.com

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：新用戶50139826 > 《待分類》

舉報(bào)/認(rèn)領(lǐng)