本文來(lái)自微信公眾號(hào):rct studio,原文標(biāo)題:《期望、行為和獎(jiǎng)勵(lì):在不確定和未知的游戲中,獲得確定的快樂(lè)》 大自然讓我們熱愛(ài)冒險(xiǎn),從而能更好地生存和繁衍。人們要敢于冒險(xiǎn),才能獲得更大的收益。雖然冒險(xiǎn)就意味著未知,但不確定的獎(jiǎng)勵(lì)會(huì)格外的誘人,也能在關(guān)鍵時(shí)刻幫助我們做出決定。 在長(zhǎng)期的進(jìn)化和演變中,每個(gè)人都會(huì)對(duì)自己行為的不確定結(jié)果抱有各種期待,這種期待和幻想的產(chǎn)生,也會(huì)伴隨著愉悅的出現(xiàn)。在期望還沒(méi)有實(shí)現(xiàn)前,隨著它的增加,愉悅就已經(jīng)會(huì)不斷地上升。而一旦不確定的期望獲得滿足,對(duì)應(yīng)的行為就會(huì)得到更強(qiáng)的鞏固。 當(dāng)獎(jiǎng)勵(lì)和期望的范圍是有限的,固定目標(biāo)的無(wú)法獲得反而會(huì)刺激人們產(chǎn)生克服不確定性的需求,并持續(xù)地強(qiáng)化這種行為。 若獎(jiǎng)勵(lì)的目標(biāo)或范圍是無(wú)法預(yù)計(jì)的,或是每一次獲得的獎(jiǎng)勵(lì)都是超出預(yù)先設(shè)想之外的,人們獲取滿足和快樂(lè)的方式,就跳出了系統(tǒng)內(nèi)的約束,從而轉(zhuǎn)向了對(duì)未知的不斷探索。 大多情況下,我們總是在用新方法解決舊問(wèn)題。概率可以給予我們期望并產(chǎn)生愉悅,但又會(huì)將這種快樂(lè)約束在有限目標(biāo)的無(wú)盡嘗試中。 當(dāng)我們跳出概率的固有約束,就能在創(chuàng)造和探索豐富的可能中,獲得屬于自己的快樂(lè)與滿足。 一、期望的起點(diǎn):不確定、未知、不可知 我們對(duì)于世界的認(rèn)識(shí)是離散化的,從認(rèn)知的狀態(tài)和認(rèn)知的可行性來(lái)說(shuō),可以分為這四個(gè)部分: 通過(guò)我們已有的認(rèn)知邏輯,世界中一部分的信息是可知,其中雖然有一部分信息是我們暫時(shí)不知道的,但隨著對(duì)世界認(rèn)識(shí)的不斷增加,這部分信息是可以被我們所知道的。對(duì)于這一類信息,我們的認(rèn)知方式是離散的,也就是通過(guò)概率去獲得信息,并做出對(duì)應(yīng)的反應(yīng)。 同時(shí),由于邏輯系統(tǒng)自身的限制,我們無(wú)法通過(guò)這些系統(tǒng)認(rèn)知到世界中的其他信息,因此這部分信息是我們無(wú)論使用任何方法是都無(wú)法知道的。對(duì)于這些信息,我們只有跳出現(xiàn)有的邏輯系統(tǒng)才能獲得。 當(dāng)事件的發(fā)生與否是不確定的,這也就是事件的發(fā)生概率。我們知道事件發(fā)生的結(jié)果數(shù)量是有限的,只是不確定每次發(fā)生的結(jié)果是什么。為了能更簡(jiǎn)單的理解可知信息的不確定性,我們使用期望來(lái)描述。 因此,我們的期望來(lái)源于“可知但不確定”的事件,而不是“可知但未知”的事件。 對(duì)于“可知但不確定”的事件,我們對(duì)于事件發(fā)生的結(jié)果有著明確的認(rèn)知,從而會(huì)預(yù)先理解到每一個(gè)結(jié)果,對(duì)其產(chǎn)生情感上的期望,并帶來(lái)多巴胺和快樂(lè)。 而對(duì)于“可知卻未知”,由于我們無(wú)法明確每一個(gè)結(jié)果是什么,因此每一次出現(xiàn)的結(jié)果都是 over expectation,從而會(huì)給人們來(lái)帶另外一種情感上的刺激,也就是另外一種快樂(lè)。 進(jìn)一步來(lái)看,人們對(duì)期望實(shí)現(xiàn)的不確定,不僅體現(xiàn)在多巴胺所帶來(lái)的快樂(lè)和反饋機(jī)制上,也會(huì)體現(xiàn)在人們的決策機(jī)制上。 在行為經(jīng)濟(jì)學(xué)中,2002 年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼告訴我們:在必然會(huì)發(fā)生損失的情況下,人們的行為會(huì)表現(xiàn)出風(fēng)險(xiǎn)偏好;而在必然會(huì)受益的情況下,人們的行為反而表現(xiàn)出風(fēng)險(xiǎn)厭惡。 同時(shí),人們?cè)诿鎸?duì)小概率的損失時(shí),則會(huì)傾向于風(fēng)險(xiǎn)規(guī)避,而面對(duì)小概率的獲得時(shí),人們又傾向于風(fēng)險(xiǎn)偏好。 這樣的決策方式,也對(duì)經(jīng)濟(jì)學(xué)中的理性人假設(shè)提出了挑戰(zhàn),它指出我們的決策并不是我們想象的那么理性,我們的預(yù)期會(huì)通過(guò)影響情感從而改變純粹理性的決策。 消費(fèi)者,或稱為玩家,都是趨利避害的動(dòng)物。雖然客觀上的利其實(shí)是食物、生存條件等,但人類主觀上的利全都是愉悅感。人們長(zhǎng)期的演變中,進(jìn)化出了一種獲取快樂(lè)的機(jī)制,不同的行為會(huì)激發(fā)大腦中負(fù)責(zé)提供獎(jiǎng)勵(lì)的那部分組織分泌多巴胺,從而讓人們?cè)谥饔^上覺(jué)得很開(kāi)心。這種神經(jīng)機(jī)制,也會(huì)將人們的行為與快樂(lè)所聯(lián)系在一起,促使人類實(shí)施更多這樣的行為。 同時(shí),不確定性也和多巴胺建立了對(duì)應(yīng)的激勵(lì)關(guān)系。在隨機(jī)性的結(jié)果出現(xiàn)前,人們往往對(duì)結(jié)果有期待,這種期待會(huì)隨著行為的增加而累積。當(dāng)期待被實(shí)現(xiàn)時(shí),相比于確定的結(jié)果,不確定性會(huì)使人們分泌更多的多巴胺,從而獲得更多的快樂(lè),這會(huì)使得反饋機(jī)制得到更穩(wěn)固的強(qiáng)化。 只要人們對(duì)于未知的有期待,快樂(lè)就會(huì)因此而產(chǎn)生。如果個(gè)體對(duì)行為結(jié)果沒(méi)有期待,就算事情的結(jié)果對(duì)個(gè)體再有適應(yīng)的意義,也很難讓其持續(xù)地進(jìn)行對(duì)應(yīng)的行為。 然而,對(duì)于無(wú)法預(yù)料到的結(jié)果,我們無(wú)法產(chǎn)生期望,從而無(wú)法進(jìn)行上述的反饋機(jī)制。意料之外的結(jié)果也會(huì)讓我們通過(guò)類比和聯(lián)想的方式,從已有的快樂(lè)中找到最相似的一種,產(chǎn)生對(duì)應(yīng)的多巴胺和快樂(lè)。 無(wú)論是已知的期望還是未知的刺激,僅存在幻想是無(wú)法持續(xù)地驅(qū)動(dòng)人們做出對(duì)應(yīng)的決策和行為。雖然人們追求快樂(lè),逃避痛苦;追求確定,逃避未知,但期望和不確定性卻構(gòu)成了人們對(duì)某個(gè)事物的情感依賴。 二、行為與反饋:巴普洛夫的狗、斯金納的老鼠和鴿子 心理學(xué)家巴甫洛夫(Ivan Pavlov)通過(guò)研究動(dòng)物的條件反射行為,提出了高級(jí)神經(jīng)活動(dòng)學(xué)說(shuō)。這種高級(jí)的神經(jīng)活動(dòng),使得動(dòng)物的軀體能與外界產(chǎn)生一系列的復(fù)雜關(guān)系,并在不斷的完善中適應(yīng)于周圍環(huán)境。 在經(jīng)典的條件反射實(shí)驗(yàn)中,巴甫洛夫?qū)吩诓煌闆r下的唾液分泌進(jìn)行了測(cè)量,發(fā)現(xiàn)狗在聞到、看到、靠近和吃食物的時(shí)候,都會(huì)分泌唾液。他認(rèn)為狗的這種反應(yīng)是本能且固有的,將食物稱為無(wú)條件刺激(unconditioned stimulus,簡(jiǎn)稱 UCS),也把產(chǎn)生的唾液分泌稱為無(wú)條件反射(unconditioned reflex,簡(jiǎn)稱 UCR)。 在另一組實(shí)驗(yàn)中,巴甫洛夫給狗食物之前,會(huì)開(kāi)啟一個(gè)節(jié)拍器,然后每次都重復(fù)這個(gè)操作,狗在聽(tīng)到節(jié)拍器而沒(méi)有食物時(shí),也會(huì)分泌唾液。之后,他又將節(jié)拍器換成了鈴聲、哨子等,也都發(fā)生了一樣的結(jié)果。但如果只進(jìn)行各種刺激,而不提供食物,狗也會(huì)逐漸地不分泌唾液。 在將無(wú)條件刺激(食物)和引起探索性反射的中性刺激結(jié)合后,狗就能對(duì)某一種刺激形成條件作用。鈴聲就成了條件刺激(conditioned stimulus,簡(jiǎn)稱 CS),由鈴聲引起的唾液分泌就是條件反射(conditioned reflex,簡(jiǎn)稱 CR)。 實(shí)驗(yàn)的結(jié)果說(shuō)明了,當(dāng)中性的刺激和無(wú)條件的刺激結(jié)合后,動(dòng)物能逐漸地學(xué)會(huì)對(duì)那個(gè)中性刺激做出反應(yīng)。這種刺激可以通過(guò)重復(fù)的條件刺激來(lái)強(qiáng)化,也可以通過(guò)只給條件刺激而不提供無(wú)條件刺激來(lái)削弱甚至完全消失。 在巴普洛夫的條件反應(yīng)學(xué)說(shuō)被提出后,早期的行為主義實(shí)驗(yàn)幾乎都在嘗試將某種刺激與生物的某種行為關(guān)聯(lián)起來(lái),從而觀察與分析對(duì)應(yīng)的反應(yīng)。 更值得一提的是,條件刺激下的反應(yīng)不僅是生理上的,也是心理上的。當(dāng)生理上的感覺(jué)伴隨著條件刺激發(fā)生時(shí),動(dòng)物會(huì)非條件性地產(chǎn)生不同的情緒,比如開(kāi)心、難過(guò)、焦慮、害怕等。在這種刺激重復(fù)發(fā)生幾次后,即使生理上的感覺(jué)沒(méi)有真的發(fā)生,這種條件刺激也會(huì)讓人們產(chǎn)生對(duì)應(yīng)的情緒。 一位來(lái)自哈佛大學(xué)的心理學(xué)教授斯金納(Burrhus Frederic Skinner),通過(guò)一個(gè)實(shí)驗(yàn)將這種生理上和心理上的條件性刺激,同時(shí)變得可操作化。他設(shè)計(jì)了一個(gè)箱子,里面有一個(gè)可以按鈕,同時(shí)在箱子的底部擺放著一個(gè)是食物盤。 在箱子的外部,按鈕與提供食物的裝置相連,只要箱內(nèi)的動(dòng)物按下按鈕,食物就會(huì)出現(xiàn)在食物盤內(nèi)。然后他將一只饑餓的老鼠放在箱子里,當(dāng)老鼠按下按鈕時(shí),它就能獲得食物。 同時(shí),當(dāng)實(shí)驗(yàn)人員不再投放食物,老鼠按下按鈕也不會(huì)獲得食物時(shí),老鼠已建立的行為習(xí)慣就會(huì)很快地消失。在另外一個(gè)對(duì)照實(shí)驗(yàn)中,實(shí)驗(yàn)人員將食物的出現(xiàn)機(jī)制改成了隨機(jī)掉落,老鼠同樣也學(xué)會(huì)了不停的按下按鈕。即便是按下不確定的幾十次才會(huì)掉落一個(gè)食物,老鼠仍然會(huì)在很長(zhǎng)的一段時(shí)間里,保持這一行為習(xí)慣。 因此斯金納認(rèn)為,動(dòng)物不僅會(huì)受到刺激而給出反應(yīng),還會(huì)受事后刺激的持續(xù)影響;只要?jiǎng)游锩靼祝合胍@得獎(jiǎng)賞就需要完成所需的條件,他們的行為就可以被操作和影響。斯納金同樣也專門研究了行為模式的消退速度。他發(fā)現(xiàn),相比起固定間隔的刺激與操作,隨機(jī)間隔的刺激會(huì)讓個(gè)體以最長(zhǎng)的時(shí)間持續(xù)發(fā)生某種行為。 除此之外,斯金納也提出了強(qiáng)化物的概念,用以描述各種需求,它們能讓個(gè)體被不斷刺激從而強(qiáng)化對(duì)應(yīng)的行為。在實(shí)驗(yàn)中,如果我們把老鼠按下按鈕視為一個(gè)想要其不斷執(zhí)行的操作,那作為獎(jiǎng)勵(lì)的食物就是“積極強(qiáng)化物”。而當(dāng)個(gè)體為消除某種刺激而做出某種重復(fù)的行為時(shí),這個(gè)刺激就叫“消極強(qiáng)化物”。 一級(jí)強(qiáng)化物主要解決人的基本生理需求,比如呼吸、進(jìn)食、休息等,它們具有較強(qiáng)的邊際效益。同時(shí),當(dāng)人們對(duì)于這一類需求的滿足感達(dá)到一個(gè)上限后,短期內(nèi),一級(jí)強(qiáng)化物對(duì)行為的刺激和強(qiáng)化作用將會(huì)大幅減弱。 二級(jí)強(qiáng)化物(刺激強(qiáng)化物)本身是一個(gè)中性刺激,一開(kāi)始對(duì)行為沒(méi)有強(qiáng)化作用,但它可以和一系列的一級(jí)強(qiáng)化物產(chǎn)生關(guān)聯(lián),從而發(fā)揮作用,比如金錢本來(lái)只是一堆紙或者數(shù)字,但它可以基于貨幣的屬性換取更多人們想要的東西。 當(dāng)二級(jí)強(qiáng)化物和一級(jí)強(qiáng)化物組合后,二級(jí)強(qiáng)化物所產(chǎn)生的邊際效益會(huì)減弱很多,從而人們會(huì)在更長(zhǎng)的時(shí)間里為這種強(qiáng)化物進(jìn)行付出。 另外,斯金納還做使用鴿子做了一個(gè)有趣的實(shí)驗(yàn)。在鴿子每次成功轉(zhuǎn)圈飛行后,他給鴿子提供食物進(jìn)行獎(jiǎng)勵(lì),讓鴿子學(xué)會(huì)了轉(zhuǎn)圈。 當(dāng)他不定時(shí)地進(jìn)行投喂時(shí),發(fā)現(xiàn)其中有幾只鴿子會(huì)在投食的食物會(huì)做出某些特定動(dòng)作,認(rèn)為這些動(dòng)作會(huì)和食物的出現(xiàn)有一定管關(guān)聯(lián),比如點(diǎn)頭、搖擺、將頭伸向某個(gè)固定方向等。這種迷信的行為,其實(shí)在人類身上也經(jīng)常出現(xiàn)。 人們的行為在不斷地被強(qiáng)化過(guò)程中,也會(huì)在心理上獲得一系列的情緒波動(dòng),從而產(chǎn)生心流般的愉悅體驗(yàn)。這些理論被提出后,被我們廣泛地應(yīng)用在各行各業(yè),產(chǎn)品設(shè)計(jì)者們使用這些方法讓用戶和玩家感到持續(xù)的快樂(lè)。 三、源于不確定的快樂(lè):游戲中的收集 2019 年 11 月,泡泡瑪特在天貓“雙十一”當(dāng)天的銷量為 8252 萬(wàn),斬獲天貓玩具類目第一名。一年后,2020 年 12 月 11 日,泡泡瑪特(Pop Mart)在香港上市,公司市值破 1000 億港元。憑借著對(duì)潮流文化的理解和玩具IP的成功孵化,泡泡瑪特讓產(chǎn)品進(jìn)入了用戶的習(xí)慣區(qū)間,從而讓現(xiàn)實(shí)化的虛擬形象獲得了持續(xù)的生命力。 在消費(fèi)者購(gòu)買盲盒之前,廠商就提供了對(duì)應(yīng)的幻想,告訴消費(fèi)者他可能獲得的對(duì)象。在打開(kāi)盒子之前,消費(fèi)者的期待值會(huì)一直累加,并在打開(kāi)盒子的一瞬間達(dá)到頂峰。隨后而來(lái)的只有兩種情況,沒(méi)有獲得期望中物品的消費(fèi)者,收獲了失望但立馬想要翻盤;期望實(shí)現(xiàn)的消費(fèi)者將會(huì)獲得巨大的快樂(lè),并想要讓這種快樂(lè)繼續(xù)下去。 在感性驅(qū)動(dòng)下,消費(fèi)者除了將盲盒視為滿足自身占有欲的載體,更是將其當(dāng)作展示自我優(yōu)勢(shì)的實(shí)現(xiàn)方式。在此基礎(chǔ)上,他們也會(huì)和其他人進(jìn)行炫耀和比較,從而獲得進(jìn)一步的快感和滿足。 事實(shí)上,在 20 世紀(jì)初,糖果生產(chǎn)商們就推出了具有蒸汽挖掘機(jī)外表的糖果販賣機(jī),也就是最原始的抓娃娃機(jī),人們只要按一下,百分之百會(huì)有糖果出來(lái)。后來(lái),當(dāng)糖果機(jī)在美國(guó)和日本流行時(shí),人們能抓的東西就不僅僅是糖果了,而是會(huì)有很多小型的玩具。20 世紀(jì)中后期,經(jīng)濟(jì)的發(fā)展,也讓娃娃機(jī)中的物品加入了各種各樣的文化和娛樂(lè)形象,風(fēng)靡一時(shí)。 如果說(shuō)玩家在體驗(yàn)娃娃機(jī)時(shí),能夠精準(zhǔn)地通過(guò)按鍵控制機(jī)器的橫縱移動(dòng)來(lái)抓起商品,是一種可以被訓(xùn)練的技術(shù),那么之后出現(xiàn)的扭蛋機(jī),則是在游戲化的體驗(yàn)中真正引入了抽獎(jiǎng)概念。扭蛋機(jī)前的宣傳卡會(huì)清楚地展示里面賣的是什么,只要玩家投入硬幣然后扭動(dòng)開(kāi)關(guān),裝有圖示中隨機(jī)一款玩具的扭蛋就會(huì)從出口落下。 相比起扭蛋這種依賴于固定場(chǎng)所和機(jī)器的抽獎(jiǎng)方式,美國(guó)數(shù)學(xué)教授 Richard Garfield 在 1993 年發(fā)明了萬(wàn)智牌,它不僅代表著交換式卡牌游戲誕生的里程碑,也代表了“抽獎(jiǎng) 收集 應(yīng)用”的鐵三角模式。 在商店出售的每一個(gè)包里都有數(shù)量和稀有度固定的隨機(jī)卡牌,只有當(dāng)玩家購(gòu)買后才知道卡牌具體是什么型,為了組成自己的組合,很多玩家會(huì)通過(guò)交換來(lái)?yè)Q得自己想要的實(shí)體卡牌,這也就是交換式卡牌(TCG, trading card game) 的由來(lái)。 事實(shí)上,除了像神奇寶貝、游戲王這種通過(guò)抽獎(jiǎng)獲取并具有收藏屬性的卡牌外,很多消費(fèi)品也包含了這兩種屬性,比如在十幾年前小浣熊干脆面出的水滸系列卡牌,和現(xiàn)在很多口紅廠商使用的禮盒套裝等。這一類收集的對(duì)象往往是實(shí)體,人們對(duì)其收藏價(jià)值能有較為直觀的認(rèn)知。 雖然通過(guò)不確定的獲取來(lái)完成物品的收藏能給人們自己帶來(lái)持續(xù)的滿足感,但人們更關(guān)注是否能使用物品來(lái)獲得人與人之間的比較優(yōu)勢(shì)。當(dāng)收集和養(yǎng)成、對(duì)抗等應(yīng)用型功能所結(jié)合,人們就會(huì)更將其視為自己實(shí)現(xiàn)差異化的方式。 在信息時(shí)代,收藏對(duì)象的實(shí)體載體在完成數(shù)字化的同時(shí),也承載了更加多樣的關(guān)系。電腦游戲誕生后,玩家之間的交易變成了玩家和游戲廠商之間的交易,也就從交換式卡牌(TCG, trading card game) 慢慢的變成了收集式卡牌 (CCG, collectible card game)。 當(dāng)用戶使用這些數(shù)字內(nèi)容進(jìn)行交互時(shí),這些關(guān)系會(huì)以更高的頻次和更快的速度對(duì)人們的期望進(jìn)行刺激、反饋和滿足,并在這樣的過(guò)程中建立越來(lái)越穩(wěn)固的情感鏈接。 對(duì)于中國(guó)玩家來(lái)說(shuō),大部分人最早是通過(guò)《擴(kuò)散性百萬(wàn)亞瑟王》這款游戲接觸到“抽獎(jiǎng) 收集 應(yīng)用”的模式。在過(guò)去十年里,日本動(dòng)漫對(duì)于國(guó)內(nèi)市場(chǎng)的影響逐漸增大,玩家和用戶在接受二次元風(fēng)格的游戲內(nèi)容時(shí),也推動(dòng)了后續(xù)國(guó)內(nèi)一眾廠商選擇了這種以抽卡為主的 F2P IAP 模式。 隨著這種商業(yè)模式在中國(guó)游戲市場(chǎng)成為主流,傳統(tǒng)的 copy sales、內(nèi)容直購(gòu)等模式也在逐漸向抽獎(jiǎng)靠攏,比如 RPG 游戲《魔獸世界》中的抽坐騎、FPS游戲《CS:GO》中的抽槍械皮膚等。 當(dāng)實(shí)體對(duì)象變成了數(shù)字內(nèi)容,不僅解決了供給的限制,也降低了流動(dòng)的障礙,從而將收集本身變得更有效,數(shù)字技術(shù)也將內(nèi)容的其他屬性實(shí)現(xiàn)了更多元化的呈現(xiàn)。 設(shè)計(jì)者們不僅在卡牌本身內(nèi)容上,也在角色、裝備、技能等游戲元素中加上了不確定性,讓玩家不斷地產(chǎn)生預(yù)期,從而在一次次地靠近預(yù)期過(guò)程中,獲得不確定的快樂(lè)。 同時(shí),為了更好地將斯金納的強(qiáng)化理論應(yīng)用在游戲中,設(shè)計(jì)者們也將集換式的內(nèi)容加上了如同對(duì)抗、養(yǎng)成、社交等游戲機(jī)制和玩法,不僅通過(guò)其他玩家強(qiáng)化自身和數(shù)字內(nèi)容的關(guān)系,也通過(guò)數(shù)字內(nèi)容本身進(jìn)一步地將人與人之間的各種需求放大。 這些常見(jiàn)的抽卡類游戲,就是基于人們的反饋機(jī)制,滿足玩家這種由不確定和預(yù)期產(chǎn)生的快樂(lè)。當(dāng)玩家預(yù)期自己能獲得想抽到的角色時(shí),大腦就已經(jīng)開(kāi)始分泌多巴胺,而不是真的等好事情發(fā)生才開(kāi)始分泌。 對(duì)于人們來(lái)說(shuō),“差一點(diǎn)就贏/獲得”引起的多巴胺分泌程度只比“真的贏/獲得”稍低一點(diǎn)而已,并且“差一點(diǎn)就贏/獲得”為人們提供了不確定的引導(dǎo),從而不斷地強(qiáng)化玩家的行為。 玩家的期望就是隨機(jī)出現(xiàn)的強(qiáng)化物,玩家偶然實(shí)現(xiàn)一次期望,接下來(lái)就會(huì)渴望下一次實(shí)現(xiàn),如此循環(huán)往復(fù)。 在人工智能領(lǐng)域中的強(qiáng)化學(xué)習(xí),不僅是心理學(xué)和計(jì)算科學(xué)交叉的產(chǎn)物,也是我們通過(guò)機(jī)器了解自己的重要方式,其核心在于讓機(jī)器通過(guò)通過(guò)正確的行為來(lái)獲得正確預(yù)測(cè)的獎(jiǎng)勵(lì)。 雖然機(jī)器和人們?cè)陬A(yù)測(cè)未來(lái)的時(shí)候總會(huì)發(fā)生偏差, 但事實(shí)上我們從自己身上發(fā)生了可以通過(guò)多次執(zhí)行來(lái)不斷地讓我們的行為逼近正確。在強(qiáng)化學(xué)習(xí)的理論中,雖然我們無(wú)法獲得絕對(duì)準(zhǔn)確的預(yù)測(cè),但我們可以通過(guò)環(huán)境的反饋不斷地調(diào)整策略。 當(dāng)我們讓目前行為和預(yù)期行為所帶來(lái)的獎(jiǎng)勵(lì)預(yù)測(cè)誤差逐步趨近于零,這就達(dá)到了強(qiáng)化學(xué)習(xí)的最優(yōu)狀態(tài)。 在經(jīng)典的強(qiáng)化學(xué)習(xí)理論中,機(jī)器最終學(xué)習(xí)的目標(biāo)不是獲得最大的獎(jiǎng)勵(lì), 而是獲得最小的預(yù)測(cè)誤差,并可以很好地解釋心理學(xué)中的條件反射現(xiàn)象。同時(shí),它也告訴我們快樂(lè)并不是來(lái)源于獎(jiǎng)勵(lì)的絕對(duì)值,并不是獲得越大的獎(jiǎng)勵(lì)就會(huì)越快樂(lè),其實(shí)我們要的是獎(jiǎng)勵(lì)的相對(duì)變化預(yù)期。 即使如此,經(jīng)典的強(qiáng)化學(xué)習(xí)理論默認(rèn)了未來(lái)發(fā)生的獎(jiǎng)勵(lì)是一定的,而沒(méi)有考慮不確定的預(yù)期。為了解決這個(gè)問(wèn)題,分布式的強(qiáng)化學(xué)習(xí)理論指出,我們和機(jī)器不僅需要考慮未來(lái)獎(jiǎng)勵(lì)的期望,同樣要考慮期望的整個(gè)分布。它代表了不確定性的大小也會(huì)影響到?jīng)Q策的發(fā)生,我們需要將期望的分布作為獎(jiǎng)勵(lì)的一部分。 當(dāng)不同的個(gè)體具有不同的對(duì)未來(lái)的獎(jiǎng)勵(lì)預(yù)期分布,那么它在正向或負(fù)向的誤差反饋中會(huì)得到不對(duì)稱的刺激,從而表現(xiàn)出具體的性格。根據(jù)這個(gè)想法,Deepmind 也對(duì)多巴胺神經(jīng)細(xì)胞進(jìn)行了實(shí)驗(yàn),觀測(cè)到了性質(zhì)相同的現(xiàn)象:不同的細(xì)胞對(duì)正向或負(fù)向的預(yù)期獎(jiǎng)勵(lì)具有不確定的反應(yīng)。 因此,我們的神經(jīng)系統(tǒng)會(huì)不停地預(yù)測(cè)此刻的行為和下一刻獎(jiǎng)勵(lì)的關(guān)系。當(dāng)這種預(yù)測(cè)出現(xiàn)了偏差, 就要通過(guò)一個(gè)神經(jīng)遞質(zhì),來(lái)讓所有做出預(yù)測(cè)的神經(jīng)元改變預(yù)期,而這種神經(jīng)遞質(zhì)就是多巴胺。 只要我們有行為,神經(jīng)系統(tǒng)就會(huì)基于我們的認(rèn)知產(chǎn)生預(yù)期。事實(shí)和預(yù)期的絕對(duì)偏差將會(huì)產(chǎn)生多巴胺,從而改變我們的下一次預(yù)期。如果這個(gè)預(yù)期恰好是我們所需求的,預(yù)期的偏差和調(diào)整就會(huì)給我們帶來(lái)所謂的快樂(lè),即源于不確定的快樂(lè)。 四、發(fā)現(xiàn)未知的快樂(lè):游戲中的探索 人類十分擅長(zhǎng)使用現(xiàn)有的邏輯系統(tǒng)識(shí)別一系列的現(xiàn)象,并嘗試去發(fā)現(xiàn)與總結(jié)規(guī)律,以至于有時(shí)我們會(huì)經(jīng)常誤認(rèn)為,在完全隨機(jī)的事情背后也存在規(guī)律。 當(dāng)某種行為提供了一種反饋,我們總是會(huì)不由自主地將它與其他事情聯(lián)系起來(lái),非常希望找到一個(gè)與結(jié)果相關(guān)的原因,從而弄明白怎么做才能實(shí)現(xiàn)我們的想法、獲得想要的東西。 期望和不確定性確實(shí)會(huì)給人帶來(lái)實(shí)現(xiàn)愿望的快樂(lè),但斯金納的理論同樣告訴我們,如果我們通過(guò)“假想”的推理或儀式獲得反饋,很可能會(huì)讓我們進(jìn)入通過(guò)自我強(qiáng)化來(lái)獲得愉悅的誤區(qū)。 我們想要的愉悅感,其實(shí)是獎(jiǎng)勵(lì)的一種表現(xiàn)形式。這種感覺(jué)來(lái)源于做出的行為和對(duì)應(yīng)的結(jié)果之間的關(guān)系。然而,獎(jiǎng)勵(lì)不等同于愉悅感,也不等同于快樂(lè)。 雖然愉悅感會(huì)伴隨多巴胺的出現(xiàn)而產(chǎn)生,但準(zhǔn)確地說(shuō),多巴胺并不是獎(jiǎng)勵(lì)本身產(chǎn)生的,而是來(lái)源于我們對(duì)獎(jiǎng)勵(lì)的期望和實(shí)際發(fā)生情況的差距。 在行為的參與下,這種獎(jiǎng)勵(lì)的預(yù)測(cè)誤差會(huì)引起多巴胺的釋放,并在反饋機(jī)制的作用下,促使我們發(fā)生更多的行為將偶然的獎(jiǎng)勵(lì)變成必然。因此,從不確定中產(chǎn)生快樂(lè)的路徑為:確定的行為,以不確定的發(fā)生概率,發(fā)生確定的可能結(jié)果。 事實(shí)上,同樣是從不確定中獲得快樂(lè),我們可以通過(guò)修改發(fā)生的路徑,從而帶來(lái)不一樣的結(jié)果。當(dāng)我們不斷地發(fā)生某個(gè)確定的行為時(shí),如果我們每次獲得的結(jié)果是不一樣的,并且無(wú)法預(yù)測(cè)到結(jié)果是什么,那么每一次的實(shí)際結(jié)果所帶來(lái)的獎(jiǎng)勵(lì)都是和事先預(yù)期具有差距的,也會(huì)因此產(chǎn)生多巴胺和愉悅感。 這就是在探索和發(fā)現(xiàn)未知過(guò)程中,通過(guò)獲得超出預(yù)期的結(jié)果而帶來(lái)快樂(lè)和滿足。 我們?cè)谟螒蛑羞M(jìn)行探索時(shí),會(huì)進(jìn)入到不同的地圖、遇到不同的怪物和 NPC、產(chǎn)生不同的對(duì)話和故事。但目前大部分的這些內(nèi)容都是靠人力產(chǎn)出的,從而在投入產(chǎn)出效率的約束下,無(wú)法在嚴(yán)格意義上給予玩家持續(xù)提供超出預(yù)期的體驗(yàn)。玩家在逐漸熟悉這些有限的內(nèi)容時(shí),就將自己的期望快速地消耗完畢,從而失去了心流體驗(yàn)。 很明顯的一點(diǎn)是,如果我們想給玩家或用戶帶來(lái)持續(xù)的超越預(yù)期,并讓其感到持續(xù)的快樂(lè),使用傳統(tǒng)的技術(shù)、生產(chǎn)方式是永遠(yuǎn)無(wú)法實(shí)現(xiàn)的,人們消耗內(nèi)容的速度會(huì)遠(yuǎn)大于生產(chǎn)內(nèi)容的速度。 因此,在人工智能的協(xié)助下,人們才有可能生產(chǎn)出能夠持續(xù)地給用戶提供超出預(yù)期的結(jié)果,進(jìn)一步可以在條件反射機(jī)制上,通過(guò)將這種結(jié)果作為神經(jīng)系統(tǒng)的獎(jiǎng)勵(lì),來(lái)鼓勵(lì)人們?nèi)ヌ剿魑粗?,去嘗試新的體驗(yàn)。 事實(shí)上,涌現(xiàn)式體驗(yàn)就是在這個(gè)方向上的一種嘗試,從康威生命游戲(Conway's Game of Life)到荒野大鏢客 2(RDR 2),基于簡(jiǎn)單規(guī)則下的復(fù)雜系統(tǒng)為我們提供了獲得快樂(lè)的另一種方式。 在每一次的交互中,即使我們執(zhí)行同樣的行為和操作,數(shù)字內(nèi)容也會(huì)給我們提供不同的反應(yīng),這種反應(yīng)同時(shí)還是我們無(wú)法進(jìn)行預(yù)期的,自然也就不存在概率問(wèn)題。 我們不僅會(huì)因?yàn)轭A(yù)期的超越而感到快樂(lè),也會(huì)很迷信地嘗試從結(jié)果反向?qū)ふ乙?guī)律,并在尋找的過(guò)程中因?yàn)樵俅纬筋A(yù)期產(chǎn)生更多的快樂(lè)。 寫(xiě)在最后 無(wú)論是科學(xué)還是游戲,人們?cè)诠亲永锼坪蹙筒刂鴮?duì)完美和完整的追求。事實(shí)上,正如絕對(duì)的完美是不存在的,我們也無(wú)法對(duì)未來(lái)做出絕對(duì)準(zhǔn)確的預(yù)測(cè)。 大自然讓我們熱愛(ài)冒險(xiǎn),從而能更好地生存和繁衍。人們要敢于冒險(xiǎn),才能獲得更大的收益。雖然冒險(xiǎn)就意味著未知,但不確定的獎(jiǎng)勵(lì)會(huì)格外的誘人,也能在關(guān)鍵時(shí)刻幫助我們做出決定。 雖然我們能通過(guò)重復(fù)地做某件事情,來(lái)嘗試建立認(rèn)知并獲取世界的規(guī)律,但單向前進(jìn)的人生使得我們?cè)诿恳淮蔚臎Q定中都無(wú)法完全還原所有因素,我們也因此會(huì)更加在乎不確定性的識(shí)別和期望的管理。 在以游戲和社交為主的數(shù)字世界中,當(dāng)我們一次次地產(chǎn)生期望、獲得反饋和調(diào)整期望時(shí),我們不僅獲得了認(rèn)知,也收獲了快樂(lè)。事實(shí)上,在短暫的生命里,如何獲得更多的快樂(lè)也成為了很多人想要解決的問(wèn)題,而在大多情況下,我們總是在用新方法解決舊問(wèn)題。 概率可以給予我們期望并產(chǎn)生愉悅,但又會(huì)將這種快樂(lè)約束在有限目標(biāo)的無(wú)盡嘗試中。當(dāng)我們跳出概率的固有約束,就能在創(chuàng)造和探索未知中,獲得更加深層次的快樂(lè)與滿足。 本文來(lái)自微信公眾號(hào):rct studio,運(yùn)用人工智能打造下一代交互式娛樂(lè)體驗(yàn) 本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表虎嗅立場(chǎng)。授權(quán)事宜請(qǐng)聯(lián)系 hezuo@huxiu.com
如對(duì)本稿件有異議或投訴,請(qǐng)聯(lián)系tougao@huxiu.com |
|
來(lái)自: 新用戶50139826 > 《待分類》