--“囚徒困境”博弈的啟示 我在這里講:從自私自利的觀點(diǎn)出發(fā),用博弈理論來(lái)研究他們?cè)趺茨軌蜃呦蚝献鳌?BR> “要是兩人都是賊一樣精,惦記著占便宜要比起老實(shí)巴交地合作來(lái)得合算,還能合作嗎?” 我的朋友看到這就煩。用自私的博弈來(lái)處理人際關(guān)系?想想都覺得臟。另一位朋友不無(wú)善意地說(shuō):“從學(xué)術(shù)上研究博弈是很崇高優(yōu)雅的。用在戰(zhàn)爭(zhēng)情有可原。對(duì)于經(jīng)濟(jì)也是合適的。把它用在人際關(guān)系?嘖嘖嘖,不說(shuō)也罷。須知人們有一些原則觀念是無(wú)價(jià)的,不能以利害得失來(lái)衡量的!” 我怯怯地問(wèn)一句:“你默完子曰,劃了十字,念過(guò)阿彌陀佛,事事忍讓,對(duì)方還是咄咄逼人,總把善意的你當(dāng)作二百五,你怎么辦?” 你總要在幾種應(yīng)對(duì)之中選一吧?這就是博弈所考慮的。再說(shuō),這無(wú)價(jià)的善念是怎么來(lái)的?人之初性本善?讀書明理,老人傳下來(lái)的?然而從進(jìn)化的角度,不論是自發(fā)于心還是受教于師,這些道德觀念能夠經(jīng)歷千年流傳下來(lái),一定是有其讓人有受益的道理,不然早就被生活磨難中淘汰掉了。這些道理就必須在博弈中贏出。 說(shuō)博弈的目的就是損人利己,這其實(shí)有點(diǎn)誤解,博弈理論并非只研究你死我活的“零和博弈”。40年代馮·諾依曼(Von Neumann)奠基之作就包含了“零和博弈”和“合作博弈”,50年代納什(Nash)便擴(kuò)展到非零和博弈,奠定了“非合作博弈”的基礎(chǔ)。非合作博弈講的是:參加博弈的人沒(méi)的商量各行其是,在選擇策略中不是追求勝過(guò)對(duì)方,而是考慮在別人也不犯傻的情況下怎么讓自己得到最大的好處。當(dāng)博弈不是“常和”時(shí),利己未必要損人。 我這里想用博弈理論教導(dǎo)真正精于算計(jì)的小人認(rèn)同傳統(tǒng)道德。順便探討一下自然界的合作之謎。 ×-×-×-×-× 兩個(gè)強(qiáng)盜Bob和Al持槍搶劫,還來(lái)不及做案時(shí)就被蹲在那兒的警察逮著了?;氐骄掷铮k案的被局長(zhǎng)罵得狗血淋頭:“你傻呀!還沒(méi)作案抓什么?他們要都不認(rèn),最多算非法持槍判個(gè)一年?!?辦案的苦著臉回去,將強(qiáng)盜隔離關(guān)在兩處,提溜Bob出來(lái)說(shuō):“老實(shí)招了,給你一個(gè)機(jī)會(huì)。要是Al抵賴,你去做污點(diǎn)證人,立功了就放你出去,他判十五年。要是Al也招了,立功不成也從寬,那就判你們十年?!?轉(zhuǎn)頭也對(duì)Al說(shuō)類似的話。你說(shuō)Bob和Al會(huì)怎么做? 兩個(gè)強(qiáng)盜“坦白從寬,抗拒從嚴(yán)”政策是學(xué)過(guò),也明白警察沒(méi)有搶劫證據(jù)只能判他們一年。他們只有“招”與“不招”兩條路可走。Bob想:“要是Al慫了去招,我不招是十五年,不如也招了才十年。要是Al頑抗不招,我就是不招還得判一年,不如招了立功還能抵罪釋放。所以無(wú)論Al招不招,我溜溜地招了都比不招頑抗到底來(lái)得合算?!?這個(gè)“招”的選擇在博弈論上叫“嚴(yán)格優(yōu)勢(shì)策略”,無(wú)論什么情況都不虧。Bob思慮一番決心不能吃虧,自然選擇了招供。Al也不傻,同樣的考慮也選擇了招供。他們都不想吃虧,結(jié)果都判了十年,錯(cuò)失了相信對(duì)方合作一下大家都不招,只判一年更好的結(jié)果。 這個(gè)故事大約被是研究最多和最有名的博弈,正式的名稱叫“囚徒困境(Prisoner's dilemma)”。那是Merrill Flood和Melvin Dresher在蘭德研究合作與沖突時(shí)構(gòu)造的一個(gè)模型,普林斯頓數(shù)學(xué)家Albert W. Tucker1950年在斯坦福大學(xué)給一群心理學(xué)家說(shuō)明選擇的難題時(shí)舉它作為例子。這個(gè)例子寫起來(lái)不到一頁(yè)紙,卻成為在二十世紀(jì)下半葉在社會(huì)科學(xué)中影響最大的一頁(yè),而且在哲學(xué),倫理學(xué),生物學(xué),社會(huì)學(xué),政治學(xué),經(jīng)濟(jì)學(xué),特別是博弈論各種課題文獻(xiàn)中反復(fù)提起津津樂(lè)道。 明知合作能夠雙贏,但背叛能占便宜得到更大收益不僅誘惑著當(dāng)事人,而且還誘惑著你想合作的對(duì)方。無(wú)論出自貪婪還是出自自保都很難不走向?qū)埂_@個(gè)難題并不是要犯了罪入獄時(shí)才會(huì)碰到。你和同事同做項(xiàng)目,人事關(guān)系,中美海洋戰(zhàn)略,臺(tái)海雙邊關(guān)系,公司間價(jià)格大戰(zhàn),群狼覓食,螞蟻抗敵都會(huì)遇到相同的局面。 在社會(huì)經(jīng)濟(jì),國(guó)家政治,人際關(guān)系,動(dòng)植物間,甚至在微生物,細(xì)胞水平中,個(gè)體的得益不僅取決于自己的選擇而且還受制于對(duì)方選擇的情況幾乎無(wú)處不在,其間的個(gè)體除了自利自保之外別無(wú)更高的境界。個(gè)體有沒(méi)有智能這并不重要,作出錯(cuò)誤選擇的本能已在生存壓力下被自然選擇淘汰?,F(xiàn)在活著的幸存者在生存競(jìng)爭(zhēng)博弈中收益是較高的,其行為策略可以很好地用非合作博弈來(lái)分析。所以我們下面從極其精明人們博弈得出來(lái)的結(jié)果,也適合于從國(guó)家到細(xì)胞所有的情況。 在很多的情況合作都比對(duì)抗有著更好的收益。在這些情況中“囚徒困境”是最讓人為難的局面,利益的誘惑讓人們背叛了合作,從可能的雙贏走向雙輸。如果我們能夠在這個(gè)局面找出一條合作之路來(lái),那沒(méi)有誘惑不那么為難的局面就更不在話下了。從五十年代開始,九十年代轉(zhuǎn)熱直到現(xiàn)在,合作是怎樣產(chǎn)生的,又是如何進(jìn)化的,一直是熱門的研究課題。 ×-×-×-×-× 好了,先介紹一下這個(gè)博弈的基本概念,以方便以后深入的討論。我不想照教科書念,盡量用日常語(yǔ)言將博弈論核心思想和論證邏輯揭露出來(lái),讓你能輕松地長(zhǎng)學(xué)問(wèn)。 你和某人一起面臨著“合作”和“背叛”兩種選擇。雙方都選“合作”,大家都有好處,各得R分(Reward for mutual cooperation)。你選“合作”對(duì)方“背叛”,對(duì)方占了你的便宜,他得T分(Temptation to defect),你得S分(Sucker's payoff)。反之亦然。大家都不想吃虧,都要“背叛”,各自得了P分(Punishment for mutual defection)。這個(gè)局面可以列出一個(gè)表格如下:
如果博弈各方具體選擇的策略組合使得博弈處在這樣的狀況:誰(shuí)單方面的改變自己的策略都對(duì)自己沒(méi)有好處,那么這個(gè)策略組合就稱為“納什均衡(Nash Equilibrium)”。這是非合作博弈的核心概念。一個(gè)有限策略的博弈不一定有嚴(yán)格優(yōu)勢(shì)策略,但至少有一個(gè)納什均衡。一旦進(jìn)入納什均衡狀態(tài),從利益角度就難以單方面改變了。納什就憑著這個(gè)概念和存在性的證明奠定了非合作博弈的基礎(chǔ),因此得了諾貝爾獎(jiǎng)。
悲劇呀!囚徒困境博弈的納什均衡不就是告訴你:自私自利沒(méi)有好結(jié)果,但誰(shuí)也身不由己地陷進(jìn)去! 這困境就對(duì)亞當(dāng)·斯密的“看不見的手”的原理提出問(wèn)題了。這位經(jīng)濟(jì)學(xué)大佬在《國(guó)富論》中說(shuō):“通過(guò)追求個(gè)人的自身利益,他常常會(huì)比其實(shí)際上想做的那樣更有效地促進(jìn)社會(huì)利益?!?而囚徒困境中我們看到的卻是:從利己出發(fā)的決定,結(jié)果是損人不利己。要都是這樣的話,就會(huì)動(dòng)搖了西方經(jīng)濟(jì)學(xué)的基石。 但是自然界自私的生物合作現(xiàn)象的確是廣泛地存在,這又該怎么解釋? ×-×-×-×-× 也對(duì),這要用到重復(fù)博弈的模型。重復(fù)博弈講的是將相同的博弈重復(fù)地來(lái)玩,用于一直面對(duì)相同局面的情況。 讓我們用逆推歸納法來(lái)推理:考察最后一次的博弈,比如說(shuō)第一萬(wàn)次。無(wú)論前面怎么樣,這最后一次不必為將來(lái)打算了,這也就跟一錘子買賣一樣,所以大家都自私地選擇“背叛”。然后考察倒數(shù)第二,第九千九百九十九次。因?yàn)樽詈笠淮尾呗砸讯?,那不管怎么委屈自己也換不來(lái)回報(bào)了,所以還是能合算就多合算點(diǎn),結(jié)果也是“背叛”。一直照此倒推到第一次,結(jié)果全是一溜的做小人不要合作的嘴臉。 博弈論的有限次重復(fù)博弈的一個(gè)定理就是用這個(gè)思路來(lái)證明的。有限次囚徒困境的重復(fù)博弈仍然因?yàn)樽运蕉萑霟o(wú)法合作的局面。 “唉!千萬(wàn)不要和自私的人交往,一點(diǎn)虧都不肯吃,這樣逆推的算計(jì),再多的交往也白搭?!?/P> 我的朋友不耐煩了:“早說(shuō)了,這里用不著這么算計(jì)。君子喻于義,小人喻于利!能合作嗎?” 但人際關(guān)系和博弈考慮的都不是一廂情愿就可以解決的問(wèn)題。你怎么知道對(duì)方是君子還是小人?如果是小人,你喻之于義能解決問(wèn)題嗎?還有低等生物在囚徒困境的環(huán)境中也能合作,難道它們都喻于義嗎? 這合作現(xiàn)象仍然成謎,博弈論還有什么招呢? |
|