乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      博弈論里的囚徒困境怎么解決?

       pgl147258 2014-12-12

      【張一川的回答(22票)】:

      我認(rèn)為有三種方法可以解決囚徒困境

      1.外部力量補充導(dǎo)致payoff改變。比如,選擇坦白的囚犯會受到組織的懲罰。

      2.不固定次數(shù)的重復(fù)博弈。

      之所以強調(diào)不固定次數(shù),是因為根據(jù)“倒推法”,如果知道博弈次數(shù),那么在最后一輪就應(yīng)該選擇“不合作”,因此在倒數(shù)第二輪也應(yīng)該選擇“不合作”,一只可以推至,在第一輪就應(yīng)該選擇不合作。(reference: 維基百科 固定次數(shù)的囚徒困境)

      3.教育

      對于“教育”我的理解有這樣兩種:

      • 共有知識的完全信息

      這里我認(rèn)為的共有知識是指:對方知道我知道共同選擇合作是最好的選擇;對方知道我也知道他知道共同選擇合作是最好的選擇。也就是說不是基于相互之間的無強制力的信任,而是基于對方的common knowledge。

      • 教育導(dǎo)致payoff的改變

      比如,因為教育改變了對方對自己行為所帶來的內(nèi)部utility改變了,就是說雖然事情的外部后果沒有變,但是由于愧疚或者其它情緒導(dǎo)致payoff發(fā)生了變化。

      Bibliography :在耶魯大學(xué)博弈論公開課中,教授Ben Polak提出,

      解決囚徒困境的本質(zhì)是一定要改變參與者的payoff,其具體提出了三種方法解決囚徒困境:

      1.訂立具有強制力的契約、合同等。

      2.重復(fù)博弈

      3.教育

      Polak教授同時強調(diào)了溝通并不能夠解決囚徒困境。原因是:

      在缺乏外部約束的情況下,即使兩者串供商定選擇合作,“我”并不能知道對方會不會遵循這個約定。更重要的是,如果“我”確定對方會遵循了這個約定,那么根據(jù)理性人原則(假設(shè)我是經(jīng)濟學(xué)上理性的),為了自己的利益最大化,”我”應(yīng)該選擇背叛。

      【陳軼非的回答(55票)】:

      1、利用無限次重復(fù)博弈(例如,經(jīng)典的針鋒相對策略、冷酷策略等)

      2、利用信息不完全(例如,聲譽效用、個體類型等)

      3、利用心智模型,放松主體假定(例如帶有同情的博弈)

      4、本方可以采取一些措施(如降低本方的收益,簽協(xié)議)讓對方有理由相信你沒有動機產(chǎn)生偏離,從而有動機產(chǎn)生合作

      歷史上曾經(jīng)有人在真實環(huán)境中做過囚徒困境的實驗,發(fā)現(xiàn)重復(fù)博弈后的結(jié)果就是趨于合作。

      其實經(jīng)典博弈論中的“個體絕對理性”假設(shè)實在是太強了,因此后來有人就提出了“有限理性”的假設(shè),即人們的計算能力是有限的,不可能用數(shù)學(xué)去計算分析完博弈的所有結(jié)果后再做出選擇(因為很多情況下人們并不知道該怎么分析),而只是依據(jù)經(jīng)驗做出選擇,然后再對結(jié)果進行學(xué)習(xí)(舉例來說,如果你沒學(xué)過博弈論,你可能就不知道該如何“理性”地分析囚徒困境,你所做的只是依據(jù)經(jīng)驗做出選擇)。這個思想其實和生物進化論的思想差不多(或者機器學(xué)習(xí)也類似),其中的一個概念就是evolutionarily stable strategy。因此博弈論在某些方面還不夠完善,它還不太適合來進行“預(yù)測”。

      【曹懷寧的回答(12票)】:

      建議你有興趣的話,看一下《囚徒的困境:馮·諾伊曼、博弈論,和原子彈之謎》,書中比較詳細(xì)的分析了這個模型,并且提出多次博弈中的最優(yōu)策略——一報還一報。

      【林憶唯的回答(16票)】:

      無限次重復(fù)博弈的實驗結(jié)論,上面的答案都不完整,我來寫個完整的吧

      首先定義囚徒困境具體的模型,背叛(Temptation),一同合作(Reward),一同背叛(Punishment),合作(Sucker)四種收益應(yīng)該有: T > R > P > S

      在 Axelrod 最開始的實驗中,TFT(一報還一報) 獲得了勝利。它的策略是,第一局先合作,然后每一局都復(fù)制對方上一局的策略。

      這個實驗遠(yuǎn)沒有結(jié)束,后面的才是精彩內(nèi)容。

      Nowak 為整個系統(tǒng)加入了噪聲,導(dǎo)致一定概率下,本應(yīng)該是合作的,變成了背叛;本應(yīng)該是背叛的,卻變成了合作。

      實驗結(jié)果很悲觀,ALLD (永遠(yuǎn)背叛) 成了最后的贏家。TFT 的優(yōu)勢是,他們能互相促進合作,但可惜過于記仇無法對抗噪音,所以輸給了 ALLD。

      為了彌補 TFT 的不足,GTFT(慷慨的一報還一報)被介紹進來,在 TFT 的基礎(chǔ)上設(shè)定噪音,導(dǎo)致即使上一局對方背叛,這一局 GTFT 仍然有概率選擇合作。用寬恕來對抗背叛。

      GTFT 擊敗 TFT 成為主流后,寬恕戰(zhàn)勝了背叛,很像一個全是好人的理想世界,此時 ALLC(永遠(yuǎn)合作) 會成為新的主流。原因很簡單,ALLC 寬恕的效率比 GTFT 還高,更能促進合作發(fā)生。

      ALLC最大的敵人就不用說了,自然是ALLD(永遠(yuǎn)背叛)。你發(fā)現(xiàn)了沒,這是一個循環(huán)。

      ALLD - TFT - GTFT - ALLC - ALLD,可以這么理解,這是一個“誠實淳樸的人們合作趕走了壞人,幸福的生活卻又使人放松了警惕,壞人趁虛而入再次掌權(quán),好人們再次合力趕走壞人”的故事。

      最厲害的策略來了,發(fā)現(xiàn)了這個循環(huán)后,Nowak 為打破循環(huán),引入新的策略WSLS(win-stay, lose-shift):如果上一局的收益是S/P,那么這一輪我就換另一種策略;如果上一局的收益是T/R,這一局我就維持上一局的策略不變。

      WSLS 之間傾向于一直合作,如果因為噪聲產(chǎn)生了背叛,也會在一局內(nèi)糾錯,僅僅弱于永遠(yuǎn)寬恕的 ALLC。

      【韓冰Bill的回答(2票)】:

      建立健全個人信用體系,將單一的博弈過程變成長期多次的博弈,多次博弈就如@曹懷寧 說的,一報還一報是最優(yōu)的。即你先選擇相信對方,如果遇到對方背叛你,你在下一次博弈時懲罰他。

      【成遠(yuǎn)的回答(2票)】:

      前面幾位說的都對。純粹理性帶來的問題,其實就需要跳出框框來找心理上有擊穿效應(yīng)的解決方案。要么建立堅固的信任,要么把懲罰抬高到不可承受的程度。這些都是有社會成本的,比如現(xiàn)代社會的建立行業(yè)協(xié)會,上下游擔(dān)保聯(lián)盟,古代為結(jié)盟通常搞一些婚約等,落到實際社會中,方法很多很具體的,但都要大的長期投入。合作的根基還是信任、人心。中國社會有點放大《孫子兵法》,壞世界邏輯,英美講契約。

      【W(wǎng)ildAlexander的回答(0票)】:

      警察逮捕了兩個犯罪嫌疑人,把他們關(guān)在不同的房間里問話。每個人都可以選擇坦白并且將另一個人拖下水,或者保持沉默。這個博弈的中心特征是,無論另一個嫌疑人做什么,(單獨考慮的話)每個人如果坦白,那么他的處境都會好些。如果另一個人坦白了,還在考慮的嫌疑人就應(yīng)該采取同樣的行動,從而避免由于隱瞞情況而受到特別的懲罰。如果另一個人保持沉默,那么他就可能通過轉(zhuǎn)為政府的證人而得到寬大處理。坦白就是占據(jù)優(yōu)勢地位的策略。

      但具有諷刺意味的是,(放在一起考慮的話)兩個囚徒如果誰也不坦白,也就是他們勾結(jié)或者合作,那么他們的境遇就都會比較好。不過,既然彼此都知道對方有坦白的動機,那么對于雙方來說坦白就是?理性的“了。

      【知乎用戶的回答(0票)】:

      最近對博弈感興趣,試著答一答。

      假設(shè)警方懷疑他們作案但是沒有確鑿的證據(jù),于是告訴一方囚徒與警方合作而對方抵賴,供認(rèn)方釋放。另一方則重判10年;如果雙方都與警方合作各被判刑5年;均不認(rèn)罪則無罪釋放。

      兩名求圖面臨的選擇以及后果組合我做了一個表來表示。

      博弈論里的囚徒困境怎么解決?

      從表可知每個嫌疑人都有兩種可供選擇的策略:抵賴或者合作,并且每個嫌疑人的最優(yōu)策略不依賴于其同伙的選擇。

      顯然,二者都抵賴是最佳選擇,但是顯然警察沒有把兩個嫌疑人關(guān)在同一個房間。所以這種合作難以順利進行使得結(jié)果預(yù)測不確定性增加。

      基于人是理性的這一前提,并且嫌疑人不知道對方的想法,最理想的博弈策略就是選擇供認(rèn)。

      這時的策略就是占優(yōu)策略。

      在“甲供認(rèn),乙供認(rèn)”的占優(yōu)策略均衡中,不論所有其他參與人選擇什么策略,一個參與人的優(yōu)勢策略都是他的最優(yōu)策略。

      甲乙不管誰供認(rèn),都能減輕懲罰。甲供認(rèn),乙抵賴,甲不受罰;乙抵賴,罪名各承擔(dān)一半。甲乙互換位置也是一樣的結(jié)果,顯然這一策略一定是所有其他參與人選擇某一特定策略是該參與人的占優(yōu)策略。

      【楊超的回答(3票)】:

      可以參考科學(xué)松鼠會的一篇博客《

      【動漫組】空想科學(xué)日和·西游篇》

      http:///archives/53561

      我沒寫錯,這篇真的是寫博弈論的,不過是分析動漫中的具體例子而已

      【李李的回答(5票)】:

      來來,我來黑一下囚徒困境。當(dāng)時在讀書的時候,我們的老師說讀書不要說什么就是什么,你們做過這個關(guān)于囚徒困境的真實實驗嗎?于是我們設(shè)計了一個實驗,在全校抽取了100組學(xué)生來做,最后的結(jié)果是:將近80%的學(xué)生選擇cooperate。選擇dominant strategy(自私自利)的學(xué)生中,大多數(shù)人都是學(xué)過博弈論的(哎,無話可說)。。。。我們老師說,他每個學(xué)期都要讓新生做這個實驗,每次的結(jié)果都是類似的。所以就像一樓說的,其實這個困境在現(xiàn)實生活中不太可能是一個困境(大部分的受訪者都認(rèn)為我們挺蠢的,既然cooperate能得到6顆糖果,為啥不cooperate呢,莫名其妙),所以樓主還是有空去糾結(jié)別的東西吧

      【張競的回答(1票)】:

      偷懶復(fù)制了一下 @郭韓勇 的關(guān)于博弈論基礎(chǔ)的介紹,結(jié)果標(biāo)注編號123 '假如囚徒甲、乙,1甲乙都不供,判五年,2甲乙都供,判十年,3甲乙中甲供,乙不供,則乙獲刑20年,甲不用坐牢。'

      那么在這個關(guān)系里,如無信任,雙方都擔(dān)心成為情況3種的乙方,那么如果招供,那么結(jié)果將會在坐牢0-10年,如果不招供將會在5-20..毫無疑問的是如果單方?jīng)Q策,招供的風(fēng)險和利益比較合理. 所以這個環(huán)境才會被稱之為雙均得益的無解.

      要想實現(xiàn)結(jié)果一,有2個途徑,

      其一,將雙方利益捆綁...可見結(jié)果一,甲乙一共坐牢10年, 結(jié)果二,甲乙一共坐牢20年,結(jié)果三甲乙一共坐牢20年. 如果可以將甲乙統(tǒng)一在一起,大家算總盈虧,則避免因為考慮分配的個人利益而損傷共同利益.

      其二,懲罰機制. 有答案說在下次報復(fù),那么下次施展報復(fù)的一方并不能得到好處,因為預(yù)計被報復(fù)的人會堅持選招供,最后會進入結(jié)果二. 這里的懲罰機制是指,單向懲罰,如不遵守協(xié)議,付出更大代價. 例如, 黑手黨的方法, 如果出現(xiàn)了結(jié)果三,那么甲方出獄就面對被殺死的情況. 由另外體系的第三方執(zhí)行的維護協(xié)議的方式.

      如上.

      【知乎用戶的回答(1票)】:

      囚徒困境的“困境”在于條件設(shè)置上。瓦解幾個前提條件,困境就解決了。比如用無限博弈代替有限博弈,選擇的支付成本做適當(dāng)?shù)恼{(diào)整,或者決策者可以互通消息,實現(xiàn)信息的完全流通。當(dāng)然 還有其他方式,總之,否定任何一個前提條件,結(jié)論肯定就不一樣了。。

      在既定條件下解決囚徒困境,無望?。?!

      經(jīng)濟學(xué)是一門教你如何選擇的科學(xué),但是假定條件近乎完美,必須獲取信息的成本為零,理性人絕對理性……而博弈論是一門更接近現(xiàn)實的選擇科學(xué),是哲學(xué)上“矛盾”解決的社會科學(xué)范式。現(xiàn)實生活中,選擇多樣,成本各異,完全競爭市場幾乎不存在,信息成本不可能為零(尤其是現(xiàn)代的信息時代),市場地位也不均等……運用經(jīng)典經(jīng)濟而對社會進行帕累托改進嘗試,都是徒勞無功。而博弈論,卻為人們“如何更好的選擇”拓寬了的道路?。?/p>

      【徐thomas的回答(3票)】:

      艾克斯羅德重復(fù)博弈實驗是囚徒困境的升級版。

      艾克斯羅德做了一個實驗,邀請多人來參加游戲,得分規(guī)則與囚徒困境類似,在游戲中,對于A來說,當(dāng)對方選C,他選D得5分,選C只得3分;當(dāng)對方選D,他選D得1分,選C得零分。因此,無論對方選C或D,對A來說,選D都得分最多。這是A單方面的優(yōu)超策略。而當(dāng)兩個優(yōu)超策略相遇,即A,B都選D時,結(jié)果是各得1分。什么時候結(jié)束游戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機程序,然后用單循環(huán)賽的方式將參賽程序兩兩博弈,以找出什么樣的策略得分最高。

      第一輪游戲有14個程序參加,再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取合作或不合作),運轉(zhuǎn)了300次。結(jié)果得分最高的程序是加拿大學(xué)者羅伯布寫的"一報還一報"(tit for tat)。這個程序的特點是,第一次對局采用合作的策略,以后每一步都跟隨對方上一步的策略,你上一次合作,我這一次就合作,你上一次不合作,我這一次就不合作。艾克斯羅德還發(fā)現(xiàn),得分排在前面的程序有三個特點:第一,從不首先背叛,即"善良的";第二,對于對方的背叛行為一定要報復(fù),不能總是合作,即" 可激怒的";第三,不能人家一次背叛,你就沒完沒了的報復(fù),以后人家只要改為合作,你也要合作,即"寬容性"。

      轉(zhuǎn)自有哪些思想實驗的好例子?

      【AresWang的回答(2票)】:

      圖片來源:Peter Eso | Academic, University of Oxford.

      Folk theorem (game theory).

      Folk Thereom的結(jié)論為在完全信息的無限games中,任何feasible并且individually rational的payoff都可以被一個納什均衡所支持。Fudenberg & Mashkin稍后證明了在一定的限制下,任何feasible并且individually rational的payoff都可以被一個subgame perfect equilibrium所支持。這個定理其實就回答了LZ的問題。解釋如下:

      首先引入兩個概念:

      多次博弈中feasible payoff的集合為下圖中的藍色區(qū)域,即直線連接最外層的所有payoff點。這個集合是所有在多次游戲中可能的average discounted payoff的集合。

      Individually rational payoff的集合為大于等于雙方minmax payoff的payoff的集合。在下圖的game中,不管對方怎么玩,只要play not 都能得到至少1的payoff。所以individually rational payoff對于雙方都大于等于1。

      博弈論里的囚徒困境怎么解決?

      下圖是一個囚徒困境。

      博弈論里的囚徒困境怎么解決?

      對于兩個players來說,defect都dominate了cooperate。因此雙方都會選擇defect。而這并不是帕累托最優(yōu)的結(jié)果。雙方都cooperate才是帕累托最優(yōu)的。在單次游戲中,納什均衡為(D,D)。對于兩個players來說,defect都dominate了cooperate。因此雙方都會選擇defect。而這并不是帕累托最優(yōu)的結(jié)果。雙方都cooperate才是帕累托最優(yōu)的。在單次游戲中,納什均衡為(D,D)。

      參照上面的例子,我們可以看出,雙方的minmax payoff都是0,因此在無線游戲中,任何可行的雙方payoff都大于0的pair都可以成為一個納什均衡/SPE。

      具體怎么操作呢?最簡單的是一個Grim Trigger Strategy。

      雙方都采取如下Strategy:

      第一階段. 選擇C,直到對方選擇D,那時進入第二階段。

      第二階段. 選擇D。

      那么這時候雙方是否還有incentive選擇D呢?

      假設(shè)因為人們的不耐心/未來的不確定,未來的payoff沒有現(xiàn)在的payoff那么好,discount rate為x。那么如果他一直選擇C,他的average discounted payoff為1。如果他選擇了D,那么在選擇的那一回合他拿到了2,之后的所有回合都是0,這種情況下,他的average discounted payoff是 2(1-x)。

      當(dāng)x>=1/2時,一直選擇C的payoff更高,因此他會一直選擇合作。

      結(jié)論:在充分信息的情況下,無限次游戲中,只要人們足夠耐心,那么囚徒困境可解。

      【cool5ong的回答(1票)】:

      通過帕累托改善達到最優(yōu)平衡

      【guotony的回答(1票)】:

      囚徒困境之所以會成為“困境”,主要在于他們是‘囚徒“,而且是分開監(jiān)禁的,而現(xiàn)實中的參與者是有交流的,有interactions的。

      在交流中,某些文化因素可以把外在性內(nèi)在化(internalize externalities),比如機會主義行為會讓行為人丟面子這種。

      另外,人之間的信任也能改善,這就是所謂social capital的作用

      【龍一的回答(1票)】:

      博弈論是個無用理論,除非有密室禁閉,不然基本沒用。

      【郭韓勇的回答(0票)】:

      我對這個囚徒困境有點不明白

      假如囚徒甲、乙,甲乙都不供,判五年,甲乙都供,判十年,甲乙中甲供,乙不供,則已獲刑20年,甲不用坐牢。

      那這樣,乙不招供的可能結(jié)果獲刑5年或20年,而乙招供的結(jié)果是獲刑10或無罪,簡單的加減之后就可以發(fā)現(xiàn),乙堅持不招供,最輕的懲罰是5年,最重20年。用招供并最終獲得十年的結(jié)果來與之比較,招供與不招之間的刑期差距是5年與10年。顯然不招供付出的代價是招供代價的2倍。

      并且,由于人性的弱點和審批者各自手段的運用,甲乙中其中一個供出的概率是大過兩個都很堅定的不供。也就是說,堅守者被出賣的風(fēng)險性很高。

      所以綜合來說,為什么說大部分人在現(xiàn)實中會選擇合作呢?

      【鄭蕊的回答(0票)】:

      不得不吐槽,大部分選擇dominant strategy的都學(xué)過博弈論+1

      客觀的解釋就是rule No.1 站在對方的角度看問題,從而決定自己的策略;

      rule No.2 就是如果有dominant strategy最好還是用吧......

      所以說在囚徒困境里,無論對方怎么做,自己招供都是最好的選擇。

      具體的實例可以參照Battle of the Bismarck Sea

      原文地址:知乎

        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多