登錄

囚徒困境

百科 > 博弈論 > 囚徒困境

1.囚徒困境簡(jiǎn)介

囚徒困境是博弈論非零和博弈中具代表性的例子,反映個(gè)人最佳選擇并非團(tuán)體最佳選擇。雖然困境本身只屬模型性質(zhì),但現(xiàn)實(shí)中的價(jià)格競(jìng)爭(zhēng)、環(huán)境保護(hù)等方面,也會(huì)頻繁出現(xiàn)類似情況。

囚徒困境最早是由美國(guó)普林斯頓大學(xué)數(shù)學(xué)家阿爾伯特·塔克(Albert tucker)1950年提出來(lái)的。他當(dāng)時(shí)編了一個(gè)故事向斯坦福大學(xué)的一群心理學(xué)家們解釋什么是博弈論,這個(gè)故事后來(lái)成為博弈論中最著名的案例。故事內(nèi)容是:兩個(gè)嫌疑犯(A和B)作案后被警察抓住,隔離審訊;警方的政策是“坦白從寬,抗拒從嚴(yán)”,如果兩人都坦白則各判8 年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白則因證據(jù)不足各判1年。

單次發(fā)生的囚徒困境,和多次重復(fù)的囚徒困境結(jié)果不會(huì)一樣。

在重復(fù)的囚徒困境中,博弈被反復(fù)地進(jìn)行。因而每個(gè)參與者都有機(jī)會(huì)去“懲罰”另一個(gè)參與者前一回合的不合作行為。這時(shí),合作可能會(huì)作為均衡的結(jié)果出現(xiàn)。欺騙的動(dòng)機(jī)這時(shí)可能被受到懲罰的威脅所克服,從而可能導(dǎo)向一個(gè)較好的、合作的結(jié)果。作為反復(fù)接近無(wú)限的數(shù)量,納什均衡趨向于帕累托最優(yōu)。

囚徒困境的主旨為,囚徒們雖然彼此合作,堅(jiān)不吐實(shí),可為全體帶來(lái)最佳利益(無(wú)罪開釋),但在資訊不明的情況下,因?yàn)槌鲑u同伙可為自己帶來(lái)利益(縮短刑期),也因?yàn)橥锇炎约赫谐鰜?lái)可為他帶來(lái)利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。但實(shí)際上,執(zhí)法機(jī)構(gòu)不可能設(shè)立如此情境來(lái)誘使所有囚徒招供,因?yàn)榍敉絺儽仨毧紤]刑期以外之因素(出賣同伙會(huì)受到報(bào)復(fù)等),而無(wú)法完全以執(zhí)法者所設(shè)立之利益(刑期)作考量。

2.經(jīng)典的囚徒困境

1950年,由就職于蘭德公司的梅里爾·弗拉德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關(guān)困境的理論,后來(lái)由顧問(wèn)阿爾伯特·塔克(Albert Tucker)以囚徒方式闡述,并命名為“囚徒困境”。經(jīng)典的囚徒困境如下:

警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據(jù)指控二人入罪。于是警方分開囚禁嫌疑犯,分別和二人見面,并向雙方提供以下相同的選擇:

  • 若一人認(rèn)罪并作證檢舉對(duì)方(相關(guān)術(shù)語(yǔ)稱“背叛”對(duì)方),而對(duì)方保持沉默,此人將即時(shí)獲釋,沉默者將判監(jiān)10年。
  • 若二人都保持沉默(相關(guān)術(shù)語(yǔ)稱互相“合作”),則二人同樣判監(jiān)半年。
  • 若二人都互相檢舉(互相“背叛”),則二人同樣判監(jiān)2年。

用表格概述如下:

甲沉默(合作) 甲認(rèn)罪(背叛)
乙沉默(合作) 二人同服刑半年 甲即時(shí)獲釋;乙服刑10年
乙認(rèn)罪(背叛) 甲服刑10年;乙即時(shí)獲釋 二人同服刑2年

如同博弈論的其他例證,囚徒困境假定每個(gè)參與者(即“囚徒”)都是利己的,即都尋求最大自身利益,而不關(guān)心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為“嚴(yán)格劣勢(shì)策略”,理性的參與者絕不會(huì)選擇。另外,沒有任何其他力量干預(yù)個(gè)人決策,參與者可完全按照自己意愿選擇策略。

囚徒到底應(yīng)該選擇哪一項(xiàng)策略,才能將自己個(gè)人的刑期縮至最短??jī)擅敉接捎诟艚^監(jiān)禁,并不知道對(duì)方選擇;而即使他們能交談,還是未必能夠盡信對(duì)方不會(huì)反口。就個(gè)人的理性選擇而言,檢舉背叛對(duì)方所得刑期,總比沉默要來(lái)得低。試設(shè)想困境中兩名理性囚徒會(huì)如何作出選擇:

  • 若對(duì)方沉默、背叛會(huì)讓我獲釋,所以會(huì)選擇背叛。
  • 若對(duì)方背叛指控我,我也要指控對(duì)方才能得到較低的刑期,所以也是會(huì)選擇背叛。

二人面對(duì)的情況一樣,所以二人的理性思考都會(huì)得出相同的結(jié)論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場(chǎng)博弈中唯一可能達(dá)到的納什均衡,就是雙方參與者都背叛對(duì)方,結(jié)果二人同樣服刑2年。

這場(chǎng)博弈的納什均衡,顯然不是顧及團(tuán)體利益的帕累托最優(yōu)解決方案。以全體利益而言,如果兩個(gè)參與者都合作保持沉默,兩人都只會(huì)被判刑半年,總體利益更高,結(jié)果也比兩人背叛對(duì)方、判刑2年的情況較佳。但根據(jù)以上假設(shè),二人均為理性的個(gè)人,且只追求自己個(gè)人利益。均衡狀況會(huì)是兩個(gè)囚徒都選擇背叛,結(jié)果二人判決均比合作為高,總體利益較合作為低。這就是“困境”所在。例子漂亮地證明了:非零和博弈中,帕累托最優(yōu)納什均衡是相沖突的。

由囚徒困境可以寫出類似的員工困境:

一名經(jīng)理,數(shù)名員工; 前提,經(jīng)理比較苛刻;
如果所有員工都聽從經(jīng)理吩咐,則獎(jiǎng)金等待遇一樣,不過(guò)所有人都超負(fù)荷工作
如果某人不聽從吩咐,其他人聽從吩咐,則此人下崗。其他人繼續(xù)工作
如果所有人都不聽從經(jīng)理吩咐,則經(jīng)理下崗
但是,由于員工之間信息是不透明的,而且,都擔(dān)心別人聽話自己不聽話而下崗,所以,大家只能繼續(xù)繁重的工作。

3.一般形式

整理囚徒困境的基本博弈結(jié)構(gòu),可更清楚地分析囚徒困境。 實(shí)驗(yàn)經(jīng)濟(jì)學(xué)常用這種博弈的一般形式分析各種論題。以下是實(shí)現(xiàn)一般形式的其中一例:

有兩個(gè)參與者和一個(gè)莊家。參與者每人有一式兩張卡片,各印有“合作”和“背叛”。參與者各把一張卡片文字面朝下,放在莊家面前。文字面朝下排除了參與者知道對(duì)方選擇的可能性。然后,莊家翻開兩個(gè)參與者卡片,根據(jù)以下規(guī)則支付利益:

  • 一人背叛、一人合作:背叛者得5分(背叛誘惑),合作者0分(受騙支付)。
  • 二人都合作:各得3分(合作報(bào)酬)。
  • 二人都背叛:各得1分(背叛懲罰)。

支付矩陣表格展示支付如下(以藍(lán)分別表示二參與者):

一般形式囚徒困境的支付矩陣
合作 背叛
合作 3, 3 0, 5
背叛 5, 0 1, 1
以“T、R、P、S”符號(hào)表示
合作 背叛
合作 R, R S, T
背叛 T, S P, P
以“勝-負(fù)”術(shù)語(yǔ)表示
合作 背叛
合作 - 大負(fù)-大勝
背叛 大勝-大負(fù) 負(fù)-負(fù)

簡(jiǎn)單博弈獲得的點(diǎn)數(shù)可以得出一些一般化的結(jié)論。

符號(hào)分?jǐn)?shù)英文中文(非術(shù)語(yǔ))解釋
T、R、P、S符號(hào)表
T 5 Temptation 背叛誘惑 單獨(dú)背叛成功所得。
R 3 Reward 合作報(bào)酬 共同合作所得
P 1 Punishment 背叛懲罰 共同背叛所得
S 0 Suckers 受騙支付 被單獨(dú)背叛所獲

若以T(Temptation)=背叛誘惑,R(Reward)=合作報(bào)酬,P(Punishment)=背叛懲罰,S(Suckers)=受騙支付,以個(gè)人選擇得分而言,可得出以下不等式。

T>R>P>S

(解:從5>3>1>0獲得以上不等式)

若以整體獲分而言,將得出以下不等式。

2R>T+S或2R>2P

(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及單獨(dú)背叛的共得5分,顯然合作獲分比背叛高。合作在團(tuán)體而言是支配性策略。)

重復(fù)博弈或重復(fù)的囚徒困境將會(huì)使參與者從注重T>R>P>S轉(zhuǎn)變成注重2R>T+S。就是說(shuō)將使參與者脫離困境。 以上理論是道格拉斯·霍夫施塔特創(chuàng)建的。

4.囚徒困境的應(yīng)用

許多行業(yè)的價(jià)格競(jìng)爭(zhēng)都是典型的囚徒困境現(xiàn)象,每家企業(yè)都以對(duì)方為敵手,只關(guān)心自己的利益。在價(jià)格博弈中,只要以對(duì)方為敵手,那么不管對(duì)方的決策怎樣,自己總是以為采取低價(jià)策略會(huì)占便宜,這就促使雙方都采取低價(jià)策略。如可口可樂(lè)公司和百事可樂(lè)公司之間的競(jìng)爭(zhēng)、各大航空公司之間的價(jià)格競(jìng)爭(zhēng)等等。

在國(guó)內(nèi)的家電大戰(zhàn)中,雖然不是兩個(gè)對(duì)手之間的博弈,但由于在眾多對(duì)手當(dāng)中每一方的市場(chǎng)份額都很大,每一個(gè)主體人的行為后果受對(duì)手行為的影響都很大,因此,其情景大概也是如此。如果清楚這種前景,雙方勾結(jié)或合作起來(lái),都制定比較高的價(jià)格,那么雙方都可以因?yàn)楸苊鈨r(jià)格大戰(zhàn)而獲得較高的利潤(rùn)。但是往往這些聯(lián)盟處于利益驅(qū)動(dòng)的“囚徒困境”,雙贏也就成泡影。五花八門的價(jià)格聯(lián)盟總是非常短命,道理就在這里。

并不是每次個(gè)人的“理性選擇”都能讓自我利益最大化,也許會(huì)讓你陷入一個(gè)“囚徒困境”。大量例子說(shuō)明,在“囚徒困境”中,常常是先動(dòng)手的一方會(huì)占一些優(yōu)勢(shì)。那么,“先下手為強(qiáng)”吧。

5.現(xiàn)實(shí)的例子

現(xiàn)實(shí)中,無(wú)論是人類社會(huì)或大自然都可以找到類似囚徒困境的例子,將結(jié)果劃成同樣的支付矩陣。 社會(huì)科學(xué)中的經(jīng)濟(jì)學(xué)、政治學(xué)和社會(huì)學(xué),以及自然科學(xué)的動(dòng)物行動(dòng)學(xué)、進(jìn)化生物學(xué)等學(xué)科,都可以用囚徒困境分析,模擬生物面對(duì)無(wú)止境的囚徒困境博弈。囚徒困境可以廣為使用,說(shuō)明這種博弈的重要性。以下為各界例子:

政治學(xué)例子:軍備競(jìng)賽

在政治學(xué)中,兩國(guó)之間的軍備競(jìng)賽可以用囚徒困境來(lái)描述。兩國(guó)都可以聲稱有兩種選擇:增加軍備(背叛)、或是達(dá)成削減武器協(xié)議(合作)。兩國(guó)都無(wú)法肯定對(duì)方會(huì)遵守協(xié)議,因此兩國(guó)最終會(huì)傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會(huì)是兩國(guó)的「理性」行為,但結(jié)果卻顯得「非理性」(例如會(huì)對(duì)經(jīng)濟(jì)造成都有損壞等)。這可視作遏制理論的推論,就是以強(qiáng)大的軍事力量來(lái)遏制對(duì)方的進(jìn)攻,以達(dá)到和平。

經(jīng)濟(jì)學(xué)例子:關(guān)稅戰(zhàn)

兩個(gè)國(guó)家,在關(guān)稅上可以有以兩個(gè)選擇:

  1. 提高關(guān)稅,以保護(hù)自己的商品。 (背叛)

  2. 與對(duì)方達(dá)成關(guān)稅協(xié)定,降低關(guān)稅以利各自商品流通。 (合作)

當(dāng)一國(guó)因某些因素不遵守關(guān)稅協(xié)定,而獨(dú)自提高關(guān)稅(背叛)時(shí),另一國(guó)也會(huì)作出同樣反應(yīng)(亦背叛),這就引發(fā)了關(guān)稅戰(zhàn),兩國(guó)的商品失去了對(duì)方的市場(chǎng),對(duì)本身經(jīng)濟(jì)也造成損害(共同背叛的結(jié)果)。然后二國(guó)又重新達(dá)成關(guān)稅協(xié)定。 (重復(fù)博弈的結(jié)果是將發(fā)現(xiàn)共同合作利益最大。)

商業(yè)例子:廣告戰(zhàn)

商業(yè)活動(dòng)中亦會(huì)出現(xiàn)各種囚徒困境例子。以廣告競(jìng)爭(zhēng)為例。

兩個(gè)公司互相競(jìng)爭(zhēng),二公司的廣告互相影響,即一公司的廣告較被顧客接受則會(huì)奪取對(duì)方的部分收入。但若二者同時(shí)期發(fā)出質(zhì)量類似的廣告,收入增加很少但成本增加。但若不提高廣告質(zhì)量,生意又會(huì)被對(duì)方奪走。

此二公司可以有二選擇:

  1. 互相達(dá)成協(xié)議,減少?gòu)V告的開支。 (合作

  2. 增加廣告開支,設(shè)法提升廣告的質(zhì)量,壓倒對(duì)方。 (背叛

若二公司不信任對(duì)方,無(wú)法合作,背叛成為支配性策略時(shí),二公司將陷入廣告戰(zhàn),而廣告成本的增加損害了二公司的收益,這就是陷入囚徒困境。在現(xiàn)實(shí)中,要二互相競(jìng)爭(zhēng)的公司達(dá)成合作協(xié)議是較為困難的,多數(shù)都會(huì)陷入囚徒困境中。

自行車賽例子

自行車賽事的比賽策略也是一種博弈,而其結(jié)果可用囚徒困境的研究成果解釋。例如每年都舉辦的環(huán)法自由車賽中有以下情況:選手們?cè)诘浇K點(diǎn)前的路程常以大隊(duì)伍(英文:Peloton)方式前進(jìn),他們采取這策略是為了令自己不至于太落后,又出力適中。

而最前方的選手在迎風(fēng)時(shí)是最費(fèi)力的,所以選擇在前方是最差的策略。通常會(huì)發(fā)生這樣的情況,大家起先都不愿意向前(共同背叛),這使得全體速度很慢,而后通常會(huì)有二或多位選手騎到前面,然后一段時(shí)間內(nèi)互相交換最前方位置,以分擔(dān)風(fēng)的阻力(共同合作),使得全體的速度有所提升,而這時(shí)如果前方的其中一人試圖一直保持前方位置(背叛),其他選手以及大隊(duì)伍就會(huì)趕上(共同背叛)。

而通常的情況是,在最前面次數(shù)最多的選手(合作)到最后通常會(huì)被落后的選手趕上(背叛),因?yàn)楹竺娴倪x手騎在前面選手的沖流之中,比較不費(fèi)力。

6.與囚徒困境相關(guān)的各事件

異想

威廉·龐德斯通(William Poundstone)在他的著作中,以一新西蘭的例子來(lái)說(shuō)明囚徒困境。在新西蘭,報(bào)亭既無(wú)管理員也不上鎖,買報(bào)紙的人自行放下錢后拿走報(bào)紙。當(dāng)然某些人可能取走報(bào)紙卻不付錢(背叛),但由于大家認(rèn)識(shí)到如果每個(gè)人都偷竊報(bào)紙(共同背叛)會(huì)造成以后不方便的有害結(jié)果,這種情形很少發(fā)生。

這例子特別之處是新西蘭人并沒有被任何其他因素影響而能脫離囚徒困境。并沒有任何人特別去注意報(bào)亭,人們守規(guī)則是為了避免共同背叛帶來(lái)的惡果。這種避免囚徒困境的大家共同的推理或想法被稱為“異想(magical thinking)”。

“認(rèn)罪減刑”不可行

囚徒困境的結(jié)論是許多國(guó)家中認(rèn)罪減刑(英文:plea bargain)被禁止的原因之一。囚徒困境帶來(lái)的結(jié)論是:如果有二個(gè)罪犯,其中一人犯罪而另外一人是無(wú)辜的,犯罪者會(huì)為了減刑坦白一切甚至冤枉清白者(單獨(dú)背叛)。最糟糕的情況是,如果他們二人都被判入獄,坦白的犯罪者刑期少,堅(jiān)持無(wú)罪的冤枉者刑期反而更多。

公用品悲劇

現(xiàn)實(shí)的博弈參與者不只一方,會(huì)有多方參與的囚徒困境。 加勒特·詹姆斯·哈?。℅arrett James Hardin)的公用品悲劇就是一例:“公用品悲劇是指凡是屬于最多數(shù)人的公共財(cái)產(chǎn)常常是最少受人照顧的事物”,例如漁業(yè),公海中的魚是屬于公共的,而在本身不濫捕其他人也濫捕的思想下,漁民會(huì)沒有節(jié)制的大撈特?fù)?,結(jié)果海洋生態(tài)破壞,漁民的生計(jì)也受影響(共同背叛的結(jié)果)。

但是,多方囚徒困境的提法有待商榷,因?yàn)槠淇偸强梢员环纸鉃橐唤M組經(jīng)典的二方囚徒困境。就是說(shuō)只有二方的囚徒困境,沒有多方的。所謂多方的囚徒困境只是由多個(gè)二方囚徒困境混雜在一起而形成的錯(cuò)覺。

7.重復(fù)的囚徒困境

羅伯特·阿克塞爾羅德在其著作《合作的進(jìn)化》中,探索了經(jīng)典囚徒困境情景的一個(gè)擴(kuò)展,并把它稱作“重復(fù)的囚徒困境”(IPD)。在這個(gè)博弈中,參與者必須反復(fù)地選擇他們彼此相關(guān)的策略,并且記住他們以前的對(duì)抗。阿克塞爾羅德邀請(qǐng)全世界的學(xué)術(shù)同行來(lái)設(shè)計(jì)計(jì)算機(jī)策略,并在一個(gè)重復(fù)囚徒困境競(jìng)賽中互相競(jìng)爭(zhēng)。參賽的程序的差異廣泛地存在于這些方面:算法的復(fù)雜性、最初的對(duì)抗、寬恕的能力等等。

阿克塞爾羅德發(fā)現(xiàn),當(dāng)這些對(duì)抗被每個(gè)選擇不同策略的參與者一再重復(fù)了很長(zhǎng)時(shí)間之后,從利己的角度來(lái)判斷,最終“貪婪”策略趨向于減少,而比較“利他主義”策略更多地被采用。他用這個(gè)博弈來(lái)說(shuō)明,通過(guò)自然選擇,一種利他行為的機(jī)制可能從最初純粹的自私機(jī)制進(jìn)化而來(lái)。

最佳確定性策略被認(rèn)為是“以牙還牙”,這是阿納托爾·拉波波特(Anatol Rapoport)開發(fā)并運(yùn)用到錦標(biāo)賽中的方法。它是所有參賽程序中最簡(jiǎn)單的,只包含了四行BASIC語(yǔ)言,并且贏得了比賽。這個(gè)策略只不過(guò)是在重復(fù)博弈的開頭合作,然后,采取你的對(duì)手前一回合的策略。更好些的策略是“寬恕地以牙還牙”。當(dāng)你的對(duì)手背叛,在下一回合中你無(wú)論如何要以小概率(大約是1%-5%)時(shí)而合作一下。這是考慮到偶爾要從循環(huán)背叛的受騙中復(fù)原。當(dāng)錯(cuò)誤傳達(dá)被引入博弈時(shí),“寬恕地以牙還牙”是最佳的。這意味著有時(shí)你的動(dòng)作被錯(cuò)誤地傳達(dá)給你的對(duì)手:你合作但是你的對(duì)手聽說(shuō)你背叛了。

通過(guò)分析高分策略,阿克塞爾羅德指定了策略獲得成功的幾個(gè)必要條件。

;友善:最重要的條件是策略必須“友善”,這就是說(shuō),不要在對(duì)手背叛之前先背叛。幾乎所有的高分策略都是友善的。因此,完全自私的策略僅僅出于自私的原因,也永遠(yuǎn)不會(huì)首先打擊其對(duì)手。

  • 報(bào)復(fù)

  • 但是,阿克斯洛德主張,成功的策略必須不是一個(gè)盲目樂(lè)觀者。要始終報(bào)復(fù)。一個(gè)非報(bào)復(fù)策略的例子是始終合作。這是一個(gè)非常糟糕的選擇,因?yàn)椤跋铝鳌辈呗詫埧岬貏兿鬟@樣的傻瓜。

  • 寬恕

  • 成功策略的另一個(gè)品質(zhì)是必須要寬恕。雖然它們不報(bào)復(fù),但是如果對(duì)手不繼續(xù)背叛,它們會(huì)一再退卻到合作。這停止了報(bào)復(fù)和反報(bào)復(fù)的長(zhǎng)期進(jìn)行,最大化了得分點(diǎn)數(shù)。

  • 不嫉妒

  • 最后一個(gè)品質(zhì)是不嫉妒,就是說(shuō)不去爭(zhēng)取得到高于對(duì)手的分?jǐn)?shù)(對(duì)于“友善”的策略來(lái)說(shuō)這也是不可能的,也就是說(shuō)“友善”的策略永遠(yuǎn)無(wú)法得到高于對(duì)手的分?jǐn)?shù))。

因此,阿克塞爾羅德得到一種給人以烏托邦印象的結(jié)論,認(rèn)為自私的個(gè)人為了其自私的利益會(huì)趨向友善、寬恕和不嫉妒。阿克塞爾羅德關(guān)于重復(fù)囚徒困境的研究的重要結(jié)論之一,是友善的家伙能先完成交易。

重新考慮囚徒困境中給定的軍備競(jìng)賽模型:結(jié)論是,只是理性策略增進(jìn)了軍事力量,似乎兩個(gè)國(guó)家都寧可花費(fèi)其GDP在槍炮而不是黃油上。有趣的是,企圖說(shuō)明對(duì)抗國(guó)家實(shí)際上以這種方式(在“重復(fù)囚徒困境假定”下的不同時(shí)期,軍費(fèi)支出在“高”和“低”之間反復(fù))競(jìng)賽的嘗試,卻經(jīng)常表明假定的軍備競(jìng)賽并沒有如預(yù)想的那樣出現(xiàn)。 (例如希臘人和土耳其人的軍費(fèi)支出,看來(lái)并不像遵循“以牙還牙”的重復(fù)囚徒困境式的軍備競(jìng)賽,卻更可能是被其國(guó)內(nèi)的政策所驅(qū)使。)這可能是一次性博弈和重復(fù)性博弈中的理性行為不同的例子。

對(duì)一次性囚徒困境博弈來(lái)說(shuō),最佳(點(diǎn)數(shù)最大化的)策略是簡(jiǎn)單地背叛;正如前面解釋的,無(wú)論對(duì)手的行動(dòng)可能是什么,這都是真實(shí)的。但是,在重復(fù)的囚徒困境博弈中,最佳策略依賴于可能的對(duì)手的策略,和他們?cè)鯓訉?duì)背叛和合作作出反應(yīng)。例如,考慮這樣一個(gè)人群,那里每個(gè)人每次都背叛,除了一個(gè)人是遵循以牙還牙策略。這個(gè)人處于一種輕微的不利地位,因?yàn)榈谝换睾系膿p失。在這樣的人群中,對(duì)這個(gè)人來(lái)說(shuō)最佳策略就是每次都背叛。在一個(gè)有一定的百分比的總背叛者而剩下的則是以牙還牙者的人群中,對(duì)個(gè)人來(lái)說(shuō)的最佳策略依賴于這個(gè)百分比和博弈的長(zhǎng)度。

一般有兩種方法得到最佳策略:

  1. 貝葉斯納什均衡:如果對(duì)抗策略的統(tǒng)計(jì)分布能被確定(例如,50%以牙還牙,50%一直合作),就能從數(shù)學(xué)上獲得最佳的相對(duì)策略。

  2. 已經(jīng)有了人群的蒙特卡羅模擬,在這里低分個(gè)人消失了,高分個(gè)人一再被生產(chǎn)出來(lái)(一種獲得最佳策略的天才算法)。決賽人群中的算法合成通常依賴于初賽人群中的算法合成。

盡管以牙還牙始終被認(rèn)為是最可靠的基本策略,但是在重復(fù)囚徒困境的20周年紀(jì)念賽中,來(lái)英國(guó)南安普敦大學(xué)的一個(gè)小組(由尼古拉斯·詹寧斯(Nicholas Jennings)領(lǐng)導(dǎo),包括了拉蒂普·達(dá)什(Rajdeep Dash)、薩瓦帕里·拉姆瓊(Sarvapali Ramchurn)、亞歷克斯·羅杰斯( Alex Rogers)和皮魯克里士南·維特林根(Perukrishnen Vytelingum))介紹了一個(gè)新的策略,這個(gè)策略證明了它比以牙還牙更成功。這個(gè)策略依賴于程序之間的合作,為單一程序中獲得了最高的點(diǎn)數(shù)。南安普敦大學(xué)提交了60個(gè)程序參與競(jìng)賽,這些程序的開頭被設(shè)計(jì)成通過(guò)一組5到10個(gè)的動(dòng)作去彼此識(shí)別。一旦這些識(shí)別被作出,一個(gè)程序?qū)⒖偸呛献?,其他程序則總是背叛,保證背叛者得到最大的點(diǎn)數(shù)。如果程序識(shí)別出它在操作一個(gè)非南安普敦參與者,這程序?qū)⒊掷m(xù)地背叛,企圖去最小化競(jìng)爭(zhēng)程序的得分。結(jié)果,這個(gè)策略以獲得前3位結(jié)束了競(jìng)賽,也得到了大量接近底部的位置。雖然這個(gè)策略顯著地證明了比以牙還牙有效,但是這是因?yàn)槔昧讼率鍪聦?shí):在這個(gè)特殊的競(jìng)賽中,多重通道是被允許的。在一方只能控制單一參與者的競(jìng)賽中,以牙還牙確實(shí)是更好的策略。

如果重復(fù)囚徒困境將被精確地重復(fù)N次,已知N是一個(gè)常數(shù),那么會(huì)產(chǎn)生另一個(gè)有趣的事實(shí)。 納什均衡就是每次都背叛。這很容易用歸納法證明。你也可以在最后的回合背叛,既然你的對(duì)手將沒有機(jī)會(huì)懲罰你。因此,你們都將在最后的回合背叛。這時(shí),你可以在倒數(shù)第二回合中背叛,既然最后一回?zé)o論你做什么,你的對(duì)手都將背叛。依此類推。為了合作以保持請(qǐng)求,這時(shí)未來(lái)必須對(duì)兩個(gè)參與者來(lái)說(shuō)是不確定的。一個(gè)解決方案是讓博弈總次數(shù)N變成隨機(jī)的。對(duì)未來(lái)的預(yù)期必須是無(wú)法確定的長(zhǎng)度。

另一個(gè)單獨(dú)的案例是“永不停止”的囚徒困境。這個(gè)博弈被重復(fù)很多次,而且你的分?jǐn)?shù)是一個(gè)平均數(shù)(當(dāng)然是用計(jì)算機(jī)計(jì)算的)。

囚徒困境博弈是某些人類合作和信任理論的基礎(chǔ)。假定囚徒困境能夠模擬需要信任的兩人之間的交流,群體的合作行為可以用有多個(gè)參與者的、重復(fù)博弈的變體來(lái)模擬。這從而引起了許許多多學(xué)者經(jīng)久不衰的興趣。 1975年,格羅夫曼(Grofman)和普爾(Pool)估計(jì),致力于這方面研究的學(xué)術(shù)文章,數(shù)量超過(guò)2000篇。

學(xué)習(xí)心理學(xué)和博弈論

當(dāng)博弈參與者能學(xué)會(huì)估計(jì)其他參與者背叛的可能性,他們自身的行為就為他們關(guān)于其他人的經(jīng)驗(yàn)所影響。簡(jiǎn)單的統(tǒng)計(jì)顯示,總體上,缺乏經(jīng)驗(yàn)的參與者與其他參與者的互動(dòng),或者是典型的好,或者是典型的壞。如果他們?cè)谶@些經(jīng)驗(yàn)的基礎(chǔ)上行動(dòng),(通過(guò)更多的背叛或合作,否則)他們可能在未來(lái)的交易中受損。

隨著經(jīng)驗(yàn)逐漸豐富,他們獲得了對(duì)背叛可能性的更真實(shí)的印象,變得更成功地參與博弈。不成熟的參與者經(jīng)歷的早期交易對(duì)他們未來(lái)參與的影響,可能比這些交易對(duì)成熟的參與者的影響要大得多。這個(gè)原理部分地解釋了,為什么年輕人的成長(zhǎng)經(jīng)驗(yàn)這么具有影響力,以及為什么他們特別容易被欺負(fù),有時(shí)他們本身最后也成為欺凌弱小者。

群體中背叛的可能性,可以被合作的經(jīng)驗(yàn)所削弱,因?yàn)橄惹暗牟┺慕⒘诵湃巍R虼俗晕覡奚袨榭梢?,例如,加?qiáng)團(tuán)體的道德品質(zhì)。如果團(tuán)體很小,積極行為更可能以互相肯定的方式——鼓勵(lì)這個(gè)團(tuán)體中的個(gè)人繼續(xù)合作——得到反饋。這與相似的困境有關(guān):鼓勵(lì)那些你將援助的人,從可能使他們處于危險(xiǎn)的境地的行為中得到滿足。這類方法主要在互惠利他主義、群選擇、血緣選擇和道德哲學(xué)的研究中涉及。

評(píng)論  |   0條評(píng)論