標籤: 暫無標籤

大數定律又稱大數法則、大數率。 在一個隨機事件中,隨著試驗次數的增加,事件發生的頻率趨於一個穩定值。

 

1 大數定理 -定理

大數定理簡介

2 大數定理 -解釋

      我們知道,單憑理性計算,有限次重複博奕,是解決個體理性與集體 理性之間矛盾的。無限重複又如何呢?且聽我細細道來。   在無限重複中,行為規則可以用自動機來代表,於是不同行為規則的 相爭,便成了機器與機器的角斗。假設甲和乙玩無限重複的囚犯博奕。甲 相信《美德的起源》一書作者的教導,認定仁厚忠恕既高尚又有效,於是 以它為策略。乙信奉理性流氓主義,崇尚實力和實利,於是以流氓主義為 策略。這樣,二人間的博弈,就可以看作恕道機器與流氓機器的爭鬥。根 據上一貼中列出的框圖,我們可以推演出各個回合雙方的行為如下: 第一回合,甲仁厚玩合作H,乙宰客玩欺騙D; 第二回合,甲報復玩欺騙D,乙仍然宰客玩欺騙D; 第三回合,甲仍報復玩欺騙D,乙發現甲並非傻客,於是玩合作H; 第四回合,甲原諒乙,玩合作H;乙卻因甲上次不合作,回頭玩欺騙D宰客; …… 如此等等。採用我們上貼里的報償表,整個結果序列如下圖所示:

             循 環   循 環   循 環
      ┌───┐ ┌───┐   ┌───┐
     ↓   ↓ ↓   ↓   ↓   ↓  
行為:甲 H D D H D D H D D 
   乙 D D H D D H D D H 

報償:甲 0 2 6 0 2 6 0 2 6 
   乙 6 2 0 6 2 0 6 2 0 


       

……   請注意,此序列呈現一個有趣的規律:就是每三個一組,不斷循環重 復。於是我們很容易算出,博弈各方平均每個回合的報償有多少  只要 取相繼三個回合,作個簡單平均就夠了。甲得到(0+2+6)/ 3 = 2.67,乙得到(6+2+0)/ 3=2.67。顯然,兩者平分秋色, 不相上下,誰也不比誰差,誰也不比誰強。   這種循環重複並不是特例。可以證明,有限自動機玩無限重複博弈, 其結果最終都會變成循環重複序列。於是,利用類似的辦法,我們可以針 對上貼中列出的七種策略,算出每一對策略相博所產生的的平均報償。這 些報償可以寫成一個7×7博奕矩陣,如下表所示(其中一些略去了小數, 這不影響下面的討論):



     傻客  惡棍  冷血  恕道  俠義  流氓  搖擺           ·---------------------------·   傻客 |4,4|0,6|4,4|4,4|4,4|0,6|0,6|     |---+---+---+---+---+---+---|   惡棍|6,0|②,②|2,2|2,2|2,2|3,1|2,2|     |---+---+---+---+---+---+---|   冷血|4,4|2,2|④,④|④,④|2,2|3,1|2,2|     |---+---+---+---+---+---+---|   恕道|4,4|2,2|④,④|④,④|3,3|2,2|2,2| 甲   |---+---+---+---+---+---+---|   俠義|4,4|2,2|2,2|3,3|2,2|2,2|2,2|     |---+---+---+---+---+---+---|   流氓|6,0|1,3|1,3|2,2|2,2|④,④|2,4|     |---+---+---+---+---+---+---|   搖擺|6,0|2,2|2,2|2,2|2,2|4,2|③,③|      ·---------------------------·


                
 
    上面這個表裡面,有帶圈數字的格子都是平衡點。比如,乙玩惡棍策 略時,甲無論玩什麼,都不比當惡棍帶來的好處更多,頂多不致受損而已。 因此,甲乙雙方都當惡棍,次次都玩欺騙,便是重複囚犯博奕的平衡點之 一,此時各方的報償與一次性博奕相同,都是2。   觀察一下上面這個表,我們會發現它有多個平衡點。非重複博弈中的 均衡點,惡棍對惡棍,雙方永遠玩欺騙,仍然是無限重複博弈的均衡點。 無條件合作的傻客策略,仍然不是重複博弈的均衡點  理性的人,決不 會當傻客。   更重要的是,重複博弈引進了許多新的平衡點,其中有不少平衡點, 可以實現合作報償(4,4)。 這包括恕道策略對恕道策略,恕道策略對冷血 策略,冷血策略對冷血策略,流氓策略對流氓策略等,都可以維持雙方的 合作。以流氓對流氓為例:第一回合,雙方耍流氓互宰,發現對方不是好 惹的之後,雙方轉入合作心態,此後一直維持合作,這樣無限次重複,其 平均報償都是4。   事實上,存在這無窮多對有限自動機策略,可以成為無限重複博弈的 平衡點,並同時實現雙方的合作。這就是有名的「大眾定理(Folk Theorem)」, 又譯作「無名氏定理」。它之得名,是由於重複博弈促進合作的思想,早 就有很多人提出,以致無法追溯到其原創者,於是以「無名氏」名之。   大眾定理說明了行為規則的多樣性:有無窮多種行為規則可以支持合 作行為。在正常的平衡狀態中,可觀察到的行為可以完全相同的,此即博 弈雙方相互合作,不玩欺騙。但其背後的行為規則卻可能大不相同  合 作,可以是由於雙方都信奉仁厚的恕道主義,也可能是因為雙方都是理性 流氓,還可能是因為雙方都一冷血報復作威脅。這些行為規則上的區別, 在正常的平衡狀態中,是看不出來的,只有在非正常情況下,或在與外人 的交往中,才會表現出來。   為說明此點,設想有兩個相互隔離的社會:一個形成了理性流氓式的 行為規則,一個形成仁厚恕道的行為規則,他們各自內部都能維持相互合 作,這形成了社會的正常狀態。外人但憑觀察這兩個社會中人們的正常行 為,看不出他們有什麼區別。現在假設兩個社會打破隔離,相互接觸,會 產生甚麼情況?  兩套行為規則間會出現激烈的衝突!   初次接觸,流氓主義者將把對方當傻客,大宰其客。恕道主義者假設 對方是好人,選擇合作,只是在吃了虧之後,才以回宰其客相回報。流氓 主義者見對方回宰,以為對方也是跟自己一樣的流氓,於是轉向合作心態, 同時預期對方也選擇合作。但恕道主義者根據「以直報怨」的原則,仍然 以宰客回報對方上次的欺騙。流氓主義者一看對方不合作,怒從心起,於 是報之以宰客,如此循環往複,雙方永遠無法達成合作。   行為規則的衝突,類似於人文學科里常說的文化衝突。由於行為規則 反映了人們對各自行為的穩定預期,一些博弈論者把不同的行為規則解釋 為不同的文化信仰,應當是不無道理的。我覺得,重複博弈理論,為我們 科學理解許多文化現象,打開了大門。   正是由於行為規則本身的多樣性和複雜性,所以我對成朴文章中過分 抬高「一報還一報(tit for tat)」單一規則,將之推崇為 美德的起源,始終抱有疑慮。

相關評論

同義詞:暫無同義詞