モンティ・ホール問題好きのホームページプライバシーポリシー

2013/08/18 14:36:37

モンティ・ホール問題にゲーム理論の考え方を適用

Seymann R. G. (1991). や Gill, Richard D.(2010). などの文献では、ホストや挑戦者をゲーム理論のプレイヤーに見立てる考え方にも触れているが、大当たりを出さないことをホスト側の目標として考えているので、TVのゲーム番組をもとに考案されたモンティ・ホール問題の設定としては違和感がある。

しかし、ホストが目指す目標を「適性な頻度で挑戦者に大当たりを出す」こととすれば、違和感なくゲーム理論が適用できるかも知れない。

番組の放送ごとに交代するかも知れないホストの総体を 1つのプレイヤーとしてとらえ、番組の放送ごとに次から次に現れる挑戦者の総体を 1つのプレイヤーとしてとらえ、大当たりのでる適正な頻度がスポンサー企業との相談で決まっているとして、ホストが「地獄から来たモンティ」として振る舞う割合と、標準仮定に従って振る舞う割合の設定をホスト側の戦略としてとらえ、挑戦者が switch する割合と stay する割合を挑戦者側の戦略としてとらえると、ゲーム理論の題材になりそうである。

しかし、現実の Let's Make A Deal のゲームはモンティ・ホール問題のゲームのように単純ではなく、ホストが「地獄から来たモンティ」としてあからさまに振る舞うこともないので、あくまでも理論上の計算でしかない。

というわけで、ささやかながら、モンティ・ホール問題にゲーム理論を応用してみました。
ゲーム理論には詳しくないので、ゲーム理論の考え方を適用するにとどまっています。

ゲーム理論の考え方を適用する準備

まず、変数を次のように整理する。

	値
適正な大当たり率	e
地獄から来たモンティになる率	h
switch する率	w

大当たりが出る確率を計算するために場合分けの表を作ると次のようになる。

ホストの戦略	挑戦者の戦略	挑戦者の選んだ扉	挑戦者が勝つか	場合ごとの確率	勝つ確率の抜書き	勝つ確率の和
地獄から来たモンティ	switch	当り	勝つ	0	0	h(1-w) / 3 + 2(1-h)w / 3 + (1-h)(1-w) / 3 = (h - hw + 2w - 2hw + 1 - w - h + hw) / 3 = (1 + w -2hw ) / 3
		当り	負ける	hw / 3
		ハズレ	勝つ	0	0
		ハズレ	負ける	2hw / 3
	stay	当り	勝つ	h(1-w) / 3	h(1-w) / 3
		当り	負ける	0
		ハズレ	勝つ	0	0
		ハズレ	負ける	2h(1- w)/ 3
標準仮定遵守	switch	当り	勝つ	0	0
		当り	負ける	(1-h)w / 3
		ハズレ	勝つ	2(1-h)w / 3	2(1-h)w / 3
		ハズレ	負ける	0
	stay	当り	勝つ	(1-h)(1-w) / 3	(1-h)(1-w) / 3
		当り	負ける	0
		ハズレ	勝つ	0	0
		ハズレ	負ける	2(1-h)(1-w) / 3

プレイヤーのせめぎあいの例

例①-1

e (適正な大当たり率） = 1/ 2 とする。

初期j状態

戦略	h = 0, w = 1/2 という戦略で出発する
大当たりの率	1/2 = e
ホスト側が戦略を変える誘引	ない
挑戦者側が戦略を変える誘引	ある

↓

挑戦者が戦略を調整した後の状態

戦略	h = 0, w = 1という戦略に変化
大当たりの率	2/3 ＞ e
ホスト側が戦略を変える誘引	ある
挑戦者側が戦略を変える誘引	現状のホストの戦略下で当る確率が最大値なので挑戦者側には戦略を変える誘引がない

↓

ホストが戦略を調整した後の状態

戦略	h = 1/4, w = 1という戦略に変化
大当たりの率	1/2 = e
ホスト側が戦略を変える誘引	ない
挑戦者側が戦略を変える誘引	現状のホストの戦略下で当る確率が最大値なので挑戦者側には戦略を変える誘引がない

例①-2

例①-1 と同じく、
e (適正な大当たり率） = 1/ 2 とする。

初期j状態

戦略	h = 0, w = 1という戦略で出発する
大当たりの率	2/3 ＞ e
ホスト側が戦略を変える誘引	ある
挑戦者側が戦略を変える誘引	現状のホストの戦略下で当る確率が最大値なので挑戦者側には戦略を変える誘引がない

↓

ホストが戦略を調整した後の状態

戦略	h = 1/4, w = 1という戦略に変化
大当たりの率	1/2 = e
ホスト側が戦略を変える誘引	ない
挑戦者側が戦略を変える誘引	現状のホストの戦略下で当る確率が最大値なので挑戦者側には戦略を変える誘引がない

例②-1

e (適正な大当たり率） = 5/ 6 とする。

初期j状態

戦略	h = 0, w = 1/2 という戦略で出発する
大当たりの率	1/2 ＜ e
ホスト側が戦略を変える誘引	現状の挑戦者の戦略下で当る確率の最大値なので、ホスト側には戦略を変える誘引がない
挑戦者側が戦略を変える誘引	ある

↓

挑戦者が戦略を調整した後の状態

戦略	h = 0, w = 1という戦略に変化
大当たりの率	2/3 ＜ e
ホスト側が戦略を変える誘引	現状の挑戦者の戦略下で当る確率の最大値なので、ホスト側に戦略を変える誘引はない
挑戦者側が戦略を変える誘引	現状のホストの戦略下で当る確率が最大値なので挑戦者側には戦略を変える誘引がない

例②-2

例②-1 と同じく、
e (適正な大当たり率） = 5/ 6 とする。

初期j状態

戦略	h = 1/4, w = 1 という戦略で出発する
大当たりの率	1/2 ＜ e
ホスト側が戦略を変える誘引	ある
挑戦者側が戦略を変える誘引	現状のホストの戦略下で当る確率が最大値なので挑戦者側には戦略を変える誘引がない

↓

挑戦者が戦略を調整した後の状態

戦略	h = 0, w = 1という戦略に変化
大当たりの率	2/3 ＜ e
ホスト側が戦略を変える誘引	現状の挑戦者の戦略下で当る確率の最大値なので、ホスト側に戦略を変える誘引はない
挑戦者側が戦略を変える誘引	現状のホストの戦略下で当る確率が最大値なので挑戦者側には戦略を変える誘引がない

例③-1

e (適正な大当たり率） = 2/ 3 とする。

初期j状態

戦略	h = 0, w = 1/2 という戦略で出発する
大当たりの率	1/2 ＜ e
ホスト側が戦略を変える誘引	現状の挑戦者の戦略下で当る確率の最大値なので、ホスト側には戦略を変える誘引がない
挑戦者側が戦略を変える誘引	ある

↓

挑戦者が戦略を調整した後の状態

戦略	h = 0, w = 1という戦略に変化
大当たりの率	2/3 = e
ホスト側が戦略を変える誘引	ない
挑戦者側が戦略を変える誘引	現状のホストの戦略下で当る確率が最大値なので挑戦者側には戦略を変える誘引がない

例③-2

例③-1 と同じく、
e (適正な大当たり率） = 2/ 3 とする。

初期j状態

戦略	h = 1/4, w = 1 という戦略で出発する
大当たりの率	1/2 ＜ e
ホスト側が戦略を変える誘引	ある
挑戦者側が戦略を変える誘引	現状のホストの戦略下で当る確率が最大値なので挑戦者側には戦略を変える誘引がない

↓

挑戦者が戦略を調整した後の状態

戦略	h = 0, w = 1という戦略に変化
大当たりの率	2/3 = e
ホスト側が戦略を変える誘引	ない
挑戦者側が戦略を変える誘引	現状のホストの戦略下で当る確率が最大値なので挑戦者側には戦略を変える誘引がない

まとめ

ホストが「地獄から来たモンティ」として振る舞う割合と、標準仮定に従って振る舞う割合の設定をホスト側の戦略としてとらえた場合には、適正な大当たりの率が 2/3 より小さければ、ホスト側はその目標を実現することができることがわかりました。

ホストが「天使モンティ」として振る舞う割合と、標準仮定に従って振る舞う割合の設定をホスト側の戦略としてとらえた場合には、適正な大当たりの率が 2/3 より大きい場合にも対応できるでしょう。

参考文献

Gill, Richard D.(2010).
The Monty Hall Problem is not a Probability Puzzle
Seymann R. G. (1991).
Comment on Let's make a deal: The player's dilemma, American Statistician 45: 287-288.

用語解説

標準仮定
モンティ・ホール問題や3囚人問題を数学的に解くためには問題文に明示的に書かれていない条件を仮定する必要がある。
標準仮定はそうした仮定の一つであり、モンティ・ホール問題の場合、次のような内容となっている。
①当たり扉はランダムかつ等確率に設定される
②ホストは挑戦者の選んだ扉を開けない
③ホストは必ず残りの扉を一枚開ける
④ホストはハズレの扉しか開けない
⑤ホストは挑戦者の選んだ扉が当たりのとき、ハズレ扉をランダムかつ等確率に選んで開ける
⑥ホストは扉を開けた後に必ずswitchの機会を挑戦者に与える
1975年にモンティ・ホール問題を発案した Steve Selvin も、
199０～1991年に PARADE誌のコラム"Ask Marilyn"で論争した人々の多くも、
標準仮定のもとに議論していた。
「標準仮定」(the standard assumptions)とは Wikipedia(英語版)の "Monty Hall problem"の記事で導入された言葉である。
3囚人問題の標準仮定は、「⑥ホストは扉を開けた後に必ずswitchの機会を挑戦者に与える」を除いたものになる。
地獄から来たモンティ
モンティ・ホール問題のホストの行動パターンが標準仮定から外れているパターンの一種で、
挑戦者が当り扉を選んだときには switch の機会が与えられるが、ハズレ扉を選んだときには与えられないパターンを言う。
天使モンティ
モンティ・ホール問題のホストの行動パターンが標準仮定から外れているパターンの一種で、
挑戦者がハズレ扉を選んだときには switch の機会が与えられるが、当り扉を選んだときには与えられないパターンを言う。

トップページに戻る