モンティ・ホール問題好きのホームページ    プライバシーポリシー

トップページに戻る
2018/05/13 7:47:57
初版 2018/05/07

あるWikipedia編集者の論文

英語版 Wikipedia の記事 'Two envelopes problem' の編集者が 2011年に書いた論文が google で検索すると数十番目くらいに出てきます。著者は同記事の主要な編集者の一人なので興味を引きます。
以下、その論文を 「この論文」 と呼ぶことにします。

この論文の内容

書かれた時期
論文の表題部に 2011年暮れの日付が書かれています。
偶然だと思いますが、2011 年ころは "Two envelopes problem" の編集戦争が多かった時期の一つです。 (← 2018年5月10日 修正)

「1. 二封筒問題1」 の章の導入部
「開ける前に交換型」 の問題文を英語版 Wikipedia の "Two envelopes problem" の記事の 2008年頃の版を引用している心理学論文から引用している。
私の注:
  • 問題文が英語版 Wikipedia の "Two envelopes problem" の記事の 23:34, 5 December 2007の版の問題文と完全に一致します。
  • この論文の著者が "Two envelopes problem" の記事の編集に加わったのがこの論文を書く前の 2011年 5月頃なので、自分が編集に参加している記事を別の論文から間接的に引用していることになります。

次に使用する記号を定義している。
  • A を選んだ封筒の金額の確率変数とし、B を他方の封筒の金額の確率変数とする。
  • X を金額ペアの小額側の金額の確率変数とし、Y をその倍の確率変数とする。
  • そうすると次のようになる。
    (A,B)=(X,Y) または (A,B)=(Y,X).
    P({A=X}) = 1/2.

次に二つの封筒問題にはいくつかの続編があると述べている。
  • オリジナルは二封筒問題1
  • その続編として二封筒問題2などが作られた。
  • 問題文の主題が無条件期待値 E(B) なのか、条件付期待値 E(B|A) なのかは、読者の選択に任されている。

私の注:
  • この論文の著者が 「開ける前に交換型」 の問題文がオリジナルだと勘違いしたり、後の方の章で本当のオリジナルの問題文(開けてから交換型)を 「二封筒問題3」 などと呼称していることなどから、この論文の著者の情報源が哲学系に偏っていることが窺われます。
  • 大概の人は E(B|A=a) で考え始めると思います。 E(B) を考える人がいたとしたら、E(B|A=a) を考えているうちに頭の中で E(B) にすり替わった人か、他の人の説の暗示効果ですり替わった人だと思います。
  • E(B|A=a) を考えているうちに頭の中で E(B) にすり替わってしまった人は実在します。私がその一人で、二つの封筒問題を考えているうちに平均値誤用説が頭に浮かびました。
  • 大概の人が E(B|A=a) で考え始めることを心理学者が実験で検証することは可能だと思います。


「1.2. 哲学者の選択」 の章
二封筒問題1 (「開ける前に交換型」の問題) に対して、主に哲学者が E(B) を主題としていることに関連して論じている。
主題とする期待値計算式は E(B) = P(A=X)E(B | A=X) + P(B=X)E(B | B=X) である。
これに対して次の式が成り立つ。
  • P(A=X) = P(B=X) = 1/2.
  • E(A | A=X) = E(X).
  • E(B | B=X) = E(X).
  • 従って、E(B)=(3/2)E(X).

私の注:
  • この論文の著者が "Two envelopes problem" の 10:00, 9 February 2012 の版に始めて書いた公式は次のようです。
    E(B|X=x) = E(B | B > A, X=x).Prob(B > A | X=x) + E(B | B < A, X=x). Prob(B < A | X=x).
    この式の前に "Given the values x and y of X and Y, 云々" と書かれているので、この論文の内容と一致します。
  • この論文のように小額側金額の確率変数 X の期待値 E(X) を使うと式が簡単になるようです。

次に、私が "長きにわたって英語版Wikipedia が参照している論文" と呼んでいる論文の要約版を引用して、次のように述べている。
  • その要約版で述べていることを言い換えると 「他方が高額側だという条件でのその期待値は他方が小額側だという条件でのその期待値より大きい」となるが、言っていることは正しい。
    (注: 「その期待値」 の 「その」 は選んだ封筒の金額を指していると思います) (← 2018年5月10日 追加)
  • 多くの哲学者たちが、同じ語が異なるものを表していることに気づくことでパラドックスを解決できると述べている。
  • しかしそのような哲学者たちの解釈は very far fetched (「こじつけ」や「不自然」といった意味) である。

私の注:
  • "長きにわたって英語版Wikipedia が参照している論文"  に 「2X の項の X の期待値と ½X の項の X の期待値は異なる」 といった内容の文があります。 この論文で 「他方が高額側だという条件でのその期待値は他方が小額側だという条件でのその期待値より大きい」 と言い換えた部分の原文だと思います。
    (↑ 2018年5月10日 修正)
  • このように、この論文が引用した論文に平均値誤用説に似た説が出てくるのですが、引用した論文の方の主題は 「確率変数の取るべき条件」 であって、平均値誤用説ではありません。(詳しくは "長きにわたって英語版Wikipedia が参照している論文" に)
  • ベイジアン的解釈について述べている箇所もありましたが、難しい英語で書かれていて、よくわかりませんでした。


「1.3. 確率論者の選択」 の章
二封筒問題1(すなわち、「開ける前に交換型」 の問題)に対して、確率論者が E(B | A) を主題としていることを論じている。
主題とする期待値計算式は E(B | A) = P(A=X | A) E(B | A=X, A) + P(B=X | A) E(B | B=X, A) である。
これに対して次の式が成り立つ。
  • E(B | A=X, A) = E(2X | A) = 2A.
  • 同様に、E(B | B=X, A) = A.
  • しかし、P(A=X) = P(B=X) = 1/2 とは限らない。
(↑ 2018年5月13日 修正)

私の注:
  • E(B | B=X, A) = A」 の部分は 「E(B | B=X, A) = A/2」 ではないでしょうか?


「1.4. 事の本質」 の章
次のように書いている。
次のうちのどれが該当するかの判別は困難である。
  • 変数が正しいが確率がまちがい
  • 確率は正しいが変数がまちがい
  • 確率変数とその取り得る値の混同
  • 条件付期待値と無条件期待値の混同
  • 条件付確率と無条件確率の混同

哲学者と確率論者は本質的に同じことを示している。
確率変数 X は事象 A=X と独立でない。

定理1
確率変数 A は事象 A<B と独立でない。

定理2
確率変数 A と B が常に異なる値を取り、かつ結合確率分布が変数の入れ替えに対して対称だとする。
そうすると、P(A<B | A) ≠ P(B<A | A) となる。
(↓ 2018/05/09 追加) :
言い換えると、A の値の正確率の集合に対して、
P(A<B | A=a) ≠ P(B<A | A=a)
である。
また、全ての a に対して、
P(A>a | A<B) ≤ P(A>a) ≤ P(A>a | A>B)
であり、A の法則の元で正確率で不等号が成立する。

私の注:
  • 「確率変数 R と事象 E の間の独立性」 とは、 確率変数 R がある範囲の値であるという事象と E という事象の間の独立性のことらしいです。
  • 「哲学者と確率論者は本質的に同じことを示している」 というのは 「確率が正しければ確率変数を間違え、確率変数の使い方が正しければ確率を間違える。どちらになるかはあなた次第」 という意味らしいのですが、たとえ哲学者でも自発的に確率変数を間違える人はいないと私は思います。 もちろん確率論者は絶対に確率変数を間違えません。 「確率変数の使い方を間違った」 と主張する人は変数誤用説に暗示を受けて、あたかも自分が確率変数の使い方を間違ったかのような錯覚に陥っているのだと思います。
  • 「法則 (law)」 という確率論用語は「分布 (distribution)」 という確率論用語と同じ意味らしいです。
    「法則」は次のように定義されるそうです。
    確率変数 X と B ∈ Borel(ℜ) に対し L(X, B) := P(X-1(B)) と書くと、L(X, ⋅) が測度であるための必要十分条件は、P(X = −∞ ∨ X = +∞) = 0 である。 (← 2018年5月10日 修正) :
    (注:X-1(B) は確率変数の値が B に入っていると言う事象を指します)
    L(X, ⋅) が測度であるとき、それを X の分布 (distribution) あるいは法則 (law) と言う。
  • 定理1と定理2の間に書かれている文章の中でSamet, D., Samet, I., & Schmeidler, D. (2004). を引用しています。ざっと目を通したところ、Samet, D., Samet, I., & Schmeidler, D. (2004). は封筒を交換する戦略を論じている論文らしいです。
  • 「選んだ封筒の金額が大きいほど他方が小さい傾向があるだろう」 という直観的な予想が定理2で確かめられました。


「2 二封筒問題2」 の章の 「 2-1 完全に無知なベイジアン」
(2018年5月09日追加)
「2 二封筒問題2」 の章の 「2-1 完全に無知なベイジアン」 では 「開ける前に交換型」 の問題にベイジアンの考え方を応用している。
英文が難しいので、興味を引いてかつ理解できた部分だけ抜き出します。
X の確率分布の知識がまったくないときにベイジアンが事前分布を計算する方法を述べている。
  • 前出のように、確率変数 A、 B、 X、 Y を考える。
  • 確率分布に関する知識がまったくないことを事前分布で表わした場合、その事前分布は X と cX (標準的な二封筒問題では c = 2) で同一になる。 (← 2018年5月10日 修正)
  • そのような事前分布では P(X=x) は 1/x に比例する。

私の注:
  • この論文では情報のなさを事後確率で表現していますが、ベイズ統計学の考え方に反します。
    事前分布のパラメータを推定するために事後確率を利用するのがベイズ推定なのだから、事後確率から情報が得られないとしたら意味がありません。
    (↑ 2018年5月10日 修正)
  • 統計学博士の美添先生のホームページ 「美添泰人のホームページ [青山学院大学 経済学部]」 の 「統計に関する教材」 というページからリンクされている 「確率に関するパラドックス(その1)」 という表題の pdf ファイルに書かれている 「定理2」 が、この論文の 「2-1 完全に無知なベイジアン」 の内容と関連しています。

A=X という事象の A を条件とする条件付確率が 1/2 となるようなXの事前分布が improper だから排除すべきとは言えないことを論じている。
  • 1/x を確率密度関数とする確率分布が improper という理由でここで終わりにするのは安っぽい解答である。 X について何も知らないことを承知の上で期待値を論じるなら、A に条件つけられた Δ はBernoulli(1/2) (注参照) に非常に近いので、期待値計算式 (1/2)2A + (1/2)(A/2) が間違いだとは言えない。
  • 例として、正の実数区間 [ε, M] 上の確率密度関数 c/x を考える。
    そうすると c = log2(M/ε) になる。
    (A, Δ) の結合分布 は [ε,M]×{0} ∪ [2ε,2M]×{0} の上で確率密度 c/(2x) を持つ。 (注参照)
    したがって Δ の A による条件付き確率分布は、A=a ∈ [2ε, 2M] に対して Bernoulli(1/2) であり、a ∈ [ε, 2ε) M] ∪ (M, 2M] に対して 縮退する。
  • 別の例として、2k : k = -M, … N , 上の一様分布で M → ∞ N → ∞ というケースを考えると、同様の性質を持っている。
    (↑ 2018年5月10日 修正)
  • proper であれ、improper であれ、A と Δ が独立であるような全ての確率分布の持つ性質を証明したい。
    そうすることは A と Δ が独立であるような proper な確率分布がないことを証明するより建設的である。 (そのような証明を読んだことがあるが、どの文献か覚えていない)
  • 定理3
    Δ の A に条件つけられた条件付き法則 (conditional law) が Bernoulli(1/2) に弱く収束するという意味で A と Δ が漸近的に独立であるような X の確率測度列 (sequnce of probability measure) を考えよ。
    そうすると log2(X) の法則 (law) と 1+log2(X) の法則の間の全変動距離 (toral variation distance) (X の法則 と 2X の法則の間の全変動距離に一致)は 0 に収束する。
    逆に X の法則 と 2X の法則の間の全変動距離が 0 に収束するなら、A と Δ は漸近的に独立である。

私の注:
  • 全体の文脈から考えると Δ は選んだ封筒が小額側か高額側かを表す確率変数だと思います。
    そうすると論文の中の"[ε,M]×{0} ∪ [2ε,2M]×{0}""[ε,M]×{0} ∪ [2ε,2M]×{1}" の書き間違いでしょう。
  • 「確率変数 A と Δ が漸近的に独立」という概念を「Δ の A に条件つけられた条件付き法則 (conditional law) が Bernoulli(1/2) に弱く収束する」で定義していると解釈しました。
  • 英語版 Wikipedia の "Convergence of measures" という記事を見て、「弱く収束する」というのは convergence of measures の一つの weak convergence のことだと理解しました。
  • Bernoulli(1/2) とは確率1/2 で 1 になり、確率 (1 - 1/2) で 0 になる確率分布です。
  • 全変動距離 (toral variation distance) は次のように定義されます。
    標本空間 Ω の部分集合のσ-代数 F (σ-加法族 F) の上の二つの確率測度 P、Q の間の全変動距離は
    d(P, Q) = |P(A) − Q(A)| の A ∈ F での上界
    で定義される。
    全変動距離は三角不等式などの距離の公理を満たすそうです。
  • log2(X) や 1 + log2(X) を持ち出したのは、X と 2X を考えるときに必要な変数変換のわずらわしさを避けるためだと思います。
  • 定理3 は improper な確率分布に収束する proper な確率分布がある場合に、improper な確率分布に「漸近的に独立」というお墨付きを与えるためのものだと思います。
  • この論文の執筆者はproper な確率分布の極限であるなら確率分布が improper でも拒否する理由はないと言っていますが「封筒を選んだら開けなくても交換した方がよい」という肝心のパラドックスの解になっていません。
  • 大概の数学者が確率の間違いがパラドックスの原因だとしていることと比べると、この論文の著者の特異ぶりがわかります。
  • 2k : k = -M, … N の例の場合、一様分布のまま M と N を ∞ まで大きくすると、どこもかしこも確率が 0 になってしまっておかしなことになります。
    (↑ 2018年5月10日 追加)


これ以降は走り読みだけ

(2018年5月09日修正)

  • 「2 二封筒問題2」 の章の 「2-2 二封筒問題2 proper : 巨大な期待値」 では、「2n/3n+1」 というおなじみの確率計算式や  E(X)=∞ が出てくるので、パラドキシカル分布を論じていることがわかります。
    しかし「数理経済学や意思決定論でよく議論されている」と書いている点が気にかかります。論者の専門分野とこのテーマの間に何の関係もないと思うからです。
    期待値計算式がまったく書かれておらず、計算結果だけが書かれている点も気にかかります。 1/2 でない確率を書きたくないからでしょうか?
  • 「3 二封筒問題3」 の章では 「開けてから交換型」 の問題を論じていながらパラドックスには感心を示さず、Cover, T. M. (1987). の理論を封筒交換戦略に応用することを取り上げています。
  • 「4 二封筒問題0」 の章ではスマリヤンのパラドックスを取り上げています。
    (スマリヤンのパラドックスについては "スマリヤンの二つの文のパラドックス" で紹介しました)


読後感

この論文は次のような特徴があるので、数学者の書いた論文の中では異色なものだと思います。 英語版 Wilipedia の "Two envelopes problem" の中での平均値誤用説の扱いについては、"英語版Wikipediaの2分の3説"をご覧ください。

この論文の特異さは次のように要約できると思います。 (↑ 2018年5月10日 修正)

参考文献

用語解説



トップページに戻る