深層強化学習のベイズ主義的な情報探索に駆動された自然言語処理の意味論

スポンサーリンク

問題設定:旧い統計学の絶滅

2016年、ついにアメリカ統計学会(American Statistical Association: ASA) が「p値(p-values)」や「統計的有意性(statistical significance)」を相対化するような声明を発表した。この声明では6つの原則(Principles)が掲げられている。

「p値によって、そのデータが特定の統計的モデルにどの程度不適合なのかを指し示すことができる。」
Ronald L. Wasserstein & Nicole A. Lazar (2016): The ASA’s statement on p-values: context, process, and purpose, The American Statistician, DOI: 10.1080/00031305.2016.1154108. p.8

ここでは、基礎的なp値の概念を説明している。

「p値では、その仮説が真である確率を計測できず、純粋に偶然によってデータが生成された確率も測定できない。」
Ronald L. Wasserstein & Nicole A. Lazar (2016): The ASA’s statement on p-values: context, process, and purpose, The American Statistician, DOI: 10.1080/00031305.2016.1154108. p.9

ここでは、p値の限界設定を確認した内容となっている。

「科学的な結論とビジネスや政策上の意思決定は、p値が特定の閾値を超えたか否かのみによって基礎付けられるべきではない。」
Ronald L. Wasserstein & Nicole A. Lazar (2016): The ASA’s statement on p-values: context, process, and purpose, The American Statistician, DOI: 10.1080/00031305.2016.1154108. p.9

このあたりから本格的に、従来の統計学で続いていたp値の運用方針に対する意見が提起されるようになる。

「適切な推論は、完全な報告と透明性を必要とする。」
Ronald L. Wasserstein & Nicole A. Lazar (2016): The ASA’s statement on p-values: context, process, and purpose, The American Statistician, DOI: 10.1080/00031305.2016.1154108. p.9

統計学的な推論は、不完全な報告であってはならない。その推論の一部に恣意的な選択が含まれていた場合には、推論は瓦解する。統計学的な推論を報告する際には、更に透明性も担保しなければならない。と言うのも、「何に関する分析が何回実施されたのか、そして分析結果の報告において如何にしてその分析が選択されたのかを最低限知っておかなければ、p値p値と関連する統計学を基礎とした妥当な科学的結論を引き出すことはできない」ためだ。

「p値や統計的有意性は、分析結果の効果や重要性の規模を測定する訳ではない。」
Ronald L. Wasserstein & Nicole A. Lazar (2016): The ASA’s statement on p-values: context, process, and purpose, The American Statistician, DOI: 10.1080/00031305.2016.1154108. p.10

この声明では、更に統計的な有意性が、科学的な有意性、人文的な有意性、経済的な有意性とは区別されているとさえ述べられている。なるほど、『統計学が最強の学問である』などとも言っていられなくなった訳だ。

「p値はそれ自体では、モデルや仮説の証拠(evidence)についての良い尺度は得られない。」
Ronald L. Wasserstein & Nicole A. Lazar (2016): The ASA’s statement on p-values: context, process, and purpose, The American Statistician, DOI: 10.1080/00031305.2016.1154108. p.11

文脈や他の証拠から切り離されたp値単体の効用には限界があるということを、ここで改めて確認されている。

尤も、「p値」や「統計的有意性」の限界が指摘されるのは、歴史的には珍しいことではない。ビッグデータがバズワード化した時も、ベイズ流行った時も、旧い統計学には常に疑いの眼差しが向けられていた。回は単に統計学の権威的な立場にある者たちがこの限界を指摘しているという点で差異があるが、その指摘の内容そのものは平凡な内容だ。

むしろこうした声明を受けた者たちが注意すべきなのは、「p値」や「統計的有意性」に限界が伴っているにも拘らず、これらの概念が反事実的に選択され続けているという社会的・歴史的背景であろう。統計学者たちの間では、確かに「p値」や「統計的有意性」といった概念にはある種の「期待外れ」が生じていたはずだ。だがそれにも拘らず、「p値」や「統計的有意性」は、まるで「規範」であるかのように期待され続けてきた。

こうして「期待外れ」が生じているはずの選択肢が、反事実的に、「規範」であるかのように期待され続けることが如何にして可能になっているのかという問題設定から統計学観察することで、我々は後の「p値」や「統計的有意性」が、どの程度後も統計学で採用され続けるのかを推論することが可能になる。

問題解決策:統計的仮説検定の有意水準

頻度主義的な推測統計学方法は、一般的には仮説検定法(Hypothesis testing method)によって形式的に導入されている。仮説検定では対立仮説(Alternative hypothesis)と帰無仮説(Null hypothesis)の区別を導入することで、事前に設定しておいた有意水準から帰無仮説否定された場合に、結果的に対象としている事象に「統計的有意性(statistical significance)」があることを立証していく。

検定の方法は、更にパラメトリック検定(Parametric test)とノンパラメトリック検定(Nonparametric test)の区別で整理される。パラメトリック検定においては、母集団が正規分布に従っているために、平均値との差異の検定であるt検定や分散の分析であるF検定などの方法が採用されている。一方ノンパラメトリック検定母集団分布に仮定を設けない。この方法は、外れ値や異常値などのようなより母集団の正規性を仮定できない場合や、統計量の分布を算出するためのデータが量的に不十分である場合に用いられる。

尤も、一口に仮説検定法と述べても、その方法論は統計学を巡る社会構造意味論の影響下にある。統計学もまた歴史的な学問だ。言い換えれば、統計学歴史偶発性に曝されてきた学問である。例えば統計的仮説検定(Statistical hypothesis testing)の有意水準(significance level)として5%という値が頻繁に採用されてきたのは、それが唯一無二の真理だからではない。それは10%でも1%でもあり得た。

有意水準が5%なのは、統計学の父と呼ばれるロナルド・エイルマー・フィッシャーが、5%を一つの目安にしたからだ。フィッシャーが言及していたのは、統計学の分析対象の一つである農事試験である。この試験では、約20年の間、1年に1回データが得られる。対象は自然現象である。不確定性が大きい。だから20年に1度程度は誤るだろう。だから5%なのである。

フィッシャーとネイマン=ピアソンの差異

フィッシャー以来も、主にイェジー・ネイマンとエゴン・ピアソンによる「頻度主義(frequentist)」における統計的仮説検定が、確率分布における命題に関する真偽を判断するために用いられてきた。この仮説検定目的となるのは、命題を否定し得るか否かを確定することである。

このネイマン=ピアソン流の仮説検定方法は、フィッシャー流の仮説検定方法とは対照を成している。フィッシャーの仮説検定においては、個々の標本の実現値に関する個別具体性が問われるのに対して、ネイマン=ピアソンの仮説検定はあらゆる標本の実現値に関する平均値が問われる。フィッシャーの仮説検定内容を重視しているのに対して、ネイマン=ピアソンの仮説検定形式を重視している。そのため、ネイマン=ピアソン流の仮説検定は、フィッシャー流の仮説検定とは異なり、個別具体的な実現値に基づいて議論したところで客観的な根拠は得られないという前提の下で成り立っている。

ネイマン=ピアソン流の仮説検定では、予め全ての標本に通用する一般的な規則を導入しておかなければならない。つまり、判断基準を定数化しておかなければ、客観的な結論を導けないと考える訳だ。このようなネイマン=ピアソン流の仮説検定は、フィッシャー流の個別具体性を捨てて、抽象性を獲得したと言える。だからこそ現代の統計学の教科書には、ネイマン=ピアソン流の統計学が皆揃い踏みで取り上げられているとも考えられる。

頻度主義の盲点

しかし、ネイマン=ピアソン流の仮説検定はそれほど確実性の高い分析方法ではない。逆に帰無仮説が正しいことが判明したからといって、必ずしも帰無仮説内容が正しいとは限らないのである。と言うのも、標本の規模が大きくなれば、それだけ母集団に関するより正確な情報が得られるためだ。それ故、当の仮設が正しい場合には、帰無仮説否定され易くなる。帰無仮説が採択されたとしても、単に当の仮設が間違っているとは限らない。当の仮設が正しくても、標本の規模が不十分であれば、帰無仮説を積極的に否定するという結論には至らない場合もある。

ネイマン=ピアソン流の統計学における仮説検定は、その頻度主義的な指向が災いして、更なる方法論的な陥穽に直面することもある。彼らが仮説を立てる場合には、その仮説に従事すると仮定される対象が母集団内在していることがまず前提とされる。そして、その対象の個々が仮説に従事しているという仮定の妥当性を客観的な方法から分析するために、十分なデータを蒐集できるという前提にも依存している。

しかし、これらの前提が成り立つという保証は無い。ハーバート・アレクサンダー・サイモンが「限定合理性(bounded rationality)」という概念で説明していたように、我々は確かに合理的であろうと試みるのだが、認識能力には限界がある。限られた時間で収集できるデータには限りがある。だから不確実な状況下で決定を下すしかない。ましてや、刻一刻と変異していく不確定な状況においては、客観的であろうなどと悠長なことは言っていられない。

問題解決策:無作為標本抽出

無論、こうして決定を急かせば、統計学は真理とは掛け離れた思いもよらぬ誤謬を招いてしまうだろう。統計学が前提としてきたのは、部分と全体の同一性である。部分を調査すれば全体も俯瞰できるという想定を肯定しない限り、統計学的な方法は実践不可能になる。

統計調査の主体は決して全体を直接的に観察している訳ではない。彼ら彼女らが見ているのは「標本(sample)」という名の部分である。「母集団(population, universe)」たる全体ではない。あくまでも統計調査者は、そこから得られた情報によって、統計的な仮説検定を介して、頭の中で全体を観念的に推論しているのである。したがって、統計学が数値で定量化された根拠を示すが故に実証的であるというのは、欺瞞以外の何物でもない。そうした姿勢は、いわゆる「合成の誤謬(Fallacy of composition)」を招く。

ネイマン=ピアソン流の統計学は、そうした誤謬を抑止するために、ある程度の方法論は整えてはいた。全体を分析すべきか、それとも部分で構わないかという議論は、それほど新しくはない。既にネイマンは、部分の分析において重要となるのは標本の選択方法にあると気付いていた。そこで注目を集めたのが、「無作為標本抽出(random sampling)」である。それは、全体となる母集団からアトランダムに、つまり無作為に部分となる標本を抽出する方法意味する。実際、その後の統計学者たちの調査によって、標本の規模を大きくせずとも、無作為抽出を実施すれば標本の精度が飛躍的に高まることが判明した。と言うのも、標本の規模がある一定の範囲を超えると、それ以上どれほど大きくなったとしても、もはや調査結果から新しい情報が得られ難くなるからである。

無作為標本を抽出するのであれば、限定合理性の状況下においても、少ないコストでデータを蒐集できるようになる。そのため、この方法は、様々な専門組織によって、国勢調査や生産品質向上策に役立てられるようになった。かつての品質管理では、生産ライン上の個々の製品全てを管理する必要があった。だが無作為標本抽出を実施するなら、わざわざ全体を観る必要は無くなる。結果、管理コストの削減に結び付く。

無作為標本抽出法の限界

しかし、この方法はあくまで大規模なデータ分析を簡略化させる技術に過ぎなかった。その分析精度は、標本抽出時に無作為性を確保できるか否かに掛かっている。データの収集に僅かでも偏りが含まれていれば、その分析精度は忽ち劣化してしまうのだ。

有名な失敗例として、1936年の『リテラリー・ダイジェスト』誌の例を挙げられる。大統領選挙を目前に控えた有権者200万人を対象とした調査を実施したところ、共和党候補の圧勝を予測した。だがこれが大外れに終わった。標本の規模は十分であった。しかし無作為性が十分には確保されていなかったのだ。同誌は購読者一覧と電話帳から調査対象者を選択していた。だが当時の購読者や電話所有者は富裕層に限られていた。そしてこの層では、共和党支持者が多かったという訳だ。

ある母集団無作為標本を作成すれば、その集団全体の動向を把握することが可能になる。だが、その集団内でセグメント化された特定の小集団の動向までは確認できない。誤差が大きくなるからだ。たとえ標本集団それ自体が無作為に抽出された集団であったとしても、その中で性別や年齢などといった指標で集団を細分化しようとすれば、その時点でそれは無作為に集められた集団であるとは呼べなくなる。

標本集団をセグメントとして使い回してはならない理由は、もう一つある。そもそもこうした標本集団は、ある仮説を検証するという特定の目的を達成するために抽出されている。故に、当初とは別の仮説を検証する際には、その標本集団を再利用してはならない。最初から抽出し直さなければならないのだ。無論、最初から抽出し直すということは、無作為なのだから、全く別の標本集団を準備するということだ。標本というデータには、拡張性と再利用可能性が欠けているのである。

問題解決策:ビッグデータの分析技術

実際、頻度主義的統計学の寿命は刻一刻と刻まれている。ビッグデータの衝撃は並大抵の威力ではなかった。無作為標本抽出法は、データの収集方法や分析技術に制約があった時代の産物だ。これに対して、新しいビッグデータの分析基盤は、全体のデータを分析することによって、膨大なデータの中に埋もれていた情報を探索的に発見するヒューリスティック方法を可能にする。例えばクレジットカード会社の不正利用検知システムにおいて鍵となるのは、利用パターンの変則性を探索的に発見することである。標本ではなくデータ全体を処理しなければ、変則性は視えてこない。と言うのも、変則性というのは、その他の全てと比較した場合に観察される差異の性質だからだ。

データの全体を観察する以上、そのデータの選別に頭を悩ませる必要は無い。無作為性の確保という重大問題とも無縁だ。更に、全体のデータというのは、なるほど使い勝手が良い。標本集団ではできなかったセグメント化も、クラスター分析をはじめとしたデータマイニング技術によって、簡単に実現する。そして、全体のデータは特定の目的のために揃えられた部分などではない。だから再利用可能性拡張性が欠けることもないのである。データ全体であるというのはあくまで出発点に過ぎない。そこから細部を観察し始めても良い。新たな別の角度から観察し直しても良いだろう。だから、直ぐに新しい仮説を検証することも可能なのだ。

ビッグデータにおける限定合理性

注意しなければならないのは、無作為標本抽出法からビッグデータデータマイニング技術に切り替えたからといって、限定合理性から脱却できる訳ではないということである。そもそもデータの全体が分析できるといっても、常に全てのデータを揃えられるという保証は、やはり何処にも無い。

しかしながら、ビッグデータデータマイニング技術には、何か分析対象データが「ビッグ(big)」と呼ぶに相応しいか否かを判別する基準や定義がある訳ではない。単に所有し得るデータの全てを活用しようという試みこそが、ビッグデータデータマイニング技術の前提となる。データの絶対数が「ビッグ」である必要は無い。あるデータを全て利用しようとした結果、データ量が「ビッグ」になり易いというだけの話だ。

実際、データ量が「ビッグ」になれば、それだけ犠牲が伴う。データの情報量が増えれば、不確実性が増す。データマイニングにおいては頻繁に起こり得ることだが、そうした「ビッグ」なデータの中には、欠損値やnull値、あるいは誤った数値などが多分に含まれているのだ。

「スモール」なデータ分析においては、そうした乱雑なデータは除去されるのが道理であった。分析対象データは可能な限り精確である必要があるとされた。ただでさえ、分析対象は全体それ自体ではなく、部分なのだ。余計な懸念材料は持ち込みたくはないだろう。客観性を重視してきたネイマン=ピアソン流の統計学では、とりわけ一層、精確性への強迫観念が強かったと言える。

乱雑性の中に埋もれていく化石

ビッグデータデータマイニング技術は、そうした強迫観念を一掃してしまう。例えばヴィクター・マイヤー=ショーンベルガーとケネス・クキエは、データ量の増大に基づく乱雑性(Messiness)の増加は、むしろ技術の欠陥ではないと述べている。量は質をも凌駕する。精確であることが利点であるというのは、客観性を重んじて少ないデータの分析で満足していたかつての統計学者たちの話に過ぎない。データが少ない時代では、一つ一つの測定値が分析結果を大きく左右する。だから分析を歪めないようにするためには、精確性や厳密性に腐心する必要があったのだ。

しかし、ビッグデータデータマイニング技術を前提とした場合、乱雑性を受け入れることが利点に結び付いてくる。例えば機械翻訳を実現させるためには、コンピュータ言語の文法や規則を覚えさせなければならない。そう考えられていた。そのためには、コンピュータに辞書を登録しなければならないとされた。しかしながら、Googleで成功している翻訳システム機能しているのは、こうした正確な辞書に基づく賢いアルゴリズムが採用されているためではない。極端に言えば、それは単に、データ量を増やしたからだ。だが増やしたのは、正確な言語に関するデータ量だけではなかった。Googleの場合、乱雑なデータも受け入れたのである。

Web上には、ユーザーが入力してきた大量の言語データが遍在している。その中には、誤字脱字やタイプミスなどによる「ゴミ」のようなデータが大量に含まれている。しかし、こうした乱雑なデータが、翻訳システムの鍛錬には効果的であった。単語の語尾にどのような単語が結び付くかという「共起(Co-occurrence)」の関係が生起する確率計算する際には、こうした乱雑なデータも有用な情報源になったのだ。

ビッグデータの分析基盤や機械学習アルゴリズムが発達している現在では、我々自身の変化が最終的に要請される。無秩序や不確実性に曝されたところで狼狽えない姿勢が要求される。

我々は限定合理性という状況下で生活している。認識能力を超えるほどの大量データは、もはやデータの洪水というよりは流群を形成している。それは微弱な人間にとっては儘ならぬ乱雑な情報だ。の数だけあるデータの流れの中で、精確性や厳密性を客観的に追及するのは、尽く時代錯誤となる。惑規模のビッグデータが隕石の如く降り注ぐ状況下では、もはや標本空間母集団(universe)そのものさえも劇的な「頻度」でアトランダムに変異し続けることになる。ネイマン=ピアソン流の旧い統計学のディノザウルスたちが死に絶える瞬間は目前まで迫っている。

問題再設定:ベイズ統計学的な情報の発見探索は如何にして可能になるのか

必要な全てのデータを収集した上でその要約統計量による分布を明らかにするという手続きは、主に「記述統計学(Descriptive statistics)」で受け入れられてきた。しかし、未知なる情報を探索する上では、記述統計学的な方法は非効率である。未知の情報探索においては、分析に必要なデータそれ自体も未知である場合が多聞に及ぶからだ。

故に、他のデータサイエンス同様、我々は情報探索においても、記述統計学推測統計学(Inferential statistics)の区別を導入するという「データサイエンティスト(Data Scientist)」の観点から観た基礎的な分析形式から出発しなければならない。

問題解決策:ベイズ統計学

大別するなら、推測統計学は「頻度主義的統計(Frequentist statistics)」と「ベイズ統計学(Bayesian statistics)」に区別される。頻度主義ベイズ主義の差異は、条件付き確率や事前確率に対する考え方にある。

かつてトマス・ベイズが提唱した統計学ビッグデータの分析方法として有用な定理を指し示している。ベイズは18世紀後半のイギリスにおいて、キリスト教プロテスタントに属するカルヴァン派の牧師であった。その彼が丁度アメリカ独立宣言が発表される直前に提唱した「ベイズの定理(Bayes’ theorem)」は、フランスの数学者ピエール=シモン・ラプラスを抜きにすれば、誰にも相手にされずに埋もれていた定理であった。それどころか彼の統計学は、ネイマン=ピアソン流の統計学者たちによる痛烈な批判によって、事実上封じ込められていた。だが高度なデータ分析を可能にするコンピュータ技術が発達すると、彼の統計学の実用性が注目を集めることになった。

ベイズの定理は、「条件付き確率(Conditional Probability)」と確率の「乗法定理(Multiplication Theorem)」を組み合わせることで成立する定理だ。条件付き確率とは、ある事象Aが起こったという条件の下で別の事象Bが起こる確率意味する。記号としては、P(B|A)のように記す。一方、確率乗法定理とは、AとBが共起する際の「同時確率(Simultaneous Probability)」を単にAが起こる確率とAの下でBが起こる条件付き確率の乗法から求める定理である。数式として表すなら、下記のようになる。

$$P(A \cap B) = P(A) \times P(B|A)$$

ベイズの定理はこの乗法定理から導き出すことができる。上記のAとBの役割を入れ替えると、乗法定理は次のようになる。

$$P(B \cap A) = P(B) \times P(A|B)$$

ここで、同時確率となるP(A∩B)とP(B∩A)は同一の現象を意味している。そのため、上記の二つの乗法定理から、次の式を導ける。

$$P(A) \times P(B|A) = P(B) \times P(A|B)$$

P(B) ≠ 0 と仮定して、P(A|B)について解くと、次の式が得られる。

$$P(A|B) = \cfrac{P(B|A) \times P(A)}{P(B)}$$

これは、BのもとでAが起こる条件付き確率は、AのもとでBが起こる条件付き確率をBが起こる確率で割った値に等しいということを説明している。言い換えれば、ベイズの定理はある条件付き確率からその「逆確率(Inverse Probability)」を求める定理だということになる。

ベイズの定理による確率論的な因果関係の計算

ここで、事象Aを原因や前提と捉え、事象BをAの結果や結論であると捉えてみよう。するとベイズの定理は、我々に<原因の確率>を教えてくれていることがわかる。因果関係を確率論的に計算する時、主題化されるのは<結果の確率>であることが大半だ。実際P(B|A)とは、Aという原因となる事象が発生したという条件の下でBという結果となる事象が発生する確率意味する。原因という条件から結果を想定することは珍しいことではない。一方、この逆確率となるP(A|B)は、文字通り逆の発想を可能にする。つまり、結果となる事象Bが発生した際に、Bの原因がAである確率を表すのが、P(A|B)なのである。

無論、原因と結果は一対一で対応している訳ではない。結果となる事象Bは、様々な原因によって成立している可能性がある。その様々な原因を仮に

$$A_{i} (i = 1, 2, 3, … n)$$

と置こう。これらの原因となる

$$A_i$$

が互いに排反であると仮定する。そして、Bはこのいずれか一つの事象が原因となって発生すると仮定する。すると、事象Bは次の和事象で表される。

$$B = (A_1 \cap B) \cup (A_2 \cap B) \cup (A_3 \cap B) \cup … \cup (A_n \cap B)$$

それ故、Bの発生確率も次のように変換することが可能になる。

$$P(B) = P(A_1 \cap B) P(A_2 \cap B) P(A_3 \cap B) … P(A_n \cap B)$$

再び確率乗法定理を適用させるなら、上記の式はまた次のように変換できる。

$$P(B) = P(B|A_1) \times P(A_1) P(B|A_2) \times P(A_2) P(B|A_3) \times P(A_3) … P(B|A_n) \times P(A_n)$$

これをベイズの定理に代入するなら、例えば

$$A_{1}$$

が原因となる確率は次のように計算できる。

$$P(A_1|B) = \cfrac{P(B|A_1) \times P(A_1)}{P(B|A_1) \times P(A_1) + P(B|A_2) \times P(A_2) + P(B|A_3) \times P(A_3) + … + P(B|A_n) × P(A_n)}$$

この時、特に

$$P(A_i)$$

を「事前確率(Prior Probability)」と呼び、

$$P(B|A_{1})$$

を「尤度(Likeihood)」と呼び、そして

$$P(A_{1}|B)$$

を「事後確率(Posterior Probability)」と呼ぶ。尤度とは、原因となる

$$A_{i}$$

の下で結果Bが発生する尤もらしい確率意味する。事前確率は、結果という事象の発生による影響を考慮に入れていない分析前の原因の確率意味する。一方で事後確率は、結果という事象の発生による影響を考慮に入れた分析後の原因の確率意味する。この三つの概念から、ベイズの定理は、結果という情報を手掛かりとして、その結果を知る前に想定されていた事前確率を事後確率に変換する機能を持つことがわかる。また、右辺の分母を一先ず無視するなら、事後確率は尤度と事前確率の積に比例していることも併せて挙げておこう。

ベイズ更新

ここで注意しておかなければならないのは、事前確率はいつでも設定できる訳ではないということだ。単なる数学の問題集でベイズの定理を前提とした問題が出題されているのならば、恐らく事前確率を設定するための手掛かりが問題文の中に記載されているはずだ。しかし、現実の不確実な状況下では、必ずしもそうした手掛かりが得られるとは限らない。無論現実の実践家からすれば、問題が厳密に明確化されていないからといって、その解決を放棄する訳にはいかないだろう。そこでベイジアンは、経験や常識によって、この問題の不確実性に対処している。つまり、事前確率を設定し得る上で手掛かりとなる情報が全く無い場合には、全ての事前確率を等確率として仮定することで、ベイズの定理による計算を可能にしているのである。この事前確率を等確率として計算を出発させる発想を特に「理由不十分の原則(Principle of insufficient reason)」と呼ぶ。

尤も、事前確率を設定し得る情報が無いのが本当に計算の開始時のみであることは、強調しておくべきことである。と言うのも、一度ベイズの定理によって事後確率を求めれば、それを次の計算時に事前確率として活用することができるからだ。つまり、一度でも結果となる事象のデータが得られれば、それを手掛かりとすることで、二度目以降の計算における事前確率を求められるのである。こうして結果となる事象のデータが得られる度に、ベイズの定理によって、原因の確率変異していく。原因の確率をデータベースに蓄積しているベイジアンシステムが作動しているのならば、そのシステムは、結果となる事象を観察することによって、原因の確率に関して学習しているとも言えるだろう。このシステムが推定する原因の確率は、新しい結果を知る度に、補備修正されていく。そしてその修正された確率は次なる計算時の事前確率として活用できるように、データベース化している訳だ。この原因の確率に関する学びをベイジアン理論では特に「ベイズ更新(Bayesian Updating)と呼ばれている。また、このベイズ更新を援用した推定法を「ベイズ推定(Bayesian estimation)」と呼ぶ。

ベイズ更新は、結果となる事象の情報を一つずつ処理していく。だがこう述べると、結果となる事象のデータを処理する順番によって学習の結果が変わってしまうのではないかと懸念する者もいるだろう。しかしベイズ統計学では、結果となる事象のデータが同一であるなら、どのような順番でそれらのデータを処理しても、その計算結果は変わらないことが保証されている。これをベイズ統計学では「逐次合理性(Sequential Rationality)」と呼ぶ。

ベイズ推定は、結果に関する十分なデータが揃っていない不確実な状況から始まる確率論的な推定に他ならない。新しいデータが得られることで当初の推定が変化していくところに、その特徴がある。新しいデータが得られる度に、ベイズ更新によって、当初の不確実性は徐々に縮減されていく。少ないデータでは不確実であった確率計算が、データの増加によって確実化していくのである。十分なデータが得られていれば、フィッシャー以降の頻度主義と比べても遜色の無い結果を導き出すこともできる。しかも反復的にベイズ推定を実行する場合、最初から全てをやり直して何度も試行を繰り返す必要は無い。最新データだけをベイズ更新の対象とすれば、結果的に同じ計算結果が求まる。新しいデータが加わったとしても、それまでのベイズ更新履歴のデータと照合さえすれば、改めて統計解析を繰り返す必要は無い。極端に言えば、それまでの計算過程は忘却してしまっても構わないのである。

ベイズの定理への批判

ベイズの定理は非常に融通の利く定理である。しかし、その柔軟な発想は、旧来の統計学者たちの肌には合わなかったらしい。ネイマン=ピアソン流の統計学者たちは、特にその厳密性と客観性を重視する姿勢から、ベイズの定理に対してアレルギー反応を起こしていた。

ベイジアンに対する批判者となったのは、主に頻度主義者たちだ。彼らが高頻度に取り上げてきたのは、事前確率の恣意性である。事前確率に関するデータが無いのは、理由不十分の原則からも明らかだ。その場合、等確率であると仮定して計算を進める。だが、実際に等確率であるという保証は何処にも無い。それは、ベイズの定理計算を始めたい分析者たちの主観で認められた確率に過ぎない。事前確率が主観確率であると言われているのは、この関連においてである。

機能するベイジアン

しかしながら、ベイジアンへの痛烈な批判は、まさに実用的な観点から無視される傾向にある。幾つかの例を挙げてみよう。その有用性の大多数は、専らコンピュータとの共演によって成り立っている。

例えば迷惑メールのフィルタリングとして機能する「ベイズフィルター(Bayes Filter)」は、メールの文面に含まれているテクストデータを対象とした「ベイズ分類(Bayesian classification)」によって、受信したメールが迷惑メールか否かの判定に役立っている。ベイズ分類とは、ベイズの定理を応用することで、得られたデータを特定のカテゴリに分類する方法である。複数のデータを逐次合理性を前提に処理するベイズ更新技術によって、このフィルター装置は、次々と受信するメールの「迷惑度」をそのテクストデータから学び取ることができる。そしてその学びの結果から、次に受信したメールが迷惑メールであるか否かを徐々に精度を上げながら推定できるようになっていく訳だ。

ベイズフィルターは、メールに含まれているテクストデータの単語は全て独立であるという仮定で設計されている。だが個々の単語は通常、文脈に応じて組み合わせられている。この仮定には無理があるかもしれない。しかしながら、この単語の独立性を前提とすることによって、このフィルター装置は、迷惑メールに個々の単語が含まれる確率を推定することを可能にしている。まず受信メールに「プレゼント」や「無料」という単語が含まれていたという結果を示すデータが得られたのならば、過去ベイズ更新履歴との照合によって、それらの単語が含まれていたという事象が「迷惑メールを受信した」という原因の上に成り立つ事象であるか否かを推定する。もし迷惑メールであるという事後確率が非迷惑メールであるという事後確率よりも高ければ、それは迷惑メールとして処理される訳だ。

ベイズフィルターの他にも、ベイズの定理はデータの発見探索を補助する有用なツールを提供している。例えば「ベイジアンネットワーク(Bayesian network)」は、原因と結果の確率論的な因果関係をモデル化することで、現象の確率的な推移を視覚化するツールとして注目されている。ベイジアンネットワークは確率変数を示すノード(node)と確率論的な因果関係を示す矢印で構成されている。矢印は、原因となるノードから結果となるノードへ向けられる。この時、原因となるノードを「親ノード(parent node)」と呼び、結果となるノードを「子ノード(child node)」と呼ぶ。子ノードには、親ノードとの関係を言い表す条件付き確率が与えられる。言い換えれば、親子を結ぶ矢印には尤度を示す機能があるのだ。一方、親ノードには予め確率分布が付与される。つまり親ノードは事前確率を持つのである。これらの親子関係は基本的に「マルコフ連鎖(Markov chain)」を仮定して表現されている。つまり、未来において取り得る確率現在の状態によってのみ決定されると仮定されているのである。そのため、子ノードに影響を与えると想定されるのは親ノードのみであって、あるノードが子ノードのみならず孫に該当するノードにまで影響を与えるとは想定されない。

ベイジアンネットワークの有用性は、あるノード確率変数の値が確定した時に、それと結び付いた親ノードや子ノード確率変数の値も計算できるようになる点にある。例えば警報機が鳴った場合の確率論的な因果関係を予めベイジアンネットワークでモデル化しておけば、警備会社はその通報の意味を推定することが可能になる。その警報機を鳴らす原因となったのが泥棒の侵入なのか、それとも単なる誤報なのかを推定することもできるようになるだろう。原因と結果は決して一対一で対応している訳ではない。一つの結果となる事象が生起する際にも、その背景には様々な原因が潜んでいる。ベイジアンネットワークは、こうした複数の結果と複数の原因の因果関係をモデルで視覚化することによって、目に見える原因とは別様にもあり得る様々な原因をそれぞれ数値で比較することを可能にするのである。

二つの事前確率:情報的事前確率と非情報的事前確率の差異

こうしたベイズの定理ベイズ推定において肝となるのは事前確率の設定だ。ベイズ統計学的に言えば、事前確率を選択する方法は二つある。

第一に、可能な限り十分な情報に準拠するという点で、informativeな方法だ。これを特に「情報的事前確率」と呼ぶ。だが情報的事前確率を利用する場合、人によっては、異なる背景知識や解釈に基づいて事前確率を決定してしまうことがある。そのため情報的事前確率はしばしば「主観的」であるとして、批判されている。

一方、第二の方法で決定できるのは「非情報的事前確率」と呼ばれている。これは、可能な限り制約を課さずにデータそのものに事前確率を語らせようとする姿勢を意味する。ある種の「データドリブン」な判断によって事前確率を決定するが故に、「情報的事前確率」に比して「非情報的事前確率」は「主観的」ではないとされる。

情報的事前確率を採用しても良い2つの理由

一見して「非情報的事前確率」は比較的「主観的」ではないために好ましいと思える。しかし、私個人は「情報的事前確率」を選択することに反対しない。

理由は二つある。まずはベイズ統計学的なデータ分析の全ては分析モデルに依存していることが挙げられる。事前確率の選択は、モデリングにおける諸決定の一つに他ならない。

数理的なモデルの選定には恣意が介在する。これは避けられない。何故なら、<モデルの選定に伴う恣意性を排除する方法の選定>にも恣意が介在する余地が残されているからだ。ここで、恣意性の排除の恣意性を排除しようにも、論理学で言うところの「無限後退」に陥ってしまう。したがってベイズ統計学におけるあらゆるデータ分析は「主観的」な側面から逃れられない。仮に「非情報的事前確率」を採用したとしても、データ分析全体は「主観的」となる。

情報的事前確率」を採用しても構わないと考えられるもう一つの理由は、分析対象となるデータの量の問題に関わる。より大量のデータがあれば、事前確率の決定に伴う主観的恣意性は無害化される。このことはベイズ更新逐次合理性指し示している。

データドリブンな事前確率

データが多ければ、「非情報的事前確率」が「情報的事前確率」よりも優れている理由は重要ではなくなる。一方、データが多ければ、それだけ高い精度で「データに語らせる」こともできるだろう。

このことは、「非情報的事前確率」の「データドリブン(data-driven)」な判断が優れていると強調する理由にはなる。しかし逆に言えば、データが少ない状況では、「非情報的事前確率」の精度が下がるということでもある。そうなると、たとえ背景知識や解釈によってバイアスが伴うリスクがあろうとも、データ分析の局面次第では、「情報的事前確率」の方法に肖ることで、使える情報ならば何でも使うくらいの度量が必要になる。

スポンサーリンク