R&Dラボ便り

「ビジネスマンが一歩先をめざすベイズ統計学」
~検定と予測への新しいアプローチ~

執筆者:日本リサーチセンター R&Dラボ
チーフリサーチャー 土田尚弘

2018年9月に私が一部を執筆した「ビジネスマンが一歩先をめざすベイズ統計学 ―ExcelからRStanへステップアップ ― 」(朝野 熙彦 編著、朝倉書店)が出版されました。今回のコラムでは私が著述した章である「ベイズ流の柔軟な仮説の検証」と、「予測分布を使って不確実性を計算」について、一部内容紹介をします。

「ベイズ」とは何か

 タイトルにある「ベイズ」とは何か?というと、一般的には、高校の数学の教科書にも出てくる確率に関する定理のことを指します。かつてビル・ゲイツが「21世紀はベイズの時代」と述べたように、我々の身近な場面でベイズの定理を使ったテクノロジーが使われています。例えば、迷惑メールの分類などに実際に使われています。
 下の例では、ベイズの定理の計算例を示しています。別々の調査でブランドAの所有率(30%)とブランドBの所有率(10%)が分かっていて、さらに別のブランドAのユーザー調査で、ブランドBの所有率(20%)が分かっているとします。このときブランドBを所有している中で、ブランドAの所有率を求めたいとします。ここでベイズの定理を使うと、所有率(この場合は60%)を求めることができます。この例は現実的ではありませんが、疫学などの分野の計算手法として使われています。

ベイズの定理の源流は統計学です。ベイズの定理を使った統計学=ベイズ統計学自体は、18世紀にイギリスの牧師であるトーマス・ベイズを中心にして源流が発見されました。一方、現在統計学で主流の、「頻度論」と呼ばれる統計学は、20世紀前半に、フィッシャー、ネイマンとピアソンなどの研究をもとに、様々な分野に、マーケティングリサーチもしかりで、影響を与えました。

 マーケティングリサーチで統計学といえば、まず思い浮かぶのは仮説検定だと思います。あるグループとあるグループで%や平均値に「有意な」差があると判定されれば、星印が付くというのは、マーケティングリサーチに関わった人なら見たことがあると思います。これは頻度論におけるネイマン・ピアソン流の統計的仮説検定と呼ばれ、20世紀の実証科学に多大な影響を与えました。医学、心理学、経済学、社会学などに積極的に応用され、我々の生活に関わる意思決定の際の強力なツールとして、多くの場面で使われています。

 頻度論による統計学が主流になる中、ベイズ統計学は忘れ去られていたわけでなく研究が続けられていました。その中で様々な性質で数学的にベイズ統計学の良さが分かってきたのです。しかし、この簡潔な定理を実際のデータを使った統計学に応用しようとすると、どうしても計算面で困難な部分が出てきて、なかなか実現しなかったのです。しかし1980年代以降、乱数などで近似計算ができるようになり、様々な分野でベイズ統計学が使われるようになりました。

ベイズ統計学のアドバンテージ1:柔軟な仮説検定ができる

通常の統計学とベイズ統計学では、理論的には何が違うのという問いについては、数学的・哲学的な理解が必要になりますので、ここでは立ち入りません。それでは結果の何が異なるのか?という問いについては、データがある程度集まっている状態では、(点)推定値に関しては、「ほとんど変わらない」というのが答えです。決して推定精度が良くなるわけでもないです。実際に数値を比較してもほとんど変わりはありません。それでは、何が違ってベイズ統計学にアドバンテージがあるのかいうと、一言で言えば、従来の統計学ではできなかった「柔軟な使い方ができる」ということでしょう。

 星印が付く従来的な仮説検定は、「差がある」といった仮説に対して、「差があると判断できる」もしくは「差があると(今は)判断できない(保留)」のいずれかの結論を導き出すものです。この紋切り型に結論を出すことが可能な統計的検定は、20世紀以降の実証科学に多大な影響を与えました。我々の生活に関わるところでは、新薬の販売や政策の決定にも応用されています。またビジネスにおいても現在の意思決定における重要なルールのひとつになっています。例えば、マーケティングでは、テスト調査で従来品と、試作品で有意な差があるので、市場投入しようなどの意思決定に使われているかもしれません。

 結論が、紋切り型である一方、その利用範囲は実際には大きくはありません。例えば、3つのブランドがあって、調査データによって好意度の平均の大きさを比べるとしましょう。「ブランド1の好意度の平均が3つの中で一番大きい」という仮説があっているかを検証したいとき、手順が煩雑になる、統計量の計算が複雑になるなどの問題あり、従来的な仮説検定では、検証が難しいことがあります。

しかしベイズ統計学のフレームワークでは、簡単に検証が可能です。従来の仮説検定の場合、分析のアウトプットは「紋切り型の結論」です。反対にいえば、「仮説が当っている確率は60%」という曖昧な結論は計算できないし、許されません。しかし、特にビジネスの場合、サンプルサイズの限界や速報性からも、そのような曖昧な結果も必要性な場面も多いはずです。ベイズ統計学では、そのような「仮説が当たっている確率」を、乱数シミュレーションによって計算することが可能です。

 ベイズ統計学を使うと、順序や差の大きさがどれくらいである確率を理解することができるので、仮説検証の方法に広がりを持たせることが可能です。差の検定のみでなく、ブランド評価や改善重要度の順位などについて、検定を行うことができます。今後は従来的な統計的検定でなく、分析の仮説を柔軟に検証できるベイズ統計学を使った検証法が重要になっていく可能性が高いと考えられます。

ベイズ統計学のアドバンテージ2:不確実性を考慮した予測ができる

もうひとつのベイズ統計学のアドバンテージは、予測に関しての考え方です。どのような方法を考えるにしても、予測は難しいことは統計学に関わる人なら、ご存知かもしれません。数量の予測などピタリと当てることは難しいと思います。ならば違う方法が考えられるかもしれません。例えば、ピタリと数値を当てる予測を諦め、予測の範囲(例えば、来月の売上は信頼度95%以上で900~1100個)を求めることや、確率による表現(例えば、1000個以上売れる確率は60%)が考えられるかもしれません。

 しかしそのような方法も、通常の統計モデルでは難しい場合があります。なぜなら、①予測の対象となる変数自身の不確実性と、②統計モデル自身の推定の不確実がある(特にデータが少ない場合)からです。従来の統計学で、この2つの不確実性を同時に考慮して予測することは、一般的には難しいことです。一方、ベイズ統計学を使えば、①と②の不確実性を同時に考慮しながら、シミュレーションで汎用的に計算が可能です。

 このアプローチを使えば、従来的な統計学ではできない様々な分析をすることが可能です。例えば、予測値がある範囲に入る確率や、95%の信頼度の範囲などを、①と②の不確実性を同時に考慮しながら計算できます。例えば、数量と取引金額など、異なる2つの変数を掛け合わせたりした場合の予測は、従来的な統計学では計算が難しい場合があるのですが、これも計算が可能になります。

 このように検証や予測において、ベイズ統計学には、様々なアドバンテージがあるといえます。よってこれからマーケティングリサーチを含めたビジネスで、利用機会が増えると思います。この柔軟な仮説や予測の方法論をデータの取得の方法論とともにうまく設定できるかが、分析者の能力のひとつになるといえます。「ビジネスマンが一歩先をめざすベイズ統計学 ―ExcelからRStanへステップアップ ― 」には、選挙、ウェイト集計、顧客満足、売上予測やキャンペーン予測など、ビジネスに関連するベイズ統計学の応用例を入れました。ぜひとも本書をお手に取ってご覧ください。

お問い合わせ窓口

株式会社日本リサーチセンター
担当:広報室
お問い合わせ専用Eメール information@nrc.co.jp

お問い合わせ

関連リンク