統計学が最強の学問である

概要

統計学がなぜ今重要なのか、統計学とは何なのか、統計学を上手く扱うにはどうすればいいのかについて触れられている

 

目次

第1章 なぜ統計学が最強の学問なのか

第2章 サンプリングが情報コストを激減させる

第3章 誤差と因果関係が統計学のキモである

第4章 ランダム化という最強の武器

第5章 ランダム化が出来なかったらどうするか

第6章 統計家たちの仁義なき戦い

終章  巨人の肩に立つ方法

 

内容

第1章 なぜ統計学が最強の学問なのか

 ”どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができるからだ”

 「疫学」という原因不明の疫病を防止するための学問がある。

 19世紀にコレラという疫病に対して、「疫学」は行われたが、その中でも統計学は重要な役割を果たす。疫学の父ジョン・スノウは、病原菌が~で、感染経路は~で、というロジックを全て飛ばし、聞き込みや観察から得られたデータから、水道会社Aの水を使うのをやめる、以上!という結論を出してしまった。これは実際、正解だった。

 現代の医療ではEBM(Evidence-Based Medicine)「科学的根拠に基づく医療」という考え方が主流となっている。そのエビデンスの中で、最も重視されるものの1つが、統計データとその分析結果である。

 医療だけではない。経済学だって、経営だって、スポーツ(マネーボール)だって統計学を使わざるを得ない時代になっているのだ。

 現在、特に統計学が注目されているのはITとの組み合わせによる。紙とペンで行われていた統計学は、いかに計算を省くか、いかに少ないデータから示唆を出すかというところに注力していたが、コンピューターの登場によって、それらの制約がなくなったのである。

 IT化が進み、多くのデータが得られるようになったが、データそのものは価値がなく、データから示唆を得ることが重要であるため、統計学はますます重要性を増してくる。統計家は”これからの10年で最もセクシーな職業”とGoogleのチーフエコノミストも発言しているくらいだ。

 

第2章 サンプリングが情報コストを激減させる

 ビックデータ・データマイニング等の用語がもてはやされているが、”データをビッグなまま解析することが、どれだけの価値を生むのかどうか、果たして投資するコストに見合うだけのベネフィットが得られるのかどうか”わかっていないことが多い。

 全数調査のほうがサンプリング調査より正確だと感じる人は多いかもしれないが、実際はサンプリング調査でもほとんど問題がない。一定以上のサンプル数に達すると、サンプル数を増やしても、標準誤差はあまり変わらないのだ。ビックデータを解析すべきかどうかは、その0.1%の正確さを上げることが費用対効果として見合っているかどうかということに左右される。

※標準誤差:サンプルから得られた割合(ex.失業率)に対して標準誤差の2倍を足した値までの範囲に真の値が含まれている信頼性が約95%、という値。

(サンプリングの失業率=20%、標準誤差=0.5%の場合、真の失業率=24~26%)

 

第3章 誤差と因果関係が統計学のキモである

”データ分析において重要なのは、「果たしてその解析は欠けたコスト以上の利益を自社にもたらすような判断につながるのだろうか」という視点だ”

 データをビジネスに使うためには以下の3つの問いに答えられなければならない。

【問1】何かの要因が変化すれば利益は向上するのか?

【問2】そうした変化を起こすような行動は実際に可能なのか?

【問3】変化を起こす行動が可能だとしてその利益はコストを上回るのか?

 つまり、ただの集計結果を見せるだけでは、正直何の意味もない。アクションにつながるかどうかという点を重視しなければならないのだ。

 本書では、こんな例を使って示している。マーケターがキャンペーンの広告を見たかどうかのアンケートを集計し、半数以上が「見た」と答えたからキャンペーンは成功!と言ってしまう。この話にはツッコミどころがいくつかある。重要なのは、利益につながる、つまり商品を購入してもらうことだが、「見た」から成功!というのは成功の定義がずれている。広告を「見た」人と「見なかった」人の購買率を示すグラフが必要だ。そして、「見た」人のほうが「見なかった」人より購買率が高いことが示されて初めて成功といえるのである。

 

 著者は、「60億円儲かるレポート」で、実際に利益につながるDMの送り方をコンサルティングしていた。この例は、3つの問いを全て満たした、まさにデータがビジネスにつながった例なので、ぜひ読みなおしたい。

 

 データが利益につながる例が示されたが、データ解析には大きな落とし穴がある。あるECサイトの運営会社ではA/Bテストにおいてp値についての考慮がされていなかった。つまり、「誤差」についての考慮がなかったということであり、偶然の差によってビジネスを進めていた可能性が高いということである。

※p値=実際には何の差もないのに誤差や偶然によってたまたまデータのような差(正確にはそれ以上に極端な差を含む)が生じる確率

※A/Bテスト=デザインにせよ機能にせよ、AパターンとBパターンを両方試してみて比較するテスト

 

 データから示唆を出すためには解析方法だけでなく、そもそもどんなデータを解析をすべきか、ということも考える必要がある。そのポイントは次の2点だ。

①適切な比較をおこなうこと

②その誤差とp値についても明らかにすること

 ここで、①での適切な比較という点に触れると、サッカーだと勝ちがゴールであるため、「勝った試合」と「負けた試合」になるだろうし、ビジネスなら利益がゴールになる。つまり利益につながることである。(直接・間接は問わない)

 つまり、保有するデータのうち何が、どのような関係で利益とつながっているか、という点について考えることが重要なのだ。

 

 まだ、落とし穴はある。因果関係の向きである。例えば、広告を見た人の割合が商品購入者の母数のほうが、商品非購入者の母数より多かったとしても、「広告を見た」→「商品を購入した」の矢印が成り立つことを意味しない。ではどうすれば解決するのか。

①「関連しそうな条件」を考え得る限り継続的に追跡調査し、統計学的な手法を用いて、少なくとも測定された条件については「フェアな比較」を行うというもの

②解析ではなく、そもそものデータの取り方の時点で「フェアに条件を揃える」というやり方←これがランダム化である

 

第4章 ランダム化という最強の武器 

 ランダム化比較実験は、とても強力であるが、”その最も大きな理由は「人間の制御しうる何物についてもその因果関係を分析できるから」”である。そして、”科学で扱える対象の領域を爆発的に拡大させた”のである。

 ミルクティーの違いを当てられる夫人の話が出てくるが、10回ランダムで飲ませて、全て当たったら、婦人がデタラメで当てた確率が1/1024=約0.1%であるため、婦人は識別できていると考えるのが自然である、と結論付けられるのだ。

 小麦の収穫量と気候・土壌の関係のような「誤差」の生じる現象には科学的なアプローチは不可能だと考えられていたが、フィッシャーはランダム化比較実験によって、実験という概念を広げたのである。

 ランダム化比較実験によって、”小さなコストとリスクで「あえて間違いを犯すこともできる」”。例えば、クレーム対応において3つの対応をランダムにおこなえば、有意な差でリピート率が変わるなら、最もリピート率の高い対応を取ればいいのだ。

 しかし、ランダム化にも3つの限界がある。

①現実の壁:1回、もしくは数回しかチャンスがないもの(地震M&A等)

②倫理の壁:ランダムに半数のガン患者に効かない薬を投与する等

③感情の壁:Amazonの値段に対するランダム化比較実験にクレームが入る等

 

第5章 ランダム化が出来なかったらどうするか

 まずランダム化ができないときにどうするのか、という問いに対しては、「ケースコントロール研究」をするというのがまず一つの答えだ。「ケースコントロール研究」とは、比較する要因以外の条件がほぼ同じである事例を比べることで、「フェアな解析」が出来るというものだ。(タバコと肺がんの関係を示すために、性別や年齢で区切った)

 ただし、これに関してはフィッシャーからの反論がある。ケースコントロール研究では、人為的に同様になるようにそろえた条件しか同様ではない。そのため、そろっていない他の条件があることが否定できないのだ。

 本書で言われているのは、確かに条件を完全にそろえることは不可能だか、そこにこだわりすぎても、アクションが取れないだけだということだ。(タバコと肺がんの関係性のデータは正しかったことが世界中のデータから証明されている)

 

 ケースコントロールをしなくても高度な手法をとれば、「フェアな比較」は可能になる。そのうちの一つが回帰分析である。データ間の関係性を記述したり、一方のデータから他方のデータを予測する数式を推定するのが回帰分析である。(たいてい横軸に説明変数、縦軸に目的変数がくる)ちなみに回帰分析という名前は、ばらつきによって、「平均値への回帰」が起こることに由来してる。

 ゴルドンの回帰分析は、データの中心を通る直線と数式に過ぎず、ばらつきを示すことが出来なかった。フィッシャーは、「無制限にデータを得ればわかるはずの真に知りたい値」を「真値」と呼び、データから計算された統計量がどの程度の誤差で真値を推定してるかを数学的に整理することで、適切な判断が下せるという考え方を示した。以下が、回帰分析のばらつきを含んだ数値である。

・回帰係数の推定値:データから示されているが、「真値」を推定したものに過ぎない

・標準誤差:推定値の誤差の大きさ

・95%信頼区間:95%の確率で、そこに真値があると考えられる範囲

・p値:回帰係数が0だったときにたまたまこの回帰係数が推定されてしまう確率

 

 統計学の理解が進む一枚の表がある。

f:id:yuuuusk0614:20200501003054j:plain

統計学の理解が劇的に進む一枚の表

 

 これらの統計学的手法は、全て一般化線形モデルと見なすことができる。この一枚の表があればデータ解析で使うべき統計学的手法を見つけることができるのだ。

 全集団同士の単純比較は、その内訳となる小集団同士との比較の結果と矛盾することもあるというのがシンプソンのパラドックスである。このような問題を避けるには、層別解析をする方法がある。しかし、ここにも限界がある。階層が増えてくると上手くいかなくなるのだ。(計算の煩雑さ・小集団のNの縮小)

 重回帰分析はここを乗り越える。「性別によって点数が平均的に何点異なるのか」を推定して、層別に分けることをしなくてすむのだ。性別の違いにより平均で何点違うか、高校によって何点違うかとい複数の回帰係数を同時に推定するのだ。

 ロジスティック回帰は、もともと0か1かという2値の結果変数を変換し、連続的な変数として扱うことで重回帰分析をおこなえるようにしたものである。留意点は、ロジスティック回帰では、回帰係数をオッズ比「約何倍そうなりやすいか」で示すということだ。

 回帰モデルを扱うときに注意しなければならないのは、交互作用である。交互作用とは、「お互いに相乗効果がない」という仮定が崩れているということである。つまり、A高校の女子の点数が男子の点数より15点高くB高校も同様に女子の点数が男子の点数より15点高いなら、「お互いに相乗効果がない」と言えるが、そうでないなら、交互作用があるということである。この場合、2つの変数をかけあわせた新しい説明変数(交互作用項)を作り、その回帰係数にちても同時に推定することで解消される。

 しかし、交互作用に気を取られすぎると、交互作用項だらけになってしまう。そこで役に立つのがスコア傾向である。興味のある2値の説明変数について「どちらに該当するか」という確率のことをいう。つまりタバコの例でいうと、居住地や職業から、同じくらいタバコを吸うだろうと考えられる集団年で比較すれば、「その他の条件」と「喫煙の有無」の関連性が「喫煙の有無」と「肺がん」の関連性を歪めることはなくなるということだ。

第6章 統計家たちの仁義なき戦い

 この章では、私にとって興味のないことも多かったので、その点については割愛する。簡単にいうと、社会調査と疫学・生物統計学では、統計の目的が異なるのだ。そのため、統計学の使い方も異なるということだ。社会調査では、可能な限り偏りなく、求められる誤差の範囲に収まる推定値を最も効率よく得るためにはどうすればいいのかを重視する。一方で、疫学・生物統計では、p値に基づき「原因」がちゃんと見つけられるのであればいいというスタンスである。

 また、心理統計学では因子分析という分析方法が行われる。お互いに相関している複数の値から、それらすべてとよく相関する新しい合成変数を生み出すのだ。測定できる反応速度・記憶力・言語能力などから一般知能(IQ)という合成変数を生み出したのだ。また、心理統計ではパス解析という変数間の関係性を表した図を好む。確かにこれは経営学の論文でも何度か見たことがある。

f:id:yuuuusk0614:20200501022142p:plain

パス解析の参考図

 

 データマイニングとは、大量のデータの中からうまく価値のありそうな情報・仮説を引き出すこと。有名なのが、バスケット分析というもので、「おむつ」と「ビール」がコンビニで同時に買われやすいというものである。ただし、出てきた情報が有用であるとは限らないし、信頼度・改善度・支持度等に注目する必要がある点で、カイ2乗法などの一般化線形モデルを用いたほうが好ましい場合も多い。

 また、頻度論派とベイズ派の話は面白い。頻度論派は、事前に予測などしないが、ベイズ派は事前に確率を予測する。そのためにアプローチが異なるのだ。疫学や社会調査などの帰納的アプローチは頻度論派が好ましいし、計量経済学などの演繹的アプローチはベイズ派が好ましいだろう。

 


終章  巨人の肩に立つ方法