1. TOP
  2. 2018年1月号
  3. データ分析の力 因果関係に迫る思考法

今月の『押さえておきたい良書

『データ分析の力 因果関係に迫る思考法』

あなたのその決定の「理由」は本当に正しい?

『データ分析の力 因果関係に迫る思考法』
伊藤 公一朗 著
光文社(光文社新書)
2017/04 284p 780円(税別)

amazonBooks rakutenBooks

 データを見ていて、ある年に自社の商品の売上が急激に増えていたとする。その年は大規模な広告キャンペーンを打っていた。そうなると、つい広告による効果と考えがちだ。だが、それは確かな事実とは言い切れないかもしれない。他の要因、たとえば景気が良くなり消費者の財布のひもが緩くなっただけ、といった可能性もある。

 このように「XがYに影響を与えた」という明確な「因果関係」を把握するのは、実は簡単ではない。上記の売上アップと広告キャンペーンのような2つの事実が関係あるように見えるのは「相関関係」でしかない。相関関係は因果関係とイコールではない。相関関係にはたまたまデータの動きが一致しただけ、といったケースも含まれる。

 では、因果関係をしっかりと見極めるにはどうしたらいいのだろうか。本書『データ分析の力 因果関係に迫る思考法』ではその具体的手法を、難しい数式などを使わずに事例と図表を巧みに織り交ぜながら解説している。

 著者はシカゴ大学公共政策大学院ハリススクール助教授。環境政策やエネルギー政策の実証研究に取り組みながら、大学院生向けにデータ分析の理論と応用についての講義を行っている。

実験をして属性に偏りのない2グループを比較する

 因果関係を把握するのにもっとも適した手法は何か。著者によると、それは「ランダム化比較試験(RCT)」だ。医学の領域でかなり前から使われている手法で、ビジネス分野では「ABテスト」と呼ばれることもある。広くデータ分析に使用されるようになったのは最近とのこと。

 RCTでは、分析者が新たに実験を設計して実施し、データを集めるのが大きな特徴だ。被験者を2つのグループに分け、比較するのが基本形といえる。

 たとえば「電力会社が電気料金を上げる」「市民は節電するようになる」という2つの命題に因果関係があるか、確かめるとする。そのための実験として、ある地域の住民100人の電気料金を実際に上げる(A)。一方、同じ地域の別の100人の料金は据え置く(B)。
 このとき、Aのグループの電気消費量の平均がBより低かったら、因果関係が「ある」可能性が高いことになる。

 RCTの鉄則は、属性に偏りを作らないようにグループを分けることだ。たとえば上記のケースでは、節電への意欲が高い人ばかりを一方のグループに入れてはいけない。

データの非連続な変化に着目するRDデザイン

 著者は、実験にはコストがかかる、自治体などの協力を得なければならない、といったRCTのデメリットも指摘している。

 そういったことでRCTが使えない時の有力な手法の1つが「RDデザイン」だ。データの急増・急減といったイレギュラーな非連続的変化に着目し、その要因を探る。

 例として日本の医療費をとりあげてみよう。日本では70歳の誕生日を境に医療費の自己負担割合が原則それまでの3割から、「1割ないし2割」に減る(現役並み所得者を除く)。その負担減と、医療サービスの利用頻度の因果関係を調べる。

 そこで年齢別の医療機関への外来患者数をグラフ化してみる。すると、65歳から69歳にかけてなだらかな曲線で増えていくが、70歳の数値が急増し、グラフが急勾配になっているのがわかった。

 分析者は次に、就業率や収入など他の要因が70歳を境に非連続的に変化していないかを検証する。これら他のデータに非連続性がなければ、負担減と利用頻度の因果関係は「ある」可能性が高くなる。

 本書でさまざまな分析手法の概略を知り、正しく因果関係を見極められるようになれば、職場で説得力のある決定をしたり、国・自治体の政策の妥当性もチェックしたりできるだろう。ぜひ活用してもらいたい。

情報工場 エディター 足達 健

情報工場 エディター 足達 健

兵庫県出身。一橋大学社会学部卒。幼少期の9年間をブラジルで過ごす。文系大学に行きながら、理系の社会人大学院で情報科学を学ぶという変わった経歴の持ち主。システムインテグレータを経て、外資系のクラウドソフトウェア企業でITコンサルティングサービスに携わる。1児(4歳)の父。「どんなに疲れていても毎日最低1時間は本を読む」がモットー。人工知能などのITの活用や仕事の生産性向上から、子どもの教育まで幅広い関心事項を持つ。

amazonBooks rakutenBooks

今月のブックレビュー

情報工場 読書人ウェブ 三省堂書店