読者です 読者をやめる 読者になる 読者になる

ビックデータが「データ(による)大量破壊兵器」になるとき - Cathy O'Neil「Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy」

Harvard Business Reviewの、新刊本著者のインタビューポッドキャストを聞き流す中、これはと思った本があって読んでみたのだが、ものすごく面白かった。

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy by Cathy O'Neil

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

 

著者のCathy O'Neilはもともと数学研究者で、大学でテニュアトラックまで取っていたのだが、産業界へ移りヘッジファンドで働き始めたところ、サブプライムローン問題からの一連の金融危機を経験した。彼女は数学が大好きで、「数学は絶対に裏切らないもの」だと思っていたのだが、サブプライムローン破綻やその後のローンの支払いに困る人々を見て、実は数学や統計モデルによって誤った結論に導かれたり、モデルの誤りを修正することの困難さに思い至るようになる。それでブログを書き始め、今回本を出版するなど、ある種の啓発活動にも務めているようだ。

この本は統計モデルというよりも、社会問題やデータサイエンスの倫理学を扱った本だと思ってもらえるといいと思う。本の中では、(良かれと思って)種々の統計モデル*1を使い、人々が誤った結論に導かれたり、不公平性や困難を生じさせた例が紹介されている。ちらっとベイジアンや自然言語処理といった単語はでてくるが、計算の詳しい話は出てこない。またすべての統計モデルについて批判的であるというわけでもなく、危険な統計モデルを条件を挙げて解説している。

彼女が指摘しているのは、この種の統計モデル(Weapons of Math Destruction, WMD. 『データ(による)大量破壊兵器』。もちろんmassとmathをかけている)によって困難な状況に追いやられるのは、貧しかったり、すでに問題を抱えた人たちであるということだ。例えば、従業員の候補を評価するようなモデルを作るとする。モデルが使う入力のうち、ローンの支払いの遅延情報を入れたとすると、すでにローンの支払いに困難を生じている人が職を得ることが難しくなり、ますます支払いに困難が生じる、といった具合だ。このように、いわば統計モデルを用いた種々の評価システムが、困難な状況にある人をさらに「罰して」しまう状況に、著者は警鐘を鳴らしている。

WMDは不透明で、規模が大きく、害を被る人がいる、という定義である。そしてWMDによる判定は、覆したり、反論するのが難しい。例えば警察による犯罪予想マップは、貧しい人が住む地域を重点的に狙い撃ちしてしまう。その結果、軽微な犯罪が見つかり、予想マップはますますその地域を狙い撃ちにするようになる……という具合だ。

データを用いて何かを予測したり、評価システムを作る場合、効率か倫理か」の間のトレードオフがあるという点に筆者は言及している。例えば、良さそうな従業員候補をスクリーニングするのに、クレジットカードの遅延情報を用いるのは適切だろうか?きっとルーズな候補者は面接に呼ばずに済むだろう。でも、一旦カードの支払いが遅れてしまえば、職を得るチャンスも失い、その人はますます困窮する。

また、統計モデルの正しさをどうやって担保するか、モデルの良さを評価するための評価関数を選ぶ時に恣意性が入るのではないか、また実は入力データを作る時の不正を促進してしまう(カンニングなど)、などの問題点も具体例を交えて指摘されている。

最近流行り?のディープラーニングは、予測に用いる特徴抽出までやってくれるのだから、「何かを予測する」という目的達成のためなら非常に強力なツールだし、ある意味評価システムとして公平ではないかと思うかもしれない。特徴抽出を自動でやれば、おそらく効率最大化=倫理的配慮の無視、という流れになるだろうというのは、本書を読んでみればすぐ想像できる。現実世界の事象を全て数値化し、より良い予測を目指そうというのは、現実問題として(少なくとも今は)難しいのではないかと思う。特に感性・感情など計測しづらいものはデータ自体が作りづらい。行動データから間接的に測る方法もあるが、ここで問題になるのは、結果の解釈をする人間が持つバイアスだろう。なかなか一筋縄ではいかない。

また、彼女の「モデル」の話は、統計モデルにとどまらない。人種差別も、個人の世界の内部モデルのチューニング不足ではないかと指摘する。そして、人種差別的な傾向を持つ人々から取られたデータがモデルに入力され……というように、WMDの原因の一つになったりもするのだ。

彼女がここまでこだわるのは、金融危機の一翼を担ってしまった責任感や、数字の裏に人の生活あり、というのを感じたことにあるようだ。もともと曖昧性や不完全さを嫌って数学の世界に飛び込んだ彼女が、数学や統計モデルを現実世界に適用することの難しさを語るのは説得力がある。

 

では、どのような配慮をして、統計・予測モデルを運用するべきなのか?その点は難しい問題であるが、「効率と倫理」は相反するものであり、効率だけを追求するのではなく、倫理的な観点からモデルの良し悪しを検討すること、さらにフィードバックを含めた正しい評価システムを作ったり、問題を抱える人を発見した時に手助けする方向に進むべき、というのが彼女の主張だ。

 

この本はものすごく面白い。比較的短く、平易な文章で書かれている(単語が難しいかもと心配な場合は、Kindleで読むといい。最近は洋書のKindle版もすぐ手に入るようになり、本当に便利になったと思う)。巻末の註や出典情報も充実している(オンラインリンクなどはアーカイブ性が心配だが)。ラリー・サマーズが出てきたり、「優れたコーダーは日本の漫画サイトで時間を使うことが多い」とかいうビックデータ絡みの小噺もいろいろ載っていて面白い。

また、私自身は人の個性や性格を予測するような研究をやっているので、身につまされるところもあった。私自身がWMDを開発することはないだろうと思うのだが、自分の研究が誰かの予測モデルの正当化に使われるかもしれない。ただ、心理学者としては、本当は計れない「意識」とか「内部モデル(個々人が持っている世界に関する様々な仮定や知識 - 例えば「11月の東京は晴れやすい」「アメリカ人は明るい人が多い」など)」など、そういうものを定量化したいという欲求がある。これは様々な統計モデルが目指す目的と一部被っていて、実験や解析時に様々な観点から検討しないと思わぬ落とし穴にはまるのかもしれないと思う(Dr. Satoshi Kanazawaの件も有名)。研究者としては、彼女の投げかけた問いに真摯に対応しなければならないと思う。

翻訳を待つと遅いので、すぐに読んでもらいたいくらいだ。読みきれるか心配で買うかどうか迷ってる人は、著者のブログの他、Harvard Business Reviewの著者インタビューを見て話がわかりそうか判断してみるといいかもしれない。

hbr.org

出版社の方は1日も早い翻訳を。素人の意見だが、昨今のビックデータや人工知能の流れに乗って絶対売れると思う。

 

11/11/2016  追記

アメリカの選挙を受けて、ドナルド・トランプが大統領に選ばれる見通しになった。実はこの本には、パーソナライズド広告(属性によって広告の種類や内容)が、選挙や各種キャンペーンで用いられているということが指摘されている。

diamond.jp

トランプ候補はなぜ大統領選に勝ったのか: 極東ブログ

トランプ候補はこの辺りの広告戦略をかなりうまく(そして、ある意味こっそりと)やったのではないかと推測できる。つまり、本書が指摘する通り、あなたの隣人の見ているもの(広告)は、あなたの見ているものと全く違うかもしれないのだ。それが他者理解を阻んでいたり、社会の断絶を一層加速させているかもしれない。

*1:Math, と言ってはいるが、統計モデルとか、ビックデータ解析くらいの意味だと思っていた方がイメージに近い。イギリスにいるときも思ったのだが、Mathは数学ではなく、数字や統計を扱ったものという雰囲気で使われる場面が多かった。私の周りに理論系の研究者がいなかったせいもあるかもしれないが。