読者です 読者をやめる 読者になる 読者になる

ビックデータが「データ(による)大量破壊兵器」になるとき - Cathy O'Neil「Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy」

読書記録

Harvard Business Reviewの、新刊本著者のインタビューポッドキャストを聞き流す中、これはと思った本があって読んでみたのだが、ものすごく面白かった。

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy by Cathy O'Neil

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy

 

著者のCathy O'Neilはもともと数学研究者で、大学でテニュアトラックまで取っていたのだが、産業界へ移りヘッジファンドで働き始めたところ、サブプライムローン問題からの一連の金融危機を経験した。彼女は数学が大好きで、「数学は絶対に裏切らないもの」だと思っていたのだが、サブプライムローン破綻やその後のローンの支払いに困る人々を見て、実は数学や統計モデルによって誤った結論に導かれたり、モデルの誤りを修正することの困難さに思い至るようになる。それでブログを書き始め、今回本を出版するなど、ある種の啓発活動にも務めているようだ。

この本は統計モデルというよりも、社会問題やデータサイエンスの倫理学を扱った本だと思ってもらえるといいと思う。本の中では、(良かれと思って)種々の統計モデル*1を使い、人々が誤った結論に導かれたり、不公平性や困難を生じさせた例が紹介されている。ちらっとベイジアンや自然言語処理といった単語はでてくるが、計算の詳しい話は出てこない。またすべての統計モデルについて批判的であるというわけでもなく、危険な統計モデルを条件を挙げて解説している。

彼女が指摘しているのは、この種の統計モデル(Weapons of Math Destruction, WMD. 『データ(による)大量破壊兵器』。もちろんmassとmathをかけている)によって困難な状況に追いやられるのは、貧しかったり、すでに問題を抱えた人たちであるということだ。例えば、従業員の候補を評価するようなモデルを作るとする。モデルが使う入力のうち、ローンの支払いの遅延情報を入れたとすると、すでにローンの支払いに困難を生じている人が職を得ることが難しくなり、ますます支払いに困難が生じる、といった具合だ。このように、いわば統計モデルを用いた種々の評価システムが、困難な状況にある人をさらに「罰して」しまう状況に、著者は警鐘を鳴らしている。

WMDは不透明で、規模が大きく、害を被る人がいる、という定義である。そしてWMDによる判定は、覆したり、反論するのが難しい。例えば警察による犯罪予想マップは、貧しい人が住む地域を重点的に狙い撃ちしてしまう。その結果、軽微な犯罪が見つかり、予想マップはますますその地域を狙い撃ちにするようになる……という具合だ。

データを用いて何かを予測したり、評価システムを作る場合、効率か倫理か」の間のトレードオフがあるという点に筆者は言及している。例えば、良さそうな従業員候補をスクリーニングするのに、クレジットカードの遅延情報を用いるのは適切だろうか?きっとルーズな候補者は面接に呼ばずに済むだろう。でも、一旦カードの支払いが遅れてしまえば、職を得るチャンスも失い、その人はますます困窮する。

また、統計モデルの正しさをどうやって担保するか、モデルの良さを評価するための評価関数を選ぶ時に恣意性が入るのではないか、また実は入力データを作る時の不正を促進してしまう(カンニングなど)、などの問題点も具体例を交えて指摘されている。

最近流行り?のディープラーニングは、予測に用いる特徴抽出までやってくれるのだから、「何かを予測する」という目的達成のためなら非常に強力なツールだし、ある意味評価システムとして公平ではないかと思うかもしれない。特徴抽出を自動でやれば、おそらく効率最大化=倫理的配慮の無視、という流れになるだろうというのは、本書を読んでみればすぐ想像できる。現実世界の事象を全て数値化し、より良い予測を目指そうというのは、現実問題として(少なくとも今は)難しいのではないかと思う。特に感性・感情など計測しづらいものはデータ自体が作りづらい。行動データから間接的に測る方法もあるが、ここで問題になるのは、結果の解釈をする人間が持つバイアスだろう。なかなか一筋縄ではいかない。

また、彼女の「モデル」の話は、統計モデルにとどまらない。人種差別も、個人の世界の内部モデルのチューニング不足ではないかと指摘する。そして、人種差別的な傾向を持つ人々から取られたデータがモデルに入力され……というように、WMDの原因の一つになったりもするのだ。

彼女がここまでこだわるのは、金融危機の一翼を担ってしまった責任感や、数字の裏に人の生活あり、というのを感じたことにあるようだ。もともと曖昧性や不完全さを嫌って数学の世界に飛び込んだ彼女が、数学や統計モデルを現実世界に適用することの難しさを語るのは説得力がある。

 

では、どのような配慮をして、統計・予測モデルを運用するべきなのか?その点は難しい問題であるが、「効率と倫理」は相反するものであり、効率だけを追求するのではなく、倫理的な観点からモデルの良し悪しを検討すること、さらにフィードバックを含めた正しい評価システムを作ったり、問題を抱える人を発見した時に手助けする方向に進むべき、というのが彼女の主張だ。

 

この本はものすごく面白い。比較的短く、平易な文章で書かれている(単語が難しいかもと心配な場合は、Kindleで読むといい。最近は洋書のKindle版もすぐ手に入るようになり、本当に便利になったと思う)。巻末の註や出典情報も充実している(オンラインリンクなどはアーカイブ性が心配だが)。ラリー・サマーズが出てきたり、「優れたコーダーは日本の漫画サイトで時間を使うことが多い」とかいうビックデータ絡みの小噺もいろいろ載っていて面白い。

また、私自身は人の個性や性格を予測するような研究をやっているので、身につまされるところもあった。私自身がWMDを開発することはないだろうと思うのだが、自分の研究が誰かの予測モデルの正当化に使われるかもしれない。ただ、心理学者としては、本当は計れない「意識」とか「内部モデル(個々人が持っている世界に関する様々な仮定や知識 - 例えば「11月の東京は晴れやすい」「アメリカ人は明るい人が多い」など)」など、そういうものを定量化したいという欲求がある。これは様々な統計モデルが目指す目的と一部被っていて、実験や解析時に様々な観点から検討しないと思わぬ落とし穴にはまるのかもしれないと思う(Dr. Satoshi Kanazawaの件も有名)。研究者としては、彼女の投げかけた問いに真摯に対応しなければならないと思う。

翻訳を待つと遅いので、すぐに読んでもらいたいくらいだ。読みきれるか心配で買うかどうか迷ってる人は、著者のブログの他、Harvard Business Reviewの著者インタビューを見て話がわかりそうか判断してみるといいかもしれない。

hbr.org

出版社の方は1日も早い翻訳を。素人の意見だが、昨今のビックデータや人工知能の流れに乗って絶対売れると思う。

 

11/11/2016  追記

アメリカの選挙を受けて、ドナルド・トランプが大統領に選ばれる見通しになった。実はこの本には、パーソナライズド広告(属性によって広告の種類や内容)が、選挙や各種キャンペーンで用いられているということが指摘されている。

diamond.jp

トランプ候補はなぜ大統領選に勝ったのか: 極東ブログ

トランプ候補はこの辺りの広告戦略をかなりうまく(そして、ある意味こっそりと)やったのではないかと推測できる。つまり、本書が指摘する通り、あなたの隣人の見ているもの(広告)は、あなたの見ているものと全く違うかもしれないのだ。それが他者理解を阻んでいたり、社会の断絶を一層加速させているかもしれない。

*1:Math, と言ってはいるが、統計モデルとか、ビックデータ解析くらいの意味だと思っていた方がイメージに近い。イギリスにいるときも思ったのだが、Mathは数学ではなく、数字や統計を扱ったものという雰囲気で使われる場面が多かった。私の周りに理論系の研究者がいなかったせいもあるかもしれないが。

みんな「女のいない男たち」 - 村上春樹「女のいない男たち」

読書記録

村上春樹「女のいない男たち」

書評、なんて言えるほど大したものではないので、読書記録として……

女のいない男たち (文春文庫 む 5-14)

女のいない男たち (文春文庫 む 5-14)

 

実は今まで村上春樹の小説というのを読んだことがなかった。村上春樹の文章を揶揄するようなネットのコピペを見たり、「この論文はまるでHaruki Murakamiのように複雑だな」と、分かりにくい論文についての同僚のコメントを聞くにつけ、村上春樹に対するネガティブなイメージは募る一方だった。

日本に一時帰国した友人に会った時、村上春樹を読んだことがないが苦手意識がある、と伝えたら、じゃあ読んでごらん、と鞄からこの本を出してくれた。昔から、人に勧められた本は読まなければならないというポリシーのようなものがあり、観念して村上春樹の小説を読むことにした。

率直に言って、この本は面白かった。雰囲気としては、小川洋子の作品に似ていると思った。ただし逃げ場がないので、読んでいて少し不安な気持ちになる。小川洋子の作品(またはボリス・ヴィアンのそれ)は、舞台設定として、現実的にはあり得ないだろう要素 ---『香りを閉じ込める』とか、『肺からハスの花が生えてくる』とか--- が入っていることが多い。小説の中で恐ろしく不気味がことが起こっても、『大丈夫、これは小説なんですよ。安心してください』と気付かせるマークが入っているのである意味安心できる。今回読んだ村上春樹の短編は、現実ありそう・いそうな人たちが直面する孤独や喪失が描かれている。そして誰も他人を理解できない、みたいな結末になってしまう(最初の話では、まあそういうものなのだ、という趣旨が示されるのが救い)。読むと落ち込むのだけれど、小説の世界から帰ってこれない。

どの話も、女を失った男と語り手の男(同一の場合もある)というセットで出てくる。どの話も、「一人の女を深すぎるほど愛してしまうと激しい喪失の痛みにさらされ、もう二度と人を愛することができず、『女を失った男』になってしまう。一方で、その喪失の痛みにさらされていないものは、『女を知らない男』だ」という示唆を含んでいるように思った。つまり、誰も彼も村上春樹のいう「女のいない男たち」になってしまう。三島由紀夫の「処女を犯した男は、決して処女について知ることはできない。処女を犯さない男も、処女について十分に知ることはできない。」という、川端康成の「伊豆の踊り子」解説文を思い出す。

 

私はあまり小説の読み方に自信がない。小説の読み方というのは、現代美術の愉しみ方と同じくらい難しいのではないかと思う。ストーリーについていえば、話をなぞって、意外性があれば面白い、そうでなければつまらない、くらいのことしか感じられない。結局のところ、その物語の雰囲気を楽しんだり、自分の体験に引き寄せて思いを馳せたりするというのが小説を読むということなのだろう。

村上春樹という人は「他人の人生を覗き見る」ことによって小説を書いている人なのではないかと思う。そんなこと小説家なら皆がやってることなのかもしれないが、彼の場合は「取材」ではなく「覗き見」なのではないか。体験した本人しか知りえない情報をどこからか(おそらく「人生相談」のような形で)仕入れてきて、これを小説の登場人物や出来事の下敷きにしてるのではないかな、と思った。

「独立器官」の語り手は小説家なのだが、彼の友人(主人公)の男性は、語り手の小説家に対し「物書きは他人の打ち明け話を聞く正当な権利を持っている」という趣旨の発言をする。

村上春樹は、「正当な権利を有しているからなんでもやっていい」という、ある意味芸術至上主義的な考え方でもって、人生は一行のボオドレエルにも若かないとばかりに、他人の人生を消費しながら作品書いてるんじゃないかという気になった。ここが彼の作品についてよく言われる「軽さ」とか「薄っぺらさ」の由来なのかもしれない。薄っぺらい感じがするのは、やっぱり他人の人生を消費するように書いてるからじゃないかという気がする。ただの気のせいだといいな。

イギリスにいた時、村上春樹のウイスキー本を読んだ。アイラ島には行けずじまいだったが……

 

もし僕らのことばがウィスキーであったなら (新潮文庫)

もし僕らのことばがウィスキーであったなら (新潮文庫)

 

 

インパクトファクターと'In press'期間の長さ

研究 科学政策

先日の記事にも一部書いたが、研究の内容を発表する雑誌(ジャーナル、一部マガジンとも呼ばれる)の「良さ」を測る指標の一つがインパクトファクター(Impact factor, IF)だ。IFとは、その雑誌に発表された論文が、1年間でどれだけ引用されるかの期待値であると理解して良い。IFはトムソン・ロイターが毎年発表しており、web of scienceというデータベースで確認することができる。

インパクトファクターについて - Clarivate Analytics

インパクトファクターの計算方法は?


A: A=2003年、2004年に雑誌Pに掲載された論文が2005年中に引用された回数
B= 2003年、2004年に雑誌Pが掲載した論文の数
雑誌Pの2005年のインパクトファクター=A/BIFはその雑誌の影響力を測る指標であり、IFが高くなれば(研究者からの)雑誌の人気度が上がり、投稿数・購読数が増え、出版社は儲かるということになる。そこで、IFが上がれば、その雑誌の編集部(または出版社)は大々的に宣伝する。

実は、IFはすべての雑誌について計算・発表されるわけではなく、トムソン・ロイターがインデックスした雑誌についてのみ計算される。つまり、IFが付いている雑誌=トムソン・ロイターの"お墨付き"雑誌ということになるので、インパクト・ファクターが発表されれば、雑誌からプレスリリースが出ることもしばしばである。

最近気になるのが、「In press"期間を長く設定すると、雑誌のインパクトファクターを『かさ上げ』してしまっているのではないか?」ということだ。

神経科学の雑誌で、"Journal of Neuroscience" (JNS)という雑誌と、"Cerebral cortex"(CC)という雑誌がある。どちらも権威ある神経科学の総合誌で、インパクトファクターは5から10の間、というイメージだ。某偉い先生は、JNS以下の論文は業績として認めないと言ったとか言わないとか……

2010年ごろの認識では、JNS >= CCというイメージだったのだが、JNSがじりじりとインパクトファクターを下げているという話が出ている。ざっとインパクトファクターの推移を調べてみると、以下のような感じだ(端数切り捨て)。

----- 

JNS

2015 - 5.9
2014 - 6.3
2013 - 6.7
2012 - 6.9
2011 - 7.1

CC

2015 - 8.2
2014 - 8.6
2013 - 8.3
2012 - 6.8
2011 - 6.5

-----

ResearchGateという、研究者のLinkedInのようなサイトがあるのだが、ここでも同様の傾向が出ている。

なぜJNSのインパクトファクターが低下傾向にあるのだろうか?実際に研究の質が下がっているというのも可能性としてあるかもしれない。例えば、eLifeは生命科学系のいい雑誌の受け皿として機能している。インパクトファクター10以上のいわゆるハイインパクト誌いくつかでダメだったら、速報系オープンアクセス(Plos one, Scientific reports, Frontiersなど)に出してしまおうという考え方をする人が増え、投稿数が減ったのかもしれない。

でも、もしそうならCCも同じように減っていると思うのだがその傾向は見られない。なぜだろう?

私が思い当たる原因の一つが、CCの'In press'期間の長さだ。In pressとは、年に何度か出版される学術雑誌に載せるために印刷(準備)中ということだ。最近は論文のPDFを、アクセプト後わりとすぐに雑誌のウェブサイト上に発表することが多いので、長い間In pressになって公表された状態が続き、紙媒体に掲載される、ということになったりする。

もうお分かりだろうか。つまり、「実際に世の中に(PDFとして)論文が出た時期(実質発表年)」と「論文の出版年」との間にズレがある。毎年のインパクトファクターは、その年から遡って3年間の間に出版された掲載論文の引用数で決まるので、実質発表年と出版年のズレが大きくなると、実質的には3.6年間とか4年間とか、3年以上世の中に出回っている論文なども出てきてしまうということだ。そうすると、被引用数がいわば(合法的に)水増しされた状態になってしまう……ということだ。

CCはIn pressの期間が1年間くらいあったりする論文がざらにある。先月号(September 2016)も、オンラインになったのは2015年9月だったりする論文もある(オープンアクセスではオンラインから出版までが早いが、これはなぜだろう?誰か知っている人がいたら是非教えて欲しい。funding agencyからの要請だろうか?)。

実際、CCを出しているOxford pressはかなりインパクトファクターを気にしているように見える(どの雑誌もインパクトファクターの推移を誇らしげに記載している)。Social Cognitive & Affective NeurosciというOxford pressの雑誌は、Social neuroscience系の速報専門誌といった感じの位置付けだが、インパクトファクターが結構高い。2014年はJNSより高いと話題になった。

SCAN

2015 - 5.101
2014 - 7.372
2013 - 5.884
2012 - 5.042
2011 - 6.132
サイトを見てもらえれば分かるが、だいたい3-5ヶ月くらいはin press(advanced access)状態に置かれるようだ。

対してJNSは、最近Early releaseというのを始めたようで、コメントを出している。インパクトファクターは全てではないが、低下傾向はなんとかしたい、という改革意識の表れかもしれない。

この流れが今後どうなるだろうか。
最近はbioarxivなど、出版前プレプリントを出すところがかなり増えたので、アクセプト前の原稿にアクセスしやすくなっている。そうなると、In pressがあってもなくても、結局引用数は変わらないようになるのではないか?という気がしている。いい論文がたくさん載っているところは引用がつき、インパクトファクターとしてきちんと返ってくる、という本来あるべき姿に進むのではないかと期待している。

しかし論文を書かなくては、来年の職がなくなってしまう……

 

できる研究者の論文生産術 どうすれば「たくさん」書けるのか (KS科学一般書)

できる研究者の論文生産術 どうすれば「たくさん」書けるのか (KS科学一般書)

 

この本は英語版を買って読んだが、いわゆる「ライフハック」的な意味でのアドバイスがたくさん載っている。全部実践するというより、適当にかいつまんで真似する。研究者向け。

 

できる研究者の論文作成メソッド 書き上げるための実践ポイント (KS語学専門書)

できる研究者の論文作成メソッド 書き上げるための実践ポイント (KS語学専門書)

 

こっちは初めて論文を書く若者のために、的な本。まだ論文を書いたことのない人向け。

どちらの本も結構高い割には割と内容が薄いので、研究室の先生におねだりして買ってもらうのが吉ではないかと思う……