誰もが嘘をついている~其の四

こんにちは、ヘッタ・チャンです。

以前紹介した「誰もが嘘をついている~ビッグデータ分析が暴く人間のヤバい本性~」、今回は、投資に関するビッグデータの話題を本書からいくつか紹介します。

結論から言うと、投資の世界ではビッグデータはそれほど優秀な成績を収めていないと著者は言います。

理由は変数が多すぎて、偽りの変数を有効としてしまうからです。
(本書では「次元の呪い」という言葉を使っています)

また興味深いトピックに企業がビッグデータを使い、顧客から限界まで搾り取るための仕組みを徹底して取り入れているという話があります。

企業としては当然の行動ですが、消費者としては釈然としない部分もあり、考えさせられます。

他にもどういった言葉を使う人間が借金をしても返済し、返済しないのかなど金融ネタとして引き込まれるネタがあり、最後まで楽しく読めました。

今年のベスト3に入る良い本でした。

以下抜粋

既存の研究の成果が乏しい分野では新たなデータが一大飛躍をもたらしやすいと述べた。だが、人種差別主義、児童虐待、そして中絶についての洞察を得ることに比べて、企業業績をいち早く察知して儲けることは、残念ながらはるかに難しい。
なぜなら企業業績のかすかな変動を探るために既に膨大な資源が投入されているからだ。金融分野における競争は激烈である。それだけでも逆風だ。

最近の研究では、IQに関わる遺伝子変異についての 12 の有名な科学的発表を、1万人ものデータをもとに検証した。
その結果、 12 の先行研究が報告した相関性のどれ一つとして再現できなかった。
これらの主張はどこがいけないのか? 次元の呪いである。いまや科学界でははっきりしていることだが、人間のゲノムには数百万通りもの違いがある。ごく単純に言えば、数が多すぎて試験しきれないのだ

どうすれば次元の呪いを解けるのか?
まず自分の研究に謙虚になり、その結果に入れ込まないことだ。初期結果が出たら追試しなければならない。虎の子の運用をコイン391番に託す前に、今後数年間にそれがどれくらい正確に証券市況を予言できるのかを試してみるのだ。
社会科学者はこれを「アウト・オブ・サンプル」テストと呼ぶ。そして試験する変数が多いほど、より謙虚になる必要がある。
変数が多いほど、「アウト・オブ・サンプル」テストは困難になるはずだ。さらに、すべての試験の結果をきっちり記録し続けることも必要だ。そうすれば、いかに次元の呪いにかかりやすいか、実験結果にいかに懐疑的であるべきかが、身に沁みてわかるはずだ。

解決法は必ずしもビッグデータではないのだ。ビッグデータを最大限に活用するには、えてして隠し味が必要である。すなわち人間的な判断力と、いわばスモールデータとも言うべき小規模なサーベイだ。

研究の結果、借金希望者の言葉遣いが、返済率の強力な予言因子になることがわかった。しかもそれは、融資判断の関連情報、たとえば信用レーティングや収入などと比較してもなお重要な因子だった
中略
借金を返しそうな人間の言葉遣いについてだ。
「低利率」とか「税引き後」などは借り手側の一定の金融知識を示しており、従って彼らの返済率が高いことはおそらく驚くにはあたらないだろう。さらに「学卒者」とか「負債なし」のように、何らかの良き実績をアピールする人も借金を返しやすい。
一方、「お金はお返しすると約束します、神よどうかお助け下さい」と書く人は、最も返済可能性が低い人物だ。人の慈悲心に訴えること――親類が「病院」に入っているので金が必要なのだという人――は、借りたカネは返せないと言っているようなものだ。
中略
この研究によれば、支払計画を詳細に示し、かつて果たしてきた約束を列挙する人々は、総じて借金を返しやすい。金を返すと約束し情に訴えようとする人々は、借金を踏み倒す明らかな徴候を示している。
理由はどうあれ、あるいは約束をする人間は実際には約束を破ること必定という人間の本性についてこの研究が何を意味しているのであれ、債務不履行を予見する非常に貴重な知見が得られたと研究者らは考えている。
「神」に言及した人は2・2倍も借金を踏み倒しやすいのだ。「神」は債務不履行者を何よりあぶりだす単語の一つだった。

ギャンブルも絞り込みが顧客を危険に晒しかねない分野の一つだ。大手カジノ企業は、分身検索に似た技術を用いて顧客への理解を深めようとしている。
目標は、顧客からできるだけ多くを搾り取ることだ。彼らのポケットから自分たちの金庫へと、できる限り多くの金を移したいのだ。
中略
カジノ側は、どんなギャンブラーにも「痛点」があると考えている。それ以上の損をすると懲りて、かなりの期間、カジノから足が遠のく損失金額だ。
中略
カジノの経営者なら、ヘレンがスロットマシンに座ったときにどうしたいか? できるだけ彼女の「痛点」近くまで、しかしそれを超えない程度に、金を搾り取りたいはずだ。彼女に2999ドルの損をさせ、カジノは十分に稼ぎ、しかしヘレンにとってはギャンブルから足を洗うほどの損失ではないのが理想である。

ネット上のデータは、企業にどの顧客は避けるべきでどの顧客なら搾取できるのかを教えている。一方、消費者にもどの企業を避けるべきか、またどの企業が搾取的なのかを教えている。
今のところビッグデータは消費者と企業の戦いにおいて、いずれの側にも味方をしている。

数学者であるエレンバーグは、いったい何人が実際に書籍を読み通すのかに興味を持った。そしてビッグデータを活用してそれを調べる妙手を考案した。アマゾンのレビュー欄では、人々は書籍中の文章をさまざまに引用している。エレンバーグは、書籍の前半の記述の引用回数と後半のそれとを比較することを思いついた
中略
この方法によれば、ドナ・タートの小説『ゴールドフィンチ』は、 90%以上の読者が読了していた。
対照的に、ノーベル経済学賞を受けたダニエル・カーネマンの傑作『ファスト&スロー』は、およそ7%しか読了していなかった。
この大雑把な測定方法によると、経済学者トマ・ピケティの『 21 世紀の資本』に至っては、世評の高さとは裏腹に、3%足らずだった。要するに、人々は経済学者が書いた本は読了しない傾向が強いのだ。

抜粋ここまで