統計学を拓いた異才たち
- 作者: デイヴィッドサルツブルグ,David S. Salsburg,竹内惠行,熊谷悦生
- 出版社/メーカー: 日本経済新聞社
- 発売日: 2006/03/20
- メディア: 単行本
- 購入: 28人 クリック: 366回
- この商品を含むブログ (90件) を見る
訳の分からない数式をごりごりと追っていたり、講義に寝過ごしている間に何か大切な考え方を理解しそびれたんではという嫌な冷や汗を思い出したりしながら、振り返って読むと、数年振りでも全体像がスッとつかめる気がしてくる。懐かしい。
この本は、去年の夏、東京駅丸の内オアゾの丸善に、平積みにされていたのを見かけて購入。こんなマニアックな本が平積みにされているのを見て、金融機関の集まる丸の内の懐の広さを知った気がする。
カール・ピアソンは統計的分布を、分析する実際の収集データを表現しているものと考えた。かたやフィッシャーによれば、真の分布は抽象的な数式で表現され、収集データは真の分布の母数を推定するためだけに使うことができるものだった。
ピアソンの革命的な考え方で武装すると、われわれは実験結果が生来、慎重に測定された数値であるとは見なさない。数値の分布としてみている。数値の分布は、数学公式で表現できる。それは観測された数値がある特定の値となる確率を表すものだ。
ランダム抽出に基づいた母数のどんな推定値もそれ自体がランダムであり、確率分布を有することになる。元来の母数の考え方とこの考えを区別するために、フィッシャーはこの推定値を「統計量」と呼んだ。
実際のデータか、パラメータで定義される分布か、本質がどちらにあると考えるかということが、統計学の根底にありつづける課題なのだという。
スタンフォード大学のグループが気づいたのは、この五〇〇〇次元空間において現実のデータが無秩序に散在しないということだった。実際には低い次元にかたまりやすいのである。
プリンストン大学、ベル研究所のジョン・テューキーは、少なくとも医学分野でデータの真の「次元」は五次元を超えることはめったにないと、かつて提唱した。
コンピュータというツールを手に入れた現代でも、「次元の呪い」は超えられない。それを如何に有効に要約するかが相変わらずの課題。
「喫煙は肺癌に罹るリスクを高めます」というメッセージがタバコのパッケージに大きく書かれていて、恐らくはそのとおりなのだろう。だけど、そんな因果関係ですら、厳密に統計的に示された事実であるかというと、以外と弱い論理に過ぎないという。