イイモノ

この世で一番おもしろい統計学を読んだ感想

starstarstarstarstar_border
この世で一番おもしろい統計学
手っ取り早く統計の概要を掴むのにちょうどいい。

以前、「とある弁当屋の統計技師(データサイエンティスト)」という本を購入しました。ちょっと統計に興味があったので買ったわけですが、その内容は私が思っていたものとはちょっと違ったわけです。統計を使ってどのように分析していくのかということが非常に分かりやすく書いてあり、その点は良かったのですが、私は「統計とはこういうものです」という大まかな仕組みが知りたかったのです。

統計とはこういうためのもので、こういう方法で使っていって、こういう点には注意しないといけないぞというようなことが知りたかったのです。そこでさらに、「この世で一番おもしろい統計学」という本を購入して勉強することにしました。

本書で扱われている内容

この世で一番おもしろい統計学 中身サンプル

本書では、統計について大まかに以下の内容について触れられています。

  • 標本の集め方、調べ方
  • 統計的な推定
  • 信頼区間
  • 仮説検定

本書はこれらの内容を、マンガ形式と少ない文字数で簡潔に語ってくれます。統計についての大まかな理解を得るにはもってこいの本だと思います。

統計とはなにか

統計とは、一部の標本を使って、全体(母集団)について、信頼性のあることを言うことです。

なぜ一部の標本を用いて母集団の推計を行うのか?

それは母集団全てを調べることはコスト的、労力的、実現可能性的にいって非現実的であり、不可能だからです。

なぜ標本から統計を使って母集団の分析をするのか

探している母集団は直接観測することができません。そこで、無作為に抽出した標本を頼りに、推定標本分布を推定します。推定標本分布とは、このまま無作為に異なる標本を集めていって、標本分布を作ったとしたら描かれるであろう標本平均の分布を言います。

この標本分布は、母集団の平均を中心とした正規分布になることが数学的に証明されているそうです。そしてそのバラつきは、母集団自体のバラつきより狭くなります。したがって、標本を調べることで、効率的に母集団の平均を推定することができるのです。

統計では「確実」なことはわからない

標本を使っても母集団について「確実」なことは分かりません。統計は「最高の推定」をするためのものであって、「確信」するためのものではないのです。

標本は正しい手順で集めたものでなければ、母集団に対する推定を誤ってしまいます。バイアスがかからないように、常に無作為に抽出して偏りをなくす必要があります。それは標本の性質の違いが、偶然によるものだけにするためです。

標本を無作為に集めたところで、抽出した標本が母集団と異なる性質になってしまう可能性は否定できません。しかし、それはあくまで偶然によるものであり、標本数を増やしたり試行回数を増やすことによって、長期的に見れば母集団の性質に近づくと考えられます。

数字に惑わされないために重要なこと

  • その数字はどこからきたのか
  • 誰が作った数字なのか
  • なぜこの数字が作られたのか

これらに気を配ることで、思考を広げる一つの切り口となってくれます。これは数字を用いてペテンに引っかからないようにすることにも通じます。数字は嘘をつきませんが、必ずしも実体をそのまま表しているとは言えません

平均の意味

平均というとその意味は誰もが知っているところでしょう。求め方だってわかります。

平均50点のテストだったと言われて、どのようなことを思い浮かべるでしょうか。可もなく不可もなく、ちょうどいいくらいの難易度だったんだなとか、50点付近の点数をとった人が一番多いんだなとか、そういうことを思い浮かべるのではないでしょうか。たしかに、50人中全員が50点をとったテストであれば、それは正しいでしょう。

その一方で、50人中25人が100点をとり、残り25人が0点だったテストの平均点もまた50点なのです。この場合、50点付近をとった人は誰ひとりとしていません。同じ平均点50点でも、その実体は全く違います

言われてみれば確かにそうだと思えることです。しかし平均といわれると、あたかもその数字が最もその実体を表している数字だと思い込んでいないでしょうか。私は完全に思い込んでいました。

この話は「とある弁当屋の統計技師」でも触れられている内容でした。そのときは「そんなものか」程度にしか思っていなかったのですが、「この世で一番おもしろい統計学」を読んで、ようやくその意味するところを理解できたような気がします。

統計で推定できるのは、あくまで母集団における平均値なのです。それがすなわち母集団の実体を表していると思い込むのは早計でしょう。

まとめ

統計はあくまで、母集団についての推定をしているにすぎません。求められた数値はあくまで母平均であって、母集団のデータが、どのような形をしているかまでは分かりません。本当にその母平均の値が、もっとも多く出現している値なのか、誰も確実なことは言えないのです。

あくまで分かるのは、平均がそこにあるのが確からしいということだけ。問題は、その平均がどのくらいの信頼性でそこにあると言えるのかということでしょう。

その際に忘れてはいけないのは、その数字は誰が、どこから、何のために持ってきたものなのかに疑問を持つことです。抽出されたデータは無作為に抽出されたものなのかどうか。偏ったデータから推定されたデータは、誤っている可能性も高くなるからです。

誰が何のために導き出した数字なのか。もしかしたら、その人が言いたい結論を強めるために、都合のいい形にデータが歪められている可能性があるかもしれないと疑うということ。統計のおおまかな仕組みを理解し、数字を鵜呑みにしないということが大切です。

新聞などで数字を見ても、それを鵜呑みにせず、どうやって調べられた数字なのか、サンプルはどうやって集めたのか、バイアスがかかっていないか、何のために集められた数字なのか。導き出された結論はどの程度信頼できるのか。また、平均の数字をそのまま受け取らず、実際のデータとは乖離している可能性を忘れないようにしたいですね。

ご意見ご感想はこちらまで

関連記事