この世で一番おもしろい統計学を読んだ感想
以前、「とある弁当屋の統計技師(データサイエンティスト)」という本を購入しました。 ちょっと統計に興味があったので買ったわけですが、その内容は私が思っていたものとはちょっと違ったわけです。 統計を使ってどのように分析していくのかということが非常に分かりやすく書いてあり、その点は良かったのですが、私は「統計とはこういうものです」という大まかな仕組みが知りたかったのです。 統計とはこういうためのもので、こういう方法で使っていって、こういう点には注意しないといけないぞというようなことが知りたかったのです。 そこでさらに、「この世で一番おもしろい統計学」という本を購入して勉強することにしました。
本書で扱われている内容
本書では、統計について大まかに次の内容について触れられています。
- 標本の集め方、調べ方
- 統計的な推定
- 信頼区間
- 仮説検定
書はこれらの内容を、マンガ形式と少ない文字数で簡潔に語ってくれます。 統計についての大まかな理解を得るにはもってこいの本だと思います。
統計とはなにか
統計とは、一部の標本を使って全体(母集団)について、信頼性のあることをいうことです。
なぜ一部の標本を用いて母集団の推計を行うのか?
それは母集団すべてを調べることはコスト的、労力的、実現可能性的にいって非現実的であり、実質的には不可能だからです。
なぜ標本から統計を使って母集団の分析をするのか
探している母集団は直接観測することができません。 そこで、無作為に抽出した標本を頼りに、推定標本分布を推定します。 推定標本分布とは、このまま無作為に異なる標本を集めていって、標本分布を作ったとしたら描かれるであろう標本平均の分布を言います。
この標本分布は、母集団の平均を中心とした正規分布になることが数学的に証明されているそうです。 そしてそのバラつきは、母集団自体のバラつきより狭くなります。 したがって、標本を調べることで、効率的に母集団の平均を推定することができるのです。
統計では「確実」なことはわからない
標本を使っても母集団について「確実」なことは分かりません。 統計は「最高の推定」をするためのものであって、「確信」するためのものではないのです。
標本は正しい手順で集めたものでなければ、母集団に対する推定を誤ってしまいます。 バイアスがかからないように、常に無作為に抽出して偏りをなくす必要があります。 それは標本の性質の違いが、偶然によるものだけにするためです。
標本を無作為に集めたところで、抽出した標本が母集団と異なる性質になってしまう可能性は否定できません。 しかし、それはあくまで偶然によるものであり、標本数を増やしたり試行回数を増やすことによって、長期的に見れば母集団の性質に近づくと考えられます。
数字に惑わされないために重要なこと
- その数字はどこからきたのか
- 誰が作った数字なのか
- なぜこの数字が作られたのか
これらに気を配ることで、思考を広げる1つの切り口となってくれます。 これは数字を用いてペテンに引っかからないようにすることにも通じます。 数字は嘘をつきませんが、必ずしも実体をそのまま表しているとはいえません。
平均の意味
平均というとその意味は誰もが知っているところでしょう。求め方だってわかります。
平均50点のテストだったといわれた場合、どのようなことを思い浮かべるでしょうか。 可もなく不可もなくちょうどいいくらいの難易度だったんだなとか、50点付近の点数をとった人が一番多いんだなとか、そういうことを思い浮かべるのではないでしょうか。 たしかに、50人全員が50点をとったテストであれば、それは正しいでしょう。
その一方で、50人中25人が100点をとり、残り25人が0点だったテストの平均点もまた50点なのです。 この場合、50点をとった人は誰ひとりとしていません。 同じ平均点50点でも、その実体はまったく違います。
極端な例かもしれません。 しかし平均といわれると、あたかもその数字がもっともその実体を表している数字だと思い込んでいないでしょうか。 私は完全に思い込んでいました。
この話は「とある弁当屋の統計技師」でも触れられている内容でした。 そのときは「そんなものか」程度にしか思っていなかったのですが、「この世で一番おもしろい統計学」を読んで、ようやくその意味するところを理解できたような気がします。
統計で推定できるのは、あくまで母集団における平均値なのです。 平均値と母集団の実体は異なるものです。 母集団の実体を表していると思い込むのは早計でしょう。
まとめ
統計はあくまで、母集団についての推定をしているにすぎません。 求められた数値はあくまで母平均であって、母集団のデータが、どのような形をしているかまでは分かりません。 本当にその母平均の値が、もっとも多く出現している値なのか、誰も確実なことはいえないのです。
あくまで分かるのは、平均がそこにあるのが確からしいということだけです。 全件調査したわけではないけれど、平均がそのあたりであるのは確からしいぞと、統計が導き出すのはそれだけです。
その際に忘れてはいけないのは、その数字は誰が・どこから・何のために持ってきたものなのかに疑問をもつことです。 抽出されたデータは無作為に抽出されたものなのかどうかがとても大事になるのです。 なぜなら、偏ったデータから推定されたデータは、誤っている可能性もまた高くなるからです。
誰が何のために導き出した数字なのか。 もしかしたら、その人が言いたい結論を強めるために、都合のいい形にデータが歪められている可能性があるかもしれないと疑うということ。 統計のおおまかな仕組みを理解し、数字を鵜呑みにしないということが大切です。
新聞などで数字を見てもそれを鵜呑みにしないように気をつけたいです。それはどうやって調べられた数字なのか。サンプルはどうやって集めたのか。バイアスがかかっていないだろうか。何のために集められた数字なのだろうか。そういったことを立ち止まって考えたいです。 導き出された結論はどの程度信頼できるのか。また、平均の数字をそのまま受け取らず、実際のデータとは乖離している可能性を忘れないようにしたいですね。
Amazonのほしいものリストを公開しています。仕事で欲しいもの、単なる趣味としてほしいもの、リフレッシュのために欲しいものなどを登録しています。 寄贈いただけると泣いて喜びます。大したお礼はできませんが、よりよい情報発信へのモチベーションに繋がりますので、ご検討いただければ幸いです。