Cleveland0714’s blog

ほんとうは何かご存知ですか

文系プランクトンによる確率論の実況中継#2

前回の記事からかなり二回授業が進んでしまったので、二回分を雑に書いていきま~す

 

さて、最初に出てきたのは条件付確率。

高校の数学でもおなじみのものですね。

 

 

まずは定義から。

Ωの事象A,Bに関して、P(A)>0とする。この時、P(A⋂B)/P(A)をP(B|A)とあらわし

「Aが起きたもとでのBが起こる条件付確率」という。

らしい。

 

まあ、AもBも起こった確率をAが起こった確率で割れば、「Aが起きた下でのBが起こる条件付確率」が出てくるのは理解できるでしょう。

 

ここでP(A)>0となっているのは、分母が0になって割り算ができなくなることを避ける為ですね。

 

ポリアの壺が例として取り上げられてたんですが、解説はだるいんでこの辺を読んでください

www.compassare.org

 

さて、次は「独立」の概念です

 

定義

「AとBが独立」とは、P(A⋂B)=P(A)×P(B)が成立することをいう。

 

別の言い方をすれば、P(B)=P(B|A)ともいえる。しかし、こちらではP(A)>0という条件が必要になってしまいます。

それはなぜか。

先ほどの条件付確率の定義に戻るとすぐにわかります。

Aが起こったという条件のもとBが起こる確率P(B|A)とはP(A⋂B)/P(A)なのでした。

先ほども書いたように、ここで0で割り算をしてしまうのを避けるためにP(A)>0の条件が導入されていました。

これがここでも効いているだけですね!

 

この条件追加を避けるために一つ目の定義の仕方で行われることが多いようです。

一つ目の定義の方だとP(A)=0でも独立の定義が可能になりますからね!

 

さて、今見てきたのは事象が2つのとき(先ほどはAとB)でした。

 

事象が3つ以上になっても考え方は同じです。

 

どのような事象の組み合わせを取り出してきたとしても、それらの積集合の確率がそれぞれの集合の確率の積と等しくなっていればよいということでしょう。

 

しかし、ここで、「どのような」事象の組み合わせについてもこれが成り立つことを示すには非常に多くのパターンを調べる必要がありますね。

 

事象がn個あるとすれば、2^n-(n+1)通り調べることが必要ですね。

 

さて、この辺で次に進みましょう。

次はベイズの定理です。

 

最近、ベイズ統計学とかを聞いたことがある人も多いのではないでしょうか。

その関係のやつみたいです。

 

自分が入ろうか考えているゼミはこの辺のことも扱ってた気がするのでいつかちゃんと理解できないといけないんでしょうね(まだ何もわかっていないので)

 

さあ、先ほどのP(B|A)=P(A⋂B)/P(A)において、Aを原因、Bを結果としてとらえます。

 

そもそも条件付確率はAが起こるという条件のもとでBが起こる確率だったので、何となくAが原因、Bが結果になるのもわかるでしょう。

 

Aという原因があったときにBという結果が出てくる確率として考えようぜ!ってことでしょうね。

 

えーっとベイズの定理を書きたいんですけど、書くのがだるいのでこれとかを見てください(雑過ぎか???)

10-4. ベイズの定理 | 統計学の時間 | 統計WEB

 

まあこういうのを使うといろいろ求められて嬉しいんでしょうね。

自分はまだよくわかってないし、使う場面に遭ってないので全然嬉しくないですが

 

さて、次のお話に行きましょう

 

確率変数の期待値です。

期待値も高校数学(文系範囲)で扱っているので誰でも知っているでしょう。

ある値xiを取る確率をp(xi)で定めると、期待値E[x]は

Σ(i=1→n)xi*p(xi)として求められます。

 

各値を取る確率を、その値と掛け合わせ、それを合計すると期待値が出ます。

まあ一応簡単な例を挙げましょうかね。

 

さいころを振って、1が出たら100円、2が出たら200円、3が出たら300円、4が出たら400円、5が出たら500円、6が出たら600円もらえるとしましょう。

ここで、各目が出る確率はそれぞれ1/6で等しいとしましょう。

先ほどの求め方を当てはめれば終わりです。

E[x]=1/6*100+1/6*200+1/6*300+1/6*400+1/6*500+1/6*600=1/6*2100=350

 

よって、このゲームを一回やるならば、350円もらえると見込んでいいと言えるでしょう。

 

この辺の独立の考え方を用いることでベン図を書いて考えていたことが多少簡単に考えられるようになるかもしれません。まあ好みにもよるでしょうが…

 

さて、まだまだ進めていきます。

自然数nと0≦p≦1をみたすPを定めて、

P(x=k)=nCk*P^k(1-p)^(n-k)という確率分布を考える。

このようなxは2項分布B(n,p)に従うという

この時E[x]=n*pとなる。

 

この期待値とかを用いることで分散が求められます。

ただし、分散は単位がもともとのデータで扱っていた単位の2乗になってしまっていて、状況を把握するのが難しくなってしまうという難点があります。

例を考えればわかるのですが、例えば元のデータがテストの点数に関する者だったとしましょう。すると単位は「点」です。

しかし、分散にすると単位が「点^2」となってしまいます。もう何もわかりません。

 

そこで、分散の正の平方根の値を標準偏差と定めます。

ルートを取ることで単位が元に戻り、扱いやすくなりました。

先ほどの例で考えると、テストの点数について標準偏差を取ると、単位が「点」に戻るって感じです。

 

ベイズの定理のあたりで出てきた式はどんどん使っていかないと覚えられそうにないので、どんどん使っていこうと思います。

 

まあざっくりとですが、第2回の授業範囲を見終わりました。

 

もっといろいろやってたはずだけど、記事見たらすかっすかだなぁ

いろいろ飛ばしてしまっている気がしますが気にしたら負けです。

 

また今度、第3回の記事でお会いしましょう。

 

ありがとうございました。