Kuina-chan

くいなちゃん2018年09月24日


6さいからの数学」第9話では、「確率」について説明します!

確率と積分

確率かくりつ」というものは、ここで改めて説明するまでもなく日常的に使われていて、例えばコインの表が出る確率は1,slash,2とか、サイコロの5が出る確率は1,slash,6などと理解していることだと思います。
しかし特に無限大が絡んでくると、直感的な定義では本当に正しい確率が求まっているのかが判らなくなることがあります。 そこで現代の数学では、第8回で説明した「測度」や「ルベーグ積分」を使って確率を定義することで、直感から離れて厳密に計算できるようになっています。

素朴な確率の定義

まずは測度を使わない、素朴な確率の定義を示します。
まず、発生しうる結果を「標本ひょうほん」といい、標本全体の集合を「標本空間ひょうほんくうかん」といいます。 例えばサイコロを振る場合、標本は「1,comma,2,comma,3,comma,4,comma,5,comma,6」です。 また標本空間をtlomegaで表すと、tlomega,eq,bcl,1,comma,2,comma,3,comma,4,comma,5,comma,6,bcrとなります。
このうち例えば「サイコロを振って偶数が出る確率」を考えたときには、確率の対象は「サイコロの目が246の場合」となりますが、当然これは標本空間の部分集合になります。 このような標本空間の部分集合のことを「事象じしょう」といいます。 この例では事象をl_aとするとl_a,eq,bcl,2,comma,4,comma,6,bcrと書けます。
以上を元に、確率を素朴な確率の定義のように定義します。
 どの標本が発生することも同程度に確からしいとき、事象l_a,subset,tlomegaの確率l_p,pl,l_a,prは、l_p,pl,l_a,pr,eq,abs,l_a,abs,div,abs,tlomega,absである。 ただし、abs,l_a,abs,comma,abs,tlomega,absとは、それぞれl_a,comma,tlomegaの要素数とする。
素朴な確率の定義
例えばサイコロを振って偶数が出る確率は、「1,comma,2,comma,3,comma,4,comma,5,comma,6」のどの標本が発生することも同程度に確からしいとすると、abs,tlomega,abs,eq,abs,bcl,1,comma,2,comma,3,comma,4,comma,5,comma,6,bcr,abs,eq,6abs,l_a,abs,eq,abs,bcl,2,comma,4,comma,6,bcr,abs,eq,3より、l_p,pl,l_a,pr,eq,abs,l_a,abs,div,abs,tlomega,abs,eq,3,div,6,eq,1_div_2です。
しかしこの定義では、例えばサイコロを何回振るか判らないときに、無限回を考慮する必要が出てabs,tlomega,absが無限大になって計算できなかったり、また「どの標本が発生することも同程度に確からしいとき」以外の確率が計算できないという問題があります。

測度論による確率の定義

そこで、測度を使ってここまでの定義を一般化します。 結局確率とは、0から1の区間のうちどれだけを占めるかという長さの問題になりますので、測度や積分の話に還元できることになります。
測度を使った確率の定義は測度論による確率の定義の通りです。
 測度空間pl,tlomega,comma,dlf,comma,l_p,prにおいて、l_p,pl,tlomega,pr,eq,1であるとき、pl,tlomega,comma,dlf,comma,l_p,prを確率空間と呼び、l_pを確率と呼ぶ。
測度論による確率の定義
よく解らないと思いますので、第8回で説明した測度をおさらいしつつ補足します。 サイコロを振って偶数が出る確率を求めてみましょう。
まず測度空間pl,tlomega,comma,dlf,comma,l_p,prとは、任意の集合「tlomega」と、測れる仕組みを整えたsigma-代数「dlf」と、それらに対して測り方を定めた測度「l_p」を一組にしたものでした。
ここで集合tlomegaは、標本空間としておきます。 サイコロの場合、tlomega,eq,bcl,1,comma,2,comma,3,comma,4,comma,5,comma,6,bcrです。
sigma-代数dlfは多くの場合、tlomegaのすべての事象を集めた集合とします。 つまりサイコロの場合、dlf,eq,bcl,empty,comma,bcl,1,bcr,comma,bcl,2,bcr,comma,dots,comma,bcl,6,bcr,comma,bcl,1,comma,1,bcr,comma,bcl,1,comma,2,bcr,comma,dots,comma,bcl,1,comma,2,comma,3,comma,4,comma,5,comma,6,bcr,bcrのようになります。
測度l_pは、sigma-代数の任意の部分集合に対し、長さを返す関数です。 l_p,pl,bcl,1,comma,4,bcr,prなどとすると何らかの長さを返すイメージです。
また先ほどの定義に「l_p,pl,tlomega,pr,eq,1であるときl_pを確率と呼ぶ」とありますが、これは確率として当然のことで、各標本の確率を全部合わせると1であることを意味しています。 例えば、素朴な確率の定義で示した「l_p,pl,l_a,pr,eq,abs,l_a,abs,div,abs,tlomega,abs」は、abs,tlomega,abs,neq,0である限り、l_p,pl,tlomega,pr,eq,abs,tlomega,abs,div,abs,tlomega,abs,eq,1となりますので一つの確率だといえます。
測度空間pl,tlomega,comma,dlf,comma,l_p,prがあれば、実際に確率が求まります。 例えばサイコロを振って偶数が出る確率を求めたい場合、sigma-代数dlfの部分集合bcl,2,comma,4,comma,6,bcrに対し、l_p,pl,bcl,2,comma,4,comma,6,bcr,prを計算すれば求まるという流れです。
l_p,pl,l_a,prの定義を工夫すると、「どの標本が発生することも同程度に確からしい」とはいえない場合の確率も定義できます。 例えば、l_a6が属しているときにはl_p,pl,l_a,pr,eq,1、属していないときにはl_p,pl,l_a,pr,eq,0と定義することで、「必ず6が出るサイコロの確率」といったものも定義できます。

測度空間の厳密な定義

ここまで測度空間pl,tlomega,comma,dlf,comma,l_p,prの概要だけを説明して進めてきましたが、最後にもう少し厳密な定義を示しておきます。 今は理解する必要はありませんが、雰囲気は掴んで頂けたらと思います。
まず、sigma-代数dlfの定義はシグマ代数の定義の通りです。
 集合tlomegaに対し、集合dlfが以下を満たすとき、dlfsigma-代数という。
  1. tlomega,in,dlf
  2. l_a,in,dlfならばl_a,sup_c,in,dlf
  3. l_a,sub_1,comma,l_a,sub_2,comma,dots,in,dlfならばl_a,sub_1,cup,l_a,sub_2,cup,dots,in,dlf
シグマ代数の定義
なおl_a,sup_cとは、tlomegaのうちl_aに含まれていない部分を意味し、l_aの「補集合ほしゅうごう」と呼びます。 例えば、tlomega,eq,bcl,1,comma,2,comma,3,bcr,comma,l_a,eq,bcl,1,bcrのとき、l_a,sup_c,eq,bcl,2,comma,3,bcrです。
前述の通り、「tlomegaのすべての事象を集めた集合」はこの定義を満たすため、sigma-代数になります。
次に、測度の定義は測度の定義の通りです。
 集合tlomegasigma-代数dlfに対し、関数l_pが以下を満たすとき、l_pを測度という。
  1. l_p,pl,empty,pr,eq,0
  2. l_a,in,dlfならば0,le,l_p,pl,l_a,pr,le,inf
  3. l_a,sub_1,comma,l_a,sub_2,comma,dots,in,dlfで、任意のn,comma,m(ただしn,neq,m)に対しl_e,sub_n,cap,l_e,sub_m,eq,emptyならば、l_p,pl,l_e,sub_1,cup,l_e,sub_2,cup,dots,pr,eq,l_p,pl,l_e,sub_1,pr,add,l_p,pl,l_e,sub_2,pr,add,dots
測度の定義
前述の通り、特にl_p,pl,tlomega,pr,eq,1を満たすとき、l_pを確率といいます。

確率の主な性質

さて、確率の主な性質について説明します。

条件付き確率

まずサイコロを2回振る場合の確率を考えます。
1回目にxの目が出て2回目にyの目が出ることを「pl,x,comma,y,pr」のように表すことにすると、標本空間はすべてのパターンを網羅してtlomega,eq,bcl,pl,1,comma,1,pr,comma,pl,1,comma,2,pr,comma,dots,comma,pl,1,comma,6,pr,comma,pl,2,comma,1,pr,comma,pl,2,comma,2,pr,comma,dots,comma,pl,6,comma,6,pr,bcrと表せます。
このとき、「1回目に5が出る事象」をl_aとし、「2回目に偶数が出る事象」をl_bとすると、それぞれの確率l_p,pl,l_a,pr,comma,l_p,pl,l_b,prはすべての組み合わせを網羅して2つのサイコロの確率のように表されます。
2つのサイコロの確率
2つのサイコロの確率
すべての組み合わせは3,6通りあり、そのうちl_a6通り、l_b1,8通りですので、l_p,pl,l_a,pr,eq,1,slash,6l_p,pl,l_b,pr,eq,1,slash,2となります。
このとき、「l_aが起こってl_bが起こる事象」を「l_b,abs,l_a」と表すと、そのときの確率l_p,pl,l_b,abs,l_a,pr、つまり「1回目に5が出て2回目に偶数が出る確率」は2つのサイコロの条件付き確率のようになります。
2つのサイコロの条件付き確率
2つのサイコロの条件付き確率
このようにl_aが起こってl_bが起こる確率l_p,pl,l_b,abs,l_a,prは、「既にl_aが起こった」と考えてl_aの確率を1に引き延ばすことにより、l_p,pl,l_b,abs,l_a,pr,eq,l_p,pl,l_a,cap,l_b,pr,div,l_p,pl,l_a,prで計算できます。

独立

サイコロの場合は、1回目に何が出ても「2回目に偶数が出る確率」は変わりませんが、例えば「1組のトランプから2回カードを抜き取って両方ともハートである確率」を考えると、1回目に抜き取ったカードは2回目には無くなるため、1回目に起こった結果が2回目の確率に影響を与えることになります。
サイコロの例のように、事象l_aと事象l_bが互いの確率に影響を与えない場合、l_al_bは互いに「独立どくりつ」であるといいます。
数式で表すと、独立とは先ほどのl_p,pl,l_b,abs,l_a,pr,eq,l_p,pl,l_a,cap,l_b,pr,div,l_p,pl,l_a,prの式にl_p,pl,l_b,abs,l_a,pr,eq,l_p,pl,l_b,prを代入し、独立の定義のように定義されます。
 2つの事象l_a,comma,l_bと確率l_pにおいて、l_p,pl,l_a,cap,l_b,pr,eq,l_p,pl,l_a,pr,mul,l_p,pl,l_b,prであるとき、l_al_bは互いに独立であるという。
独立の定義

加法定理

また、確率の主要な定理として加法定理があります。
 事象l_a,comma,l_bに対し、l_p,pl,l_a,cup,l_b,pr,eq,l_p,pl,l_a,pr,add,l_p,pl,l_b,pr,sub,l_p,pl,l_a,cap,l_b,prが成り立つ。
加法定理
l_p,pl,l_a,pr,add,l_p,pl,l_b,pr」はl_al_bの重複部分の確率が2回計上されているため、その部分の確率l_p,pl,l_a,cap,l_b,prを引いたものがl_p,pl,l_a,cup,l_b,prと一致するイメージです。

確率変数と期待値

確率変数

さて、ここからは標本に対して何らかの値が定まっているケースについて扱います。 例えば、サイコロを振って奇数が出たら1,0,0円、偶数が出たら5,0,0円のお金が貰えるとしたとき、標本に対して値を返す関数f確率変数のようになります。
 標本空間tlomega,eq,bcl,1,comma,2,comma,3,comma,4,comma,5,comma,6,bcrと、標本omega,in,tlomegaに対し、
 omega,eq,1,comma,3,comma,5のとき、f,pl,omega,pr,eq,1,0,0
 omega,eq,2,comma,4,comma,6のとき、f,pl,omega,pr,eq,5,0,0
確率変数
このfのように、各標本に対して決まった実数を返す関数を、「確率変数かくりつへんすう」といいます。 名前に「変数」と付いていてややこしいですが、基本的に関数と考えてください。

分布関数

一方、確率変数に対してそれが起こる確率を返す関数を、「分布関数ぶんぷかんすう」といい、それぞれの確率を「分布ぶんぷ」といいます。
例えば「サイコロを振って奇数が出たら1,0,0円、偶数が出たら5,0,0円のお金が貰える」という場合、このときの分布関数をmuとすると、それぞれの分布はmu,pl,1,0,0,pr,eq,1_div_2,comma,mu,pl,5,0,0,pr,eq,1_div_2となります。
X軸を確率変数の値とし、Y軸を確率として、分布関数を図示すると、確率がどのように「分布」しているかが把握しやすくなります(図示された分布)。
図示された分布
図示された分布

期待値

それでは、「サイコロを振って奇数が出たら1,0,0円、偶数が出たら5,0,0円のお金が貰える」という例を考えた場合、いくらぐらい貰えそうだと「期待」することが妥当でしょうか。
一つの方法としては、1_div_2の確率で1,0,0円が貰え、残りの1_div_2の確率で5,0,0円が貰えるため、確率で重み付けした平均を計算して、1_div_2,mul,1,0,0,add,1_div_2,mul,5,0,0,eq,3,0,0円くらいだと考えることができそうです。
このような方法で計算される値を、「期待値きたいち」といいます。 例えばサイコロを振って、3以下が出たら1,0,0円、45が出たら3,0,0円、6が出たら6,0,0円が貰えるとき、期待値は3,slash,6,mul,1,0,0,add,2,slash,6,mul,3,0,0,add,1,slash,6,mul,6,0,0,eq,2,5,0円となります。
これは図で表すと、第8回で説明した積分と同じであることが判ります(期待値と積分)。
期待値と積分
期待値と積分
よって厳密には、期待値は期待値の定義のように積分を使って定義されています。
 標本空間tlomega、標本omega,in,tlomega、確率変数l_x、確率l_pに対し、int,sub_tlomega,abs,l_x,pl,omega,pr,abs,d,l_p,pl,omega,pr,lt,infのとき、期待値l_e,pl,l_x,prl_e,pl,l_x,pr,eq,int,sub_tlomega,l_x,pl,omega,pr,d,l_p,pl,omega,prと定義する。 また、l_xが負にならない関数でint,sub_tlomega,l_x,pl,omega,pr,d,l_p,pl,omega,pr,eq,infのとき、l_e,pl,l_x,pr,eq,infと定義する。
期待値の定義
このように積分を使うことで、無限がかかわる場合にも計算できるようになります。

分散

1,slash,1,0,0の確率で1,0,comma,0,0,0円が貰え、それ以外では貰えない」という場合と、「必ず1,0,0円貰える」という場合とでは、期待値は両方とも1,0,0円で同じですが、貰え方にはばらつきがあります。
そこで、このばらつきを数式で表します。 「期待値との差の二乗を平均したもの」で計算し、これを「分散ぶんさん」といいます。
例えば、「1,slash,1,0,0の確率で1,0,comma,0,0,0円が貰え、それ以外では貰えない」場合の分散を計算すると、期待値は1,0,0ですので、「pl,1,slash,1,0,0,pr,mul,pl,1,0,0,0,0,sub,1,0,0,pr,sup_2,add,pl,9,9,slash,1,0,0,pr,mul,pl,0,sub,1,0,0,pr,sup_2,eq,9,9,0,0,0,0」となります。
「必ず1,0,0円貰える」場合の分散を計算すると、「1,mul,pl,1,0,0,sub,1,0,0,pr,sup_2,eq,0」となります。
このように分散を計算することで、ばらつきの大きさが分かります。 厳密に書くと、分散は分散の定義のように定義されます。
 確率変数l_xに対し、期待値l_eとすると、分散l_v,pl,l_x,prl_v,pl,l_x,pr,eq,l_e,pl,pl,l_x,sub,l_e,pl,l_x,pr,pr,sup_2,prと定義する。
分散の定義

大数の法則

「サイコロを振って6が出たら1,comma,2,0,0円、それ以外なら6,0,0円のお金が貰える」という場合を繰り返すと、1,comma,2,0,0円が貰えたり6,0,0円が貰えたりしますが、何度も繰り返すうちに貰えた額の平均は期待値の7,0,0円に近づいていくことが分かります。
実際に1,comma,0,0,0,comma,0,0,0回試したところ、繰り返し試行した結果のようになりました。
繰り返し試行した結果
回数 平均
1 1,2,0,0
1,0 7,2,0
1,0,0 7,1,4
1,0,0,0 6,8,5,dot,8
1,0,0,0,0 6,9,8,dot,1,6
1,0,0,0,0,0 7,0,0,dot,2,5,4
1,0,0,0,0,0,0 7,0,0,dot,1,4,4,8
貰えた額の平均が期待値の「7,0,0」に近づくことが分かると思います。
このように、試行回数を繰り返すと平均が期待値に近づくという現象を「大数たいすう法則ほうそく」といいます。
正確には「大数の法則」には2種類あり、多くのケースに適用できる「大数たいすう弱法則じゃくほうそく」と、特定のケースにしか適用できない代わりにより強い形で表される「大数たいすう強法則きょうほうそく」があります。
「大数の弱法則」は大数の弱法則のように定義されます。
 確率変数の列bcl,l_x,sub_1,comma,l_x,sub_2,comma,dots,comma,l_x,sub_n,bcrがあり、任意のepsilon,gt,0に対して、lim_n_inf,l_p,pl,abs,pl,l_x,sub_1,add,l_x,sub_2,add,dots,add,l_x,sub_n,pr,slash,n,sub,m,abs,gt,epsilon,pr,eq,0が成り立つとき、「大数の弱法則」が成り立つという。
大数の弱法則
式で表すと難しそうですが、平たく言うと大数の弱法則とは「試行を増やすと、平均と期待値に差がある確率が限りなく0に近づく」ことを意味します。 つまり平均はどんどん期待値に近づくニュアンスですが、あくまで近づいているのはそうなるという確率である点に注意してください。
そこでもっと素直に「平均は限りなく期待値に近づく」と言えないかと考え、大数の強法則が現れました。 「大数の強法則」は大数の強法則のように定義されます。
 確率変数の列bcl,l_x,sub_1,comma,l_x,sub_2,comma,dots,comma,l_x,sub_n,bcrがあり、l_p,pl,lim_n_inf,pl,l_x,sub_1,add,l_x,sub_2,add,dots,add,l_x,sub_n,pr,slash,n,eq,m,pr,eq,1が成り立つとき、「大数の強法則」が成り立つという。
大数の強法則
平たく言うと大数の強法則とは「試行を増やすと平均が期待値に限りなく近づく確率が1」であることを意味します。
そして「大数の弱法則」と「大数の強法則」は、確率変数の列によって成り立ったり成り立たなかったりします。 比較的よく使われる定理としては、大数の弱法則が成り立つ条件があります。
 互いに独立で分布が同じ確率変数の列bcl,l_x,sub_1,comma,l_x,sub_2,comma,dots,comma,l_x,sub_n,bcrがあり、いずれの分散もinfでないとき、「大数の弱法則」が成り立つ。
大数の弱法則が成り立つ条件
例えば「サイコロを振って6が出たら1,comma,2,0,0円、それ以外なら6,0,0円のお金が貰える」という試行を何度も繰り返した場合を考えると、それぞれの試行は互いに独立で分布が同じで分散が有限なため、「大数の弱法則」が成り立ちます。 つまり、平均はどんどん期待値の7,0,0円に近づくことが数学的に言えます。

統計学

ここまでは、標本空間が分かっているときに、そこにから様々な確率や期待値などを計算してきました。
ここからは、標本空間が分からないときに、実際に起こったいくつかの標本から標本空間を推測する方法について説明します。

母集団と標本

例えば、部品を製造している工場が不良品を作ってしまう確率を計算したいと考えた場合、正確には限りなく多い部品を製造してそのすべてをチェックする必要がありますが、現実には不可能なので製造した部品の一部をチェックしてそこから全体の確率を推測します。
このとき、最終的に推測したい標本空間とその確率変数を含め「母集団ぼしゅうだん」と呼び、推測に使うための実際のデータの集まりを「標本ひょうほん」といいます。 つまり例では、無限個の部品が「母集団」で、実際にチェックする一部の部品が「標本」です。
そして標本から母集団を推測することを「推定すいてい」といい、母集団が直接調べられないときに様々な分野で活用されています。 普通は、標本は偏らないようにできるだけ無作為に選びます。

平均と分散

母集団や標本を扱う分野では、期待値のことは「平均へいきん」と呼びます。 そして母集団における平均は「母平均ぼへいきん」、標本における平均は「標本平均ひょうほんへいきん」といいます。
また、母集団における分散は「母分散ぼぶんさん」、標本における分散は「標本分散ひょうほんぶんさん」といいます。
それでは、標本から母平均や母分散を推定してみましょう。

点推定と区間推定

標本平均や標本分散から母平均や母分散を推定するには、「点推定」と「区間推定」の2つの方法があります。
点推定てんすいてい」とは、標本平均や標本分散などの既知の値から、母集団の未知の値を推定する方法です。
選ばれる標本によって標本平均や標本分散にはばらつきがありますが、それらの標本平均や標本分散の平均が母集団の値になるようにし、そして標本平均や標本分散の分散が最小になるように計算すると、母集団に近い値が推定できるようになりそうです。 このような式を計算すると、不偏推定量のようになります。
 標本の値をx,eq,bcl,x,sub_1,comma,x,sub_2,comma,dots,comma,x,sub_n,bcrとし、それらの平均をx_bar、分散をl_v,pl,x,prとすると、母平均l_e,pl,x,prl_e,pl,x,pr,eq,x_barで推定できる。 また母分散l_u,pl,x,prl_u,pl,x,pr,eq,l_v,pl,x,pr,mul,pl,n,slash,pl,n,sub,1,pr,prで推定できる。
不偏推定量
例えば、学校で1,comma,0,0,0人にテストを行ったとして、そこから無作為に1,0人分を抜き出して平均と分散を計算したところ、平均は6,0点、分散は1,8,0になったとします。 すると先ほどの式より、1,comma,0,0,0人全員の平均は6,0点、分散は1,8,0,mul,pl,1,0,slash,pl,1,0,sub,1,pr,pr,eq,2,0,0と推定できます。
この点推定に対し、「区間推定くかんすいてい」とは、未知の母集団の値がどの区間にあるかを推定する方法です。 既知の標本の値と「信頼度しんらいど」という値を元に、母集団の値が存在する区間が得られます。 信頼度が高いほど得られた区間に母集団の値が入る確率が高くなりますが、区間の幅も大きくなります。
例えば、無作為に選んだ1,0人分のテストの結果から、信頼度を0,dot,9,5として学校全体での平均点を区間推定すると、5,4,dot,6点以上6,5,dot,4点以下などの区間が得られるというイメージです。 この例の場合、信頼度で与えた0,dot,9,5の確率で、母平均がこの区間にあることになります。
また推定のほか、標本を元にある結論が言えるかどうかを判断する方法として「検定けんてい」というものがあります。 例えば、「コインを1,0回投げると9回が表だったとき、これは偶然ではなくコインが歪んでいると言えるか」といった場面で検定が使えます。
今回は、確率について説明しました。 次回は、複数の数をひとまとめにする「ベクトル」と「行列」について解説します!
1537761883jaf