1確率と積分
「確率」というものは、ここで改めて説明するまでもなく日常的に使われていて、例えばコインの表が出る確率はとか、サイコロのが出る確率はなどと理解していることだと思います。
しかし特に無限大が絡んでくると、直感的な定義では本当に正しい確率が求まっているのかが判らなくなることがあります。 そこで現代の数学では、第8回で説明した「測度」や「ルベーグ積分」を使って確率を定義することで、直感から離れて厳密に計算できるようになっています。
1.1素朴な確率の定義
まずは測度を使わない、素朴な確率の定義を見ていきましょう。
まず、発生しうる結果を「標本」といい、標本全体の集合を「標本空間」といいます。 例えばサイコロを振る場合、標本は「」です。 また標本空間をで表すと、となります。
このうち例えば、「サイコロを振って目がかかの場合」を考えると、これは標本空間の部分集合になります。 このような標本空間の部分集合のことを「事象」といいます。 この例では事象をとするとと書けます。
以上を元に、確率を図1-1のように定義します。
例えばサイコロを振って偶数が出る確率は、「」のどの標本が発生することも同程度に確からしいとすると、、より、です。
しかしこの定義では、例えばサイコロを何回振るか判らないときに、無限回を考慮する必要が出てが無限大になって計算できなかったり、また「どの標本が発生することも同程度に確からしいとき」以外の確率が計算できないという問題があります。
1.2測度論による確率の定義
そこで、測度を使ってここまでの定義を一般化します。 結局確率とは、からの区間のうちどれだけを占めるかという「長さ」の問題になりますので、測度や積分の話に還元できることになります。
測度を使った確率の定義は図1-2の通りです。
よく解らないと思いますので、第8回で説明した測度をおさらいしつつ補足します。 サイコロを振って偶数が出る確率を求めてみましょう。
まず測度空間とは、任意の集合「」と、測れる仕組みを整えた-加法族「」と、それらに対して測り方を定めた測度「」を一組にしたものでした。
ここで集合は、標本空間としておきます。 サイコロの場合、です。
-加法族は多くの場合、のすべての事象を集めた集合とします。 つまりサイコロの場合、のように全パターンを列挙したものになります。
測度は、-加法族の任意の部分集合に対し、長さを返す関数です。 などとすると何らかの長さを返すイメージです。
また先ほどの定義に「であるときを確率と呼ぶ」とありますが、これは確率として当然のことで、各標本の確率を全部合わせるとであることを意味しています。 例えば、素朴な確率の定義で示した「」を測度だとみなすと、となりますので一つの確率だといえます。
測度空間があれば、実際に確率が求まります。 例えばサイコロを振って偶数が出る確率を求めたい場合、-加法族の部分集合に対し、を計算すれば求まるという流れです。 の定義を工夫すると、「どの標本が発生することも同程度に確からしい」とはいえない場合の確率も定義できます。 例えば、にが属しているときには、属していないときにはと定義することで、「必ずが出るサイコロの確率」といったものも定義できます。
2確率の主な性質
さて、確率の主な性質について説明します。
2.1積の法則
まずサイコロを回振って、「回目にが出る場合」と「回目に偶数が出る場合」の確率を考えましょう。
「回目にが出る事象」をとし、「回目に偶数が出る事象」をとします。 すると、それぞれの確率はと求まります。
このとき、「回目にが出て、かつ回目に偶数が出る確率」は、回目に出た目が回目に出る目の確率に影響しないため、図2-1のようにとが重なった部分の面積で求まります。
「」とは、第2回で説明しましたが集合の共通部分のことです。 重なった部分の面積を計算すると、となります。
この例のように、事象と事象が互いの確率に影響を与えない場合、とは互いに「独立」であるといいます。 一般に、独立な事象に対し、とが両方とも起こる確率とは、「」のように確率の掛け算で求まります。
2.2条件付き確率
次に、回目にが出たことが確定した上で、回目に偶数が出る確率の求め方を説明します。
回目にの目が出て回目にの目が出ることを「」のように表すことにすると、標本空間はすべてのパターンを網羅してと表せます。
ここで、「既にが起こったとしてが起こる事象」を「」と表すことにします。 すると、そのときの確率、つまり「既に回目にが出たとして回目に偶数が出る確率」は図2-2のように求まります。
このように、既にが起こったとしてが起こる確率は、「既にが起こった」と考えての確率をに引き延ばすことにより、で計算できます。
サイコロの例では、とが独立だったため、とは一致しましたが、例えば「1組のトランプから2回カードを抜き取って両方ともハートである確率」を考えると、1回目に抜き取ったカードが2回目には無くなっているため、1回目に起こった結果が2回目の確率に影響を与えて、とは一致しません。
2.3ベイズの定理
さて、とは、既にが起こったとしてが起こる確率のことでした。 逆に、既にが起こったとしてが起こる確率を考えてみましょう。 図2-3の問題です。
先ほどのの式を変形させていくと、「」という式が導出できます(図2-4)。
この「」の式を「ベイズの定理」といいます。 このベイズの定理を使って、例題を解きましょう。
を「Xの箱が選ばれる事象」とし、を「赤い玉が選ばれる事象」とします。 すると、はすぐに求まります。
は、Xの箱が選ばれて赤い玉が選ばれる確率と、Yの箱が選ばれて赤い玉が選ばれる確率を合わせたものですので、です。
は、Xの箱が選ばれて赤い玉が選ばれる確率です。 Xの箱には玉がつあり、そのうちつが赤ですので、単純にです。
以上をベイズの定理に代入し、「」が答えです。
2.4加法定理
また、確率の主要な定理として図2-5があります。
「」はとの重複部分の確率が2回計上されているため、その部分の確率を引いたものがと一致するイメージです。 例えば、「サイコロの以下または奇数が出る確率」「以下が出る確率」「奇数が出る確率」「以下かつ奇数が出る確率」です。
3確率変数と期待値
3.1確率変数
さて、ここからは標本に対して何らかの値が定まっているケースについて扱います。 例えば、サイコロを振って奇数が出たら円、偶数が出たら円のお金が貰えるとしたとき、標本に対して値を返す関数は図3-1のようになります。
こののように、各標本に対して決まった実数を返す関数を、「確率変数」といいます。 名前に「変数」と付いていてややこしいですが、基本的に関数と考えてください。
3.2分布関数
一方、確率変数の値に対してそれが起こる確率を返す関数を、「分布関数」といい、それぞれの確率を「分布」といいます。 例えば「サイコロを振って奇数が出たら円、偶数が出たら円のお金が貰える」という場合、このときの分布関数をとすると、それぞれの分布はとなります。
X軸を確率変数の値とし、Y軸を確率として、分布関数を図示すると、確率がどのように「分布」しているかが把握しやすくなります(図3-2)。
3.3期待値
それでは、「サイコロを振って奇数が出たら円、偶数が出たら円のお金が貰える」という例を考えた場合、いくらぐらい貰えそうだと「期待」することが妥当でしょうか。
一つの方法としては、の確率で円が貰え、残りのの確率で円が貰えるため、確率で重み付けした平均を計算して、円くらいだと考えることができそうです。
このような方法で計算される値を、「期待値」といいます。 別の例では、サイコロを振って、以下が出たら円、かが出たら円、が出たら円が貰えるとき、期待値は円となります。
これは図で表すと、第8回で説明した積分と同じであることが判ります(図3-3)。
図のように、期待値は面積と考えることができます。 よって厳密には、期待値は図3-4のように積分を使って定義されています。
数式はややこしいですが、確率で重み付けして面積を求めているだけです。 このように積分を使うことで、無限がかかわる場合にも計算できるようになります。
3.4分散
さて、「の確率で円が貰え、それ以外では貰えない」という場合と、「必ず円貰える」という場合とでは、期待値は両方とも円で同じですが、貰え方にはばらつきがあります。
そこで、このばらつきを数式で表すことを考えます。 「期待値との差の二乗を平均したもの」で計算し、これを「分散」といいます。
例えば、「の確率で円が貰え、それ以外では貰えない」場合の分散を計算すると、期待値はですので、「平均する重み×期待値との差の二乗」を足して、「」となります。
「必ず円貰える」場合の分散を計算すると、「」となります。
このように分散を計算することで、ばらつきの大きさが分かります。 数式で書くと、分散は図3-5のように定義されます。
3.5大数の法則
「サイコロを振って6が出たら円、それ以外なら円のお金が貰える」という場合を繰り返すと、円が貰えたり円が貰えたりしますが、何度も繰り返すうちに貰えた額の平均は期待値の円に近づいていくことが分かります。 実際に手元で回試したところ、表3-1のようになりました。
回数 | 平均 |
---|---|
貰えた額の平均が期待値の「」に近づくことが分かると思います。
このように、試行回数を増やすと平均が期待値に近づくという現象を「大数の法則」といいます。
正確には「大数の法則」には2種類あり、多くのケースに適用できる「大数の弱法則」と、特定のケースにしか適用できない代わりにより強い形で表される「大数の強法則」があります。
「大数の弱法則」は図3-6のように定義されます。
式で表すと難しそうですが、平たく言うと大数の弱法則とは「試行を増やすと、平均と期待値に差がある確率が限りなくに近づく」ことを意味します。 つまり平均はどんどん期待値に近づくニュアンスですが、あくまで近づいているのはそうなるという確率である点に注意してください。
そこでもっと素直に「平均は限りなく期待値に近づく」と言えないかと考え、大数の強法則が現れました。 「大数の強法則」は図3-7のように定義されます。
平たく言うと大数の強法則とは「試行を増やすと平均が期待値に限りなく近づく確率が」であることを意味します。
そして「大数の弱法則」と「大数の強法則」は、それぞれ確率変数の列によって成り立ったり成り立たなかったりします。 成り立つことを示すために比較的よく使われる定理には、図3-8があります。
例えば「サイコロを振って6が出たら円、それ以外なら円のお金が貰える」という試行を何度も繰り返した場合を考えると、それぞれの試行は互いに独立で分布が同じで分散が有限なため、「大数の弱法則」が成り立ちます。 つまり、平均はどんどん期待値の円に近づく(そうならない確率が0に近づく)ことが数学的に言えます。
4統計学
ここまでは、標本空間が分かっているときに、そこから様々な確率や期待値などを計算してきました。
ここからは、標本空間が分からないときに、実際に起こったいくつかの標本から標本空間を推測する方法について説明します。
4.1母集団と標本
例えば、部品を製造している工場が不良品を作ってしまう確率を計算したいと考えた場合、正確には限りなく多い部品を製造してそのすべてをチェックする必要がありますが、現実には不可能なので製造した部品の一部をチェックしてそこから全体の確率を推測します。
このとき、最終的に推測したい全体を「母集団」と呼び、推測に使うためのいくつかのデータの集まりを「標本」と呼びます。 つまり例では、限りなく多い部品が「母集団」で、実際にチェックする部品が「標本」です。
そして標本から母集団を推測することを「推定」といい、母集団が直接調べられないときに様々な分野で活用されています。 普通は、標本は偏らないようにできるだけ無作為に選びます。
4.2平均と分散
母集団や標本を扱う分野では、期待値のことは「平均」と呼びます。 そして母集団における平均は「母平均」、標本における平均は「標本平均」といいます。
また、母集団における分散は「母分散」、標本における分散は「標本分散」といいます。
それでは、標本から母平均や母分散を推定してみましょう。
4.3点推定と区間推定
標本平均や標本分散から母平均や母分散を推定するには、「点推定」と「区間推定」の2つの方法があります。
「点推定」とは、標本平均や標本分散などの既知の値から、母集団の未知の値を推定する方法です。
標本の選ばれ方によって標本平均や標本分散にはばらつきが出てきます。 そこでそれら複数の標本に対し、「標本平均の平均」や「標本分散の平均」が母集団での値と一致するようにし、かつそれらの「標本平均の分散」や「標本分散の分散」が最小になるようにすると、母集団に近づいていきそうです。 このような式を作ると、最終的に図4-1の式が得られます。
例えば、学校で人にテストを行ったとして、そこから無作為に人分を抜き出して平均と分散を計算したところ、平均は点、分散はになったとします。 すると先ほどの式より、人全員の平均は点、分散はと推定できます。
この点推定に対し、「区間推定」とは、未知の母集団の値がどの区間にあるかを推定する方法です。 既知の標本の値と、自由に決めた「信頼度」という値を元に、母集団の値が存在しそうな区間が得られます。 信頼度が高いほど得られた区間に母集団の値が入る確率が高くなりますが、区間の幅も大きくなります。
例えば、無作為に選んだ人分のテストの結果から、信頼度をとして学校全体での平均点を区間推定すると、点以上点以下などの区間が得られるというイメージです。 この場合、信頼度で与えたの確率で、母平均がこの区間にあることを意味します。
また推定のほかにも、標本をもとにある結論が言えるかどうかを判断する方法として「検定」というものもあります。 例えば、「コインを回投げると回が表だったとき、これは偶然ではなくコインが歪んでいると言えるか」といった場面で検定が使えます。
今回は、確率について説明しました。 次回は、複数の数をひとまとめにする「ベクトル」と「行列」について解説します!