1確率と積分
「確率」というものは、ここで改めて説明するまでもなく日常的に使われていて、例えばコインの表が出る確率は

とか、サイコロの
が出る確率は

などと理解していることだと思います。







しかし特に無限大が絡んでくると、直感的な定義では本当に正しい確率が求まっているのかが判らなくなることがあります。 そこで現代の数学では、第8回で説明した「測度」や「ルベーグ積分」を使って確率を定義することで、直感から離れて厳密に計算できるようになっています。
1.1素朴な確率の定義
まずは測度を使わない、素朴な確率の定義を示します。
まず、発生しうる結果を「標本」といい、標本全体の集合を「標本空間」といいます。 例えばサイコロを振る場合、標本は「









」です。 また標本空間を
で表すと、













となります。



























このうち例えば「サイコロを振って偶数が出る確率」を考えたときには、確率の対象は「サイコロの目が
か
か
の場合」となりますが、当然これは標本空間の部分集合になります。 このような標本空間の部分集合のことを「事象」といいます。 この例では事象を
とすると







と書けます。













以上を元に、確率を図1-1のように定義します。
どの標本が発生することも同程度に確からしいとき、事象が発生する確率
は、
である。 ただし、
とは、それぞれ
の元の数とする。
例えばサイコロを振って偶数が出る確率は、「









」のどの標本が発生することも同程度に確からしいとすると、



















、













より、
















です。

































































しかしこの定義では、例えばサイコロを何回振るか判らないときに、無限回を考慮する必要が出て

が無限大になって計算できなかったり、また「どの標本が発生することも同程度に確からしいとき」以外の確率が計算できないという問題があります。



1.2測度論による確率の定義
そこで、測度を使ってここまでの定義を一般化します。 結局確率とは、
から
の区間のうちどれだけを占めるかという「長さ」の問題になりますので、測度や積分の話に還元できることになります。


測度を使った確率の定義は図1-2の通りです。
測度空間において、
であるとき、
を確率空間と呼び、
を確率と呼ぶ。
よく解らないと思いますので、第8回で説明した測度をおさらいしつつ補足します。 サイコロを振って偶数が出る確率を求めてみましょう。
まず測度空間





とは、任意の集合「
」と、測れる仕組みを整えた
-代数「
」と、それらに対して測り方を定めた測度「
」を一組にしたものでした。











ここで集合
は、標本空間としておきます。 サイコロの場合、













です。


































































測度
は、
-代数の任意の部分集合に対し、長さを返す関数です。 






などとすると何らかの長さを返すイメージです。










また先ほどの定義に「




であるとき
を確率と呼ぶ」とありますが、これは確率として当然のことで、各標本の確率を全部合わせると
であることを意味しています。 例えば、素朴な確率の定義で示した「










」を測度と考えると、



である限り












となりますので一つの確率だといえます。







































測度空間





があれば、実際に確率が求まります。 例えばサイコロを振って偶数が出る確率を求めたい場合、
-代数
の部分集合





に対し、








を計算すれば求まるという流れです。













































1.3測度空間の厳密な定義
ここまで測度空間





の概要だけを説明して進めてきましたが、最後にもう少し厳密な測度空間の定義を示しておきます。 今は理解する必要はありませんが、雰囲気は掴んで頂けたらと思います。







まず、
-代数
の定義は図1-3の通りです。


集合に対し、
の部分集合全体の集合を
とするとき、その部分集合
が以下を満たすとき、
を
-代数という。
ならば
ならば
なお
とは、
のうち
に含まれていない部分を意味し、
の「補集合」と呼びます。 例えば、













のとき、






です。




























前述の通り、「
のすべての事象を集めた集合」はこの定義を満たすため、
-代数になります。


次に、測度の定義は図1-4の通りです。
集合、
-代数
に対し、関数
が以下を満たすとき、
を測度という。
ならば
で、任意の
(ただし
)に対し
ならば、
前述の通り、特に




を満たすとき、
を確率といいます。







2確率の主な性質
さて、確率の主な性質について説明します。
2.1条件付き確率
まずサイコロを
回振る場合の確率を考えます。





















































このとき、「
回目に
が出る事象」を
とし、「
回目に偶数が出る事象」を
とすると、それぞれの確率







はすべての組み合わせを網羅して図2-1のように表されます。















すべての組み合わせは
通りあり、そのうち
は
通り、
は
通りですので、











、












となります。


































このとき、「
が起こって
が起こる事象」を「

」と表すと、そのときの確率




、つまり「
回目に
が出て
回目に偶数が出る確率」は図2-2のようになります。















このように
が起こって
が起こる確率




は、「既に
が起こった」と考えて
の確率を
に引き延ばすことにより、
















で計算できます。





























2.2独立
サイコロの場合は、
回目に何が出ても「
回目に偶数が出る確率」は変わりませんが、例えば「
組のトランプから
回カードを抜き取って両方ともハートである確率」を考えると、
回目に抜き取ったカードが
回目には無くなっているため、
回目に起こった結果が
回目の確率に影響を与えることになります。








サイコロの例のように、事象
と事象
が互いの確率に影響を与えない場合、
と
は互いに「独立」であるといいます。




2.3加法定理
また、確率の主要な定理として図2-3があります。
事象に対し、
が成り立つ。
「







」は
と
の重複部分の確率が2回計上されているため、その部分の確率




を引いたものが




と一致するイメージです。 例えば、「サイコロの
以下または奇数が出る確率」
「
以下が出る確率」
「奇数が出る確率」
「
以下かつ奇数が出る確率」です。





























3確率変数と期待値
3.1確率変数
さて、ここからは標本に対して何らかの値が定まっているケースについて扱います。 例えば、サイコロを振って奇数が出たら

円、偶数が出たら

円のお金が貰えるとしたとき、標本に対して値を返す関数
は図3-1のようになります。







標本空間と、標本
に対し、
のとき、
のとき、
この
のように、各標本に対して決まった実数を返す関数を、「確率変数」といいます。 名前に「変数」と付いていてややこしいですが、基本的に関数と考えてください。

3.2分布関数
一方、確率変数の値に対してそれが起こる確率を返す関数を、「分布関数」といい、それぞれの確率を「分布」といいます。 例えば「サイコロを振って奇数が出たら

円、偶数が出たら

円のお金が貰える」という場合、このときの分布関数を
とすると、それぞれの分布は















となります。
























X軸を確率変数の値とし、Y軸を確率として、分布関数を図示すると、確率がどのように「分布」しているかが把握しやすくなります(図3-2)。

3.3期待値
それでは、「サイコロを振って奇数が出たら

円、偶数が出たら

円のお金が貰える」という例を考えた場合、いくらぐらい貰えそうだと「期待」することが妥当でしょうか。






一つの方法としては、
の確率で

円が貰え、残りの
の確率で

円が貰えるため、確率で重み付けした平均を計算して、













円くらいだと考えることができそうです。























このような方法で計算される値を、「期待値」といいます。 例えばサイコロを振って、
以下が出たら

円、
か
が出たら

円、
が出たら

円が貰えるとき、期待値は































円となります。














































これは図で表すと、第8回で説明した積分と同じであることが判ります(図3-3)。

よって厳密には、期待値は図3-4のように積分を使って定義されています。
標本空間、標本
、確率変数
、確率
に対し、
のとき、期待値
を
と定義する。 また、
が負にならない関数で
のとき、
と定義する。
数式はややこしいですが、確率で重み付けして面積を求めているだけです。 このように積分を使うことで、無限がかかわる場合にも計算できるようになります。
3.4分散
さて、「



の確率で




円が貰え、それ以外では貰えない」という場合と、「必ず

円貰える」という場合とでは、期待値は両方とも

円で同じですが、貰え方にはばらつきがあります。

















そこで、このばらつきを数式で表すことを考えます。 「期待値との差の二乗を平均したもの」で計算し、これを「分散」といいます。
例えば、「



の確率で




円が貰え、それ以外では貰えない」場合の分散を計算すると、期待値は

ですので、「











































」となります。



























































「必ず

円貰える」場合の分散を計算すると、「












」となります。

















このように分散を計算することで、ばらつきの大きさが分かります。 数式で書くと、分散は図3-5のように定義されます。
確率変数に対し、期待値
とすると、分散
を
と定義する。
3.5大数の法則
「サイコロを振って6が出たら



円、それ以外なら

円のお金が貰える」という場合を繰り返すと、



円が貰えたり

円が貰えたりしますが、何度も繰り返すうちに貰えた額の平均は期待値の

円に近づいていくことが分かります。



















実際に手元で







回試したところ、表3-1のようになりました。









回数 | 平均 |
---|---|
![]() |
![]() ![]() ![]() ![]() |
![]() ![]() |
![]() ![]() ![]() |
![]() ![]() ![]() |
![]() ![]() ![]() |
![]() ![]() ![]() ![]() |
![]() ![]() ![]() ![]() ![]() |
![]() ![]() ![]() ![]() ![]() |
![]() ![]() ![]() ![]() ![]() ![]() |
![]() ![]() ![]() ![]() ![]() ![]() |
![]() ![]() ![]() ![]() ![]() ![]() ![]() |
![]() ![]() ![]() ![]() ![]() ![]() ![]() |
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
貰えた額の平均が期待値の「

」に近づくことが分かると思います。



このように、試行回数を増やすと平均が期待値に近づくという現象を「大数の法則」といいます。
正確には「大数の法則」には2種類あり、多くのケースに適用できる「大数の弱法則」と、特定のケースにしか適用できない代わりにより強い形で表される「大数の強法則」があります。
「大数の弱法則」は図3-6のように定義されます。
確率変数の列とそれらの期待値
があり、任意の
に対して、
が成り立つとき、「大数の弱法則」が成り立つという。
式で表すと難しそうですが、平たく言うと大数の弱法則とは「試行を増やすと、平均と期待値に差がある確率が限りなく
に近づく」ことを意味します。 つまり平均はどんどん期待値に近づくニュアンスですが、あくまで近づいているのはそうなるという確率である点に注意してください。

そこでもっと素直に「平均は限りなく期待値に近づく」と言えないかと考え、大数の強法則が現れました。 「大数の強法則」は図3-7のように定義されます。
確率変数の列とそれらの期待値
があり、
が成り立つとき、「大数の強法則」が成り立つという。
平たく言うと大数の強法則とは「試行を増やすと平均が期待値に限りなく近づく確率が
」であることを意味します。

そして「大数の弱法則」と「大数の強法則」は、それぞれ確率変数の列によって成り立ったり成り立たなかったりします。 成り立つことを示すために比較的よく使われる定理には、図3-8があります。
互いに独立で分布が同じ確率変数の列があり、いずれの分散も
でないとき、「大数の弱法則」が成り立つ。
例えば「サイコロを振って6が出たら



円、それ以外なら

円のお金が貰える」という試行を何度も繰り返した場合を考えると、それぞれの試行は互いに独立で分布が同じで分散が有限なため、「大数の弱法則」が成り立ちます。 つまり、平均はどんどん期待値の

円に近づく(そうならない確率が0に近づく)ことが数学的に言えます。











4統計学
ここまでは、標本空間が分かっているときに、そこから様々な確率や期待値などを計算してきました。
ここからは、標本空間が分からないときに、実際に起こったいくつかの標本から標本空間を推測する方法について説明します。
4.1母集団と標本
例えば、部品を製造している工場が不良品を作ってしまう確率を計算したいと考えた場合、正確には限りなく多い部品を製造してそのすべてをチェックする必要がありますが、現実には不可能なので製造した部品の一部をチェックしてそこから全体の確率を推測します。
このとき、最終的に推測したい標本空間とその確率変数を含め「母集団」と呼び、推測に使うための実際のデータの集まりを「標本」といいます。 つまり例では、無限個の部品が「母集団」で、実際にチェックする一部の部品が「標本」です。
そして標本から母集団を推測することを「推定」といい、母集団が直接調べられないときに様々な分野で活用されています。 普通は、標本は偏らないようにできるだけ無作為に選びます。
4.2平均と分散
母集団や標本を扱う分野では、期待値のことは「平均」と呼びます。 そして母集団における平均は「母平均」、標本における平均は「標本平均」といいます。
また、母集団における分散は「母分散」、標本における分散は「標本分散」といいます。
それでは、標本から母平均や母分散を推定してみましょう。
4.3点推定と区間推定
標本平均や標本分散から母平均や母分散を推定するには、「点推定」と「区間推定」の2つの方法があります。
「点推定」とは、標本平均や標本分散などの既知の値から、母集団の未知の値を推定する方法です。
選ばれる標本によって標本平均や標本分散にはばらつきがありますが、それら複数の標本平均の平均や標本分散の平均が母集団の値と一致するようにし、そしてそれら複数の標本平均の分散や標本分散の分散は最小になるように計算すると、母集団に近い値が推定できるようになりそうです。 このような式を作って計算していくと、最終的に図4-1の式が得られます。
標本の値をとし、それらの平均を
、分散を
とすると、母平均
は
で推定できる。 また母分散
は
で推定できる。
例えば、学校で



人にテストを行ったとして、そこから無作為に
人分を抜き出して平均と分散を計算したところ、平均は
点、分散は

になったとします。 すると先ほどの式より、



人全員の平均は
点、分散は

















と推定できます。






































この点推定に対し、「区間推定」とは、未知の母集団の値がどの区間にあるかを推定する方法です。 既知の標本の値と、自由に決めた「信頼度」という値を元に、母集団の値が存在しそうな区間が得られます。 信頼度が高いほど得られた区間に母集団の値が入る確率が高くなりますが、区間の幅も大きくなります。
例えば、無作為に選んだ
人分のテストの結果から、信頼度を


として学校全体での平均点を区間推定すると、


点以上


点以下などの区間が得られるというイメージです。 この例の場合、信頼度で与えた


の確率で、母平均がこの区間にあることになります。


















また推定のほかにも、標本をもとにある結論が言えるかどうかを判断する方法として「検定」というものもあります。 例えば、「コインを
回投げると
回が表だったとき、これは偶然ではなくコインが歪んでいると言えるか」といった場面で検定が使えます。



今回は、確率について説明しました。 次回は、複数の数をひとまとめにする「ベクトル」と「行列」について解説します!