【Python】ベイズの定理を実際に試行して確認

by SEBONE · 公開済み 2020年9月3日 · 更新済み 2020年9月3日

Table of Contents

ベイズの定理とは

ある事象について、その原因となる候補（互いに独立）がいくつかあり、それぞれの原因は発生確率を持っているとする。
この時、ある事象が発生したときに、その原因である確率がいくらか、という問題に使用できるのがベイズの定理です。

式としては以下のようになります。

$$P(B \backslash A)=\frac {P(A \backslash B)P(B)} {P(A)}$$

$ P(B \backslash A) $：事象Aの発生後の事象Bの事後確率
$ P(B)$：事象Bの事前確率
$P(A)$：事象Aの発生する確率
$ P(A \backslash B) $：事象Bが発生するという条件下での事象Aの発生確率

具体的な問題

次のような例題を考えてみます。

例題
ある大学の学部における科の割合はA科30%、B科50%、C科20%とする。
この3科の学生がIT系企業に就職する確率はそれぞれ60%、30%、10%である。
ある学生がIT系企業に就職したとき、その学生がB科を専攻していた確率はいくらか。

ベイズの式に当てはめると以下のようになります。

$$P(B \backslash I) = \frac {P(I \backslash B)P(B)} {P(I)}$$

$$ =\frac{0.5\times 0.3}{0.3\times 0.6 + 0.5\times 0.3 +0.2\times 0.1}$$

=0.4285714285714286

Pythonで実際に確認

上記の問題をpythonの中で実際に試行して数字が上記の計算結果になるのか試してみます。

まず、テストデータを作ります。以下のようなダミーデータを作りました。

data.csv

&#36899;&#30058;,&#27663;&#21517;&#65288;&#12459;&#12479;&#12459;&#12490;&#65289;,&#31185;,&#23601;&#32887;&#20808;
1,&#12479;&#12459;&#12471;&#12510;&#12471;&#12507;,A,IT
2,&#12458;&#12459;&#12505;&#12465;&#12531;&#12478;&#12454;,A,IT
3,&#12454;&#12513;&#12495;&#12521;&#12494;&#12522;&#12467;,A,IT
4,&#12490;&#12459;&#12458;&#12459;&#12495;&#12490;,A,IT
5,&#12511;&#12479;&#12522;&#12458;,A,IT
6,&#12514;&#12522;&#12452;&#12461;&#12520;&#12467;,A,IT
7,&#12495;&#12490;&#12452;&#12471;&#12494;,A,IT
8,&#12458;&#12458;&#12527;&#12480;&#12465;&#12531;&#12473;&#12465;,A,IT
9,&#12473;&#12460;&#12494;&#12522;&#12490;,A,IT
10,&#12507;&#12531;&#12468;&#12454;&#12484;&#12461;&#12488;,A,IT
11,&#12516;&#12490;&#12462;&#12495;&#12521;&#12498;&#12487;&#12520;,A,IT
12,&#12516;&#12510;&#12514;&#12488;&#12471;&#12531;&#12516;,A,IT
13,&#12520;&#12471;&#12470;&#12527;&#12450;&#12458;,A,IT
14,&#12498;&#12521;&#12496;&#12516;&#12471;&#12481;&#12456;,A,IT
15,&#12501;&#12472;&#12459;&#12527;&#12456;&#12452;&#12472;,A,IT
16,&#12514;&#12481;&#12485;&#12461;&#12488;&#12514;&#12518;&#12461;,A,IT
17,&#12461;&#12479;&#12450;&#12452;&#12467;,A,IT
18,&#12463;&#12510;&#12460;&#12516;&#12450;&#12461;&#12458;,A,IT
19,&#12452;&#12471;&#12470;&#12461;&#12459;&#12522;&#12531;,A,&#12381;&#12398;&#20182;
20,&#12488;&#12511;&#12490;&#12460;&#12486;&#12523;,A,&#12381;&#12398;&#20182;
21,&#12514;&#12522;&#12471;&#12510;&#12479;&#12525;&#12454;,A,&#12381;&#12398;&#20182;
22,&#12514;&#12522;&#12490;&#12460;&#12510;&#12490;,A,&#12381;&#12398;&#20182;
23,&#12475;&#12531;&#12480;&#12469;&#12458;&#12522;,A,&#12381;&#12398;&#20182;
24,&#12516;&#12510;&#12470;&#12461;&#12518;&#12454;&#12478;&#12454;,A,&#12381;&#12398;&#20182;
25,&#12494;&#12525;&#12518;&#12454;&#12504;&#12452;,A,&#12381;&#12398;&#20182;
26,&#12516;&#12510;&#12454;&#12481;&#12459;&#12531;&#12490;,A,&#12381;&#12398;&#20182;
27,&#12498;&#12499;&#12494;&#12479;&#12459;&#12501;&#12511;,A,&#12381;&#12398;&#20182;
28,&#12511;&#12474;&#12479;&#12491;&#12488;&#12471;&#12498;&#12467;,A,&#12381;&#12398;&#20182;
29,&#12471;&#12460;&#12471;&#12466;&#12518;&#12461;,A,&#12381;&#12398;&#20182;
30,&#12511;&#12459;&#12511;&#12510;&#12522;,A,&#12381;&#12398;&#20182;
31,&#12501;&#12459;&#12452;&#12518;&#12511;,B,IT
32,&#12512;&#12521;&#12458;&#12459;&#12522;&#12456;&#12467;,B,IT
33,&#12495;&#12521;&#12480;&#12450;&#12461;&#12467;,B,IT
34,&#12452;&#12452;&#12480;&#12461;&#12520;&#12467;,B,IT
35,&#12461;&#12495;&#12521;&#12481;&#12498;&#12525;,B,IT
36,&#12479;&#12461;&#12465;&#12531;&#12472;,B,IT
37,&#12452;&#12463;&#12479;&#12501;&#12502;&#12461;,B,IT
38,&#12495;&#12510;&#12480;&#12516;&#12473;&#12518;&#12461;,B,IT
39,&#12472;&#12531;&#12508;&#12479;&#12452;&#12472;,B,IT
40,&#12520;&#12493;&#12463;&#12521;&#12459;&#12484;&#12511;,B,IT
41,&#12459;&#12527;&#12514;&#12488;&#12450;&#12518;,B,IT
42,&#12452;&#12510;&#12452;&#12474;&#12511;&#12459;&#12474;&#12518;&#12461;,B,IT
43,&#12495;&#12483;&#12488;&#12522;&#12510;&#12469;&#12450;&#12461;,B,IT
44,&#12490;&#12460;&#12516;&#12495;&#12523;&#12459;,B,IT
45,&#12456;&#12460;&#12527;&#12459;&#12524;&#12531;,B,IT
46,&#12458;&#12458;&#12452;&#12471;&#12456;&#12452;&#12472;,B,&#12381;&#12398;&#20182;
47,&#12454;&#12456;&#12512;&#12521;&#12512;&#12484;&#12458;,B,&#12381;&#12398;&#20182;
48,&#12459;&#12466;&#12516;&#12510;&#12459;&#12474;&#12498;&#12467;,B,&#12381;&#12398;&#20182;
49,&#12507;&#12522;&#12456;&#12459;&#12474;&#12498;&#12469;,B,&#12381;&#12398;&#20182;
50,&#12510;&#12484;&#12480;&#12511;&#12481;&#12458;,B,&#12381;&#12398;&#20182;
51,&#12459;&#12527;&#12469;&#12461;&#12513;&#12452;,B,&#12381;&#12398;&#20182;
52,&#12479;&#12489;&#12467;&#12525;&#12469;&#12516;&#12459;,B,&#12381;&#12398;&#20182;
53,&#12461;&#12463;&#12481;&#12502;&#12531;&#12452;&#12481;,B,&#12381;&#12398;&#20182;
54,&#12452;&#12481;&#12495;&#12521;&#12450;&#12516;&#12493;,B,&#12381;&#12398;&#20182;
55,&#12479;&#12490;&#12505;&#12467;&#12488;&#12467;,B,&#12381;&#12398;&#20182;
56,&#12469;&#12459;&#12514;&#12488;&#12514;&#12511;&#12472;,B,&#12381;&#12398;&#20182;
57,&#12480;&#12452;&#12527;&#12461;&#12520;&#12467;,B,&#12381;&#12398;&#20182;
58,&#12450;&#12458;&#12516;&#12462;&#12495;&#12523;&#12498;&#12467;,B,&#12381;&#12398;&#20182;
59,&#12511;&#12474;&#12479;&#12491;&#12488;&#12471;&#12458;,B,&#12381;&#12398;&#20182;
60,&#12463;&#12525;&#12461;&#12450;&#12461;&#12467;,B,&#12381;&#12398;&#20182;
61,&#12484;&#12459;&#12514;&#12488;&#12459;&#12484;&#12458;,B,&#12381;&#12398;&#20182;
62,&#12488;&#12511;&#12479;&#12518;&#12490;,B,&#12381;&#12398;&#20182;
63,&#12498;&#12521;&#12460;&#12518;&#12459;,B,&#12381;&#12398;&#20182;
64,&#12452;&#12490;&#12496;&#12465;&#12452;&#12472;,B,&#12381;&#12398;&#20182;
65,&#12471;&#12494;&#12470;&#12461;&#12465;&#12531;&#12473;&#12465;,B,&#12381;&#12398;&#20182;
66,&#12520;&#12471;&#12480;&#12494;&#12494;&#12459;,B,&#12381;&#12398;&#20182;
67,&#12459;&#12527;&#12490;&#12518;&#12461;,B,&#12381;&#12398;&#20182;
68,&#12458;&#12458;&#12514;&#12522;&#12518;&#12485;&#12461;,B,&#12381;&#12398;&#20182;
69,&#12495;&#12471;&#12514;&#12488;&#12511;&#12474;&#12461;,B,&#12381;&#12398;&#20182;
70,&#12516;&#12484;&#12479;&#12522;&#12531;&#12479;&#12525;&#12454;,B,&#12381;&#12398;&#20182;
71,&#12459;&#12511;&#12516;&#12510;&#12473;&#12474;&#12493;,B,&#12381;&#12398;&#20182;
72,&#12458;&#12460;&#12479;&#12459;&#12484;&#12452;&#12481;,B,&#12381;&#12398;&#20182;
73,&#12471;&#12521;&#12459;&#12527;&#12516;&#12473;&#12518;&#12461;,B,&#12381;&#12398;&#20182;
74,&#12471;&#12510;&#12485;&#12518;&#12454;&#12472;,B,&#12381;&#12398;&#20182;
75,&#12510;&#12461;&#12479;&#12452;&#12478;&#12454;,B,&#12381;&#12398;&#20182;
76,&#12452;&#12487;&#12484;&#12493;&#12450;&#12461;,B,&#12381;&#12398;&#20182;
77,&#12501;&#12472;&#12512;&#12521;&#12488;&#12471;&#12518;&#12461;,B,&#12381;&#12398;&#20182;
78,&#12458;&#12458;&#12452;&#12471;&#12479;&#12465;&#12471;,B,&#12381;&#12398;&#20182;
79,&#12458;&#12458;&#12496;&#12459;&#12474;&#12510;,B,&#12381;&#12398;&#20182;
80,&#12454;&#12513;&#12495;&#12521;&#12479;&#12459;&#12501;&#12511;,B,&#12381;&#12398;&#20182;
81,&#12450;&#12460;&#12484;&#12510;&#12465;&#12531;&#12478;&#12454;,C,IT
82,&#12459;&#12527;&#12495;&#12521;&#12520;&#12471;&#12458;,C,IT
83,&#12516;&#12510;&#12490;&#12459;&#12471;&#12519;&#12454;&#12452;&#12481;&#12525;&#12454;,C,&#12381;&#12398;&#20182;
84,&#12473;&#12489;&#12454;&#12510;&#12469;&#12461;,C,&#12381;&#12398;&#20182;
85,&#12484;&#12512;&#12521;&#12527;&#12479;&#12523;,C,&#12381;&#12398;&#20182;
86,&#12456;&#12494;&#12514;&#12488;&#12522;&#12459;,C,&#12381;&#12398;&#20182;
87,&#12512;&#12459;&#12452;&#12498;&#12487;,C,&#12381;&#12398;&#20182;
88,&#12498;&#12499;&#12494;&#12459;&#12507;,C,&#12381;&#12398;&#20182;
89,&#12452;&#12463;&#12479;&#12488;&#12511;&#12467;,C,&#12381;&#12398;&#20182;
90,&#12458;&#12458;&#12469;&#12527;&#12473;&#12511;&#12488;,C,&#12381;&#12398;&#20182;
91,&#12459;&#12493;&#12467;&#12510;&#12469;&#12467;,C,&#12381;&#12398;&#20182;
92,&#12450;&#12521;&#12459;&#12527;&#12525;&#12463;&#12525;&#12454;,C,&#12381;&#12398;&#20182;
93,&#12490;&#12459;&#12516;&#12510;&#12481;&#12517;&#12454;&#12478;&#12454;,C,&#12381;&#12398;&#20182;
94,&#12459;&#12527;&#12505;&#12520;&#12471;&#12459;&#12474;,C,&#12381;&#12398;&#20182;
95,&#12486;&#12521;&#12454;&#12481;&#12459;&#12474;&#12498;&#12488;,C,&#12381;&#12398;&#20182;
96,&#12510;&#12484;&#12514;&#12488;&#12450;&#12452;&#12461;,C,&#12381;&#12398;&#20182;
97,&#12458;&#12458;&#12498;&#12521;&#12522;&#12483;&#12459;,C,&#12381;&#12398;&#20182;
98,&#12516;&#12510;&#12460;&#12479;&#12498;&#12490;&#12494;,C,&#12381;&#12398;&#20182;
99,&#12511;&#12516;&#12494;&#12516;&#12473;&#12498;&#12525;,C,&#12381;&#12398;&#20182;
100,&#12452;&#12471;&#12470;&#12459;&#12469;&#12490;,C,&#12381;&#12398;&#20182;

これをpandasで読み込みます。

import pandas as pd
data = pd.read_csv('data.csv')

全体の中からIT企業に就職した人を抽出します。35人います。

data_it = data[data["&#23601;&#32887;&#20808;"]=='IT']
len(data_it)
***
35

この中からランダムに一人選び、その人の科を調べます。

import random
num = random.randint(0, 34)
data_it_ri = data_it.reset_index(drop='true')
data_it_ri['&#31185;'][num]
***
'A'

これを何度も繰り返し行い、Bが出る回数を全体の試行回数で割ってやれば最初のベイズの定理で求めた結果(0.4285714285714286)に近づくはずです。

やってみます。

100回試行

count = 0
iternum = 100
for i in range(0,iternum):
    num = random.randint(0, 34)
    result = data_it_ri['&#31185;'][num]
    if result == 'B':
        count += 1
print(count/iternum)
***
0.45

1000回試行

count = 0
iternum = 1000
&#30053;
***
0.443

10000回試行

count = 0
iternum = 10000
&#30053;
***
0.4333

100万回試行

count = 0
iternum = 1000000
&#30053;
***
0.428449

100万回試行したらかなり近しい数字が出ました。当たり前ですが、ベイズの定理の計算は正しいことが実感できました。

【Python】ベイズの定理を実際に試行して確認

ベイズの定理とは

具体的な問題

Pythonで実際に確認

おすすめ

コメントを残すコメントをキャンセル

【Python】ベイズの定理を実際に試行して確認

ベイズの定理とは

具体的な問題

Pythonで実際に確認

おすすめ

【Python】Windows10にpytorchをpipでインストールする

Python statsmodelsで重回帰分析をする

KerasからMNISTを取得して白黒表示するまで

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル