新blogできています

このblogは、現在更新を停止しています。 新しい記事は新blogに追加されます。

2013年9月8日日曜日

艦これと統計

相変わらず無謀庵提督も艦これを続けています。

先日のイベントで、まあ流石にE4を突破できる戦力なんかないなあ、と思いながら、168単艦突撃を繰り返していました。
で、熊野・鈴谷、ごーや、衣笠と欲しいものが勢ぞろい。

しかしながらうちの艦隊には、長門と陸奥がいない。
結構戦艦レシピは回してるつもりなのだけど、さっぱり出てこない。
後から始めた友人が、さっさと両方揃えてたり、陸奥ばっかり4隻出てるとか言い出したり。

データベース艦これ!によれば、私の回してる400/100/600/30で、長門と陸奥を合わせて5%そこらは出るようなデータになっている。
で、私がこれまで建造したデータを確認すると、42回試してひとつも出ていなかった。

5%の当たりを、42回やって引けない。
そんな私は、どれくらい不幸なのか。
あるいは、本当に5%もあるのか。

この疑問を、統計的に検定してみよう。
なにしろ私も最近学びたてで、やってみたくて仕方ないのだ。




とりあえず、2013年9月8日の午前11時ごろ、データベース艦これ!の400/100/600/30のデータを取得した。ごく一部、潜水艦が出たとか誤登録っぽいのを排除。
私の手元の42件のデータも、同じ形にまとめる。

で、「私が長門型を引いていない」というデータと、「DB艦これでは5%くらい長門型が出ている」というデータの統計的に検定してみようかと思った。
のだけど、私の側が長門型を引いていない、つまり0%だと、計算ができなかった。

計算を始める前に、知識不足の馬脚をあらわす私であった。
0%でも計算できる方法があったらなおさら格好悪いのだけど、まあおいといて。



なので目先を変えてみる。
データを、艦種別に集計してみた。


こうなった。
見比べると、DB艦これのデータに比べて、私はかなり重巡ばっか引いているように見える。

これは偶然なのか?
あるいは、DB艦これには、重巡洋艦なんてハズレを引いた時のデータは、ちゃんと実数通りに登録されていないのか?

これを、統計的仮説検定という計算で求めることができる。


まず、私がやって重巡が出るはずの率と、DB艦これのデータに基づいて重巡が出る率は等しいと仮定する。(帰無仮説H0: P0me = P0db)
今回疑っているのは、私の艦これには重巡ばっかり入ってるんじゃないか、ということ。(対立仮説 H1: P0me > P0db)

(母比率と標本比率というのが入り乱れていきなりややこしい。
 10円玉を投げて、表が出る確率は本当なら50%、という時の50%が母比率。
 私が20回投げて12回・60%も出た、という時の60%が標本比率)


同じはずの確率の試行を、私が42回、DB艦これで約15000回やって、現れた重巡率が異なっている。
その差が、偶然で片付けていい程度の差なのか、それとも偶然にはめったに起こらないほどの大差なのか。

それを判断するために、まず統計検定量という値を求める。



Pme=私が重巡を引いた確率 (69.0% = 0.690)
Pdb=DB艦これで重巡が出ている確率 (55.3% = 0.553)
n=私の試行回数(42回)

この値は、私が重巡を引いた確率と、DB艦これでの重巡出現率の差を、試行回数を踏まえて算出したもの、となる。
試行回数nが小さかったら、分母が大きくなる。すると、PmeとPdbに差があっても、解は小さくなる。
逆にnが大きくなればなるほど、PmeとPdbの差が変わらなくても、解は大きくなる。


この統計検定量は、標準正規分布に従う。
(なんで?と言われると、二項定理とかをこねくり回して証明できるらしいのだけど、私は説明できるほどわかってないので割愛)

標準正規分布で1.93以下の値が出る確率は、97.3%。(Excelの関数では、=NORM.S.DIST(1.93, TRUE) で出る)
1.93以上の値が出る確率は、100-97.3 = 2.7%。

この2.7%が、DB艦これでは55.3%となっているものを、偶然にも69.0%以上の割合で引いてしまう、という確率になる。



この確率を、単なる偶然だと片付けるかどうかは、時と場合によって判断する。

2.7%なら偶然の範疇だろう、と取り扱うべき場合もあるし、それなら「単なる偶然。私の運が悪かっただけ」という結論が出てくる。
(5%以下だったら偶然とはいえない、と線引きするなら、その線を有意水準という)


あるいは、2.7%は偶然の範疇ではなく、何か理由があって、そもそもの確率がずれていると考える場合もある。
まあ、有意水準は5%に取ることが多いし、今回もそれでいいと思う。
つまり、2.7%は偶然の産物ではない、と考えてみよう。

数式の理屈だけでいえば、「私がプレイしている艦これは、艦これDBに登録している人たちがプレイしている艦これよりも、重巡洋艦が出やすい」という結論が出てくる。
しかしまあ、そんなわけはない。
「艦これDBのデータは、重巡洋艦が実際より登録数が少なく、私の単純取得データとは差がついた」と考えるのが妥当だろう。

まあ、戦艦狙いなのに重巡洋艦が出たハズレデータは登録されることが少ない。
うまく狙い通りに戦艦が出た時には、喜び勇んで登録されることが多い。
そういう偏りはあるんじゃないかなー、という予想はつく。



データベース艦これ!は、プレイヤーとして非常にありがたい、まったく素晴らしいサイトだと思うのだけれども、しかしながら、検定するとデータが怪しい、という結果が出てしまった。
ああなんと天に唾する結果であろう。

「いいのが出た時だけ登録」の偏りは、データ数が十分に多くなればマスクされるんじゃないかなー、と予想したんだけど、そうでもないのかもしれない。


ただ、統計的仮説検定というのは、「絶対にそうだ」という結論を出せるものではない。
そう考えるのが妥当だろう、という曖昧さのあるものだ。
私の友人がちゃんと引いてるところから見ても、私が単に2.7%の不幸を掴んでるだけかもしれない。

私の試行回数42回というのも、まあ少ないと思う。せめて100回くらいまで増やしていきたい。
100回やってみたら、今の42回時点よりも戦艦が漸増して、より近い確率になっていくかもしれない。

真実は神のみぞ、あるいはプログラマー=サンのみぞ知る。


というか私の計算が間違えている、というひどいオチがつく気もするが……

0 件のコメント:

コメントを投稿