人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

統計学についての質問です。ソフトウェアにある条件で1000回実行すると1回程度の割合で発生するバグがあったとします。例えば並行処理のようなタイミング依存のバグです。

これを修正したので確かに治ったということを確かめたい。そのとき同じ条件で何回実行してもバグが再現しなければ「バグが治った」という確信(統計的根拠)を持てるといえるでしょうか?

私が考えたのはバグの有り無しについてカイ自乗検定を行うこととして、有意なp値がでる回数まで実行する、というものです。

しかし次のような疑念が生じました。

(1) 検定ではサンプル数を増やせば有意差は出やすくなる。有意なp値になるまでやるというのはいわゆる「p値ハッキング」であり妥当な実験といえなくなるのではないか?

(2) 検定においては帰無仮説「バグの発生頻度は同じ確率分布である」が棄却されるにすぎず、「発生頻度が下がった」とは言えても「バグが治った(0回になった)」とは言えないのではないか?

「統計学ではこう考える」「異なる検定を使用すべき」「検定ではない方法を使え」「ISOxxxxxではこう定義されている」「科学哲学ではこう考える」などあらゆる観点からの意見を歓迎します。

●質問者: 匿名質問者
●カテゴリ:科学・統計資料
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● 匿名回答1号

統計学の観点からは、(1)は全くその通りです。(2)も差の有無の検定を使う限りはそうです。


匿名回答1号さんのコメント
厳密に言うと、(1)は主流となっている立場の検定での話。

2 ● 匿名回答2号

>「バグが治った(0回になった)」とは言えない
統計学的手段に頼るのであれば、どんな検証をしても「バグが治った(0回になった)」という結論を出すことは不可能では??
バグ発生率0%というためには、バグの発生原因を確定して、フィックスして、数学的手段で証明するしかないのでは。
それが不可能であれば、「十分な回数」の検証をしてバグ発生率が「十分に低い」ことを示すのが次善の策ではないでしょうか。
つまり、十分な回数がどれくらいで、十分に低いとはどれくらいなのかを考えるのが次にすべきことのような。

関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ