人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

回帰分析に関してお教えください。
ある都市のパーキングメーターの料金徴収業者Aが、こっそりとコインを盗んでいた可能性があり、その業者Aが有罪であるかどうかを、回帰分析を行って判断したいのですが、どのような式で仮説検定を行うのが適切だと考えられますでしょうか?
取得できているデータは、24ヶ月分の、?その業者Aが徴収したメーター数&徴収料金総額と、?他の業者Bが徴収したメーター数&徴収料金総額と、?その都市の従業員が徴収したメーター数&徴収料金総額(最も信頼できるデータ)になります。
ダミー変数も用いた仮説検証を行い、業者Aが有罪か否かを判断したいと思っています。どのような式が考えられるか、ご教授頂けましたら幸いです。

●質問者: KAO
●カテゴリ:学習・教育 科学・統計資料
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● a-kuma3
●75ポイント

質問で「回帰分析」とあるのは、説明変数をメータ数と徴収料金総額にとって相関を調べる、ということを言ってるのだと思いますが、回帰分析をやるにはデータが少なすぎます。


こういう場合には、統計値検定を使います。

母平均の検定、もしくは、平均値の差の検定になるでしょうか。

どちらを行う場合でも、不偏分散を求める必要があるので、徴収料金総額だけではなく、個々の徴収料金が必要になります。

以下、「その業者A」および、「他の業者B」の徴収料金について分散が求められることを前提とします。


■母平均の検定

母平均をμ、標本標準偏差をs、標本平均を http://www.aoni.waseda.jp/abek/img2/x.gif としたときに、

http://www.aoni.waseda.jp/abek/img2/test_avg_2.jpg

で、あらわされる統計量が、自由度n?1のt分布にしたがうことを使います。

帰無仮説は、「業者Aの徴収料金の平均値は、その都市の徴収料金の平均値と等しい」になります。



■二群の平均値の差の検定

二群の分散が等しいときと、異なるときで統計量の式が違うのですが、「お金をくすねる」という

行為を考えると、徴収料金が多いときにくすねる金額が多い、というのが想像できますので、

分散が異なる場合で検定します。

http://www.aoni.waseda.jp/abek/img2/t-test_3.jpg

同じ母集団からの2つの標本X,Yの大きさm,n,平均,分散をそれぞれ(http://www.aoni.waseda.jp/abek/img2/x.gif, sx2),(http://www.aoni.waseda.jp/abek/img2/y.gif, sy2)とした場合、

http://www.aoni.waseda.jp/abek/img2/t-test_3.jpg

で、あらわされる統計量が、自由度m+n?2のt分布に従うことを使います。

帰無仮説は、「業者Aの徴収料金の平均値と業者Bの平均値は等しい」になります。


以下のページなどに、具体的な数値を使った統計検定のやり方が載っています。

http://www.aoni.waseda.jp/abek/document/t-test.html

http://aoki2.si.gunma-u.ac.jp/lecture/tests.html

http://aoki2.si.gunma-u.ac.jp/lecture/Average/t-test.html

http://aoki2.si.gunma-u.ac.jp/lecture/Average/Mean1.html


どちらのやり方も、徴収料金は正規分布であるという前提なので、個々の徴収料金のデータが手に入るなら、

適合度検定の方がマッチするかもしれません。

その場合は、業者AとBの分布に差があるかどうかを検定することになります。

http://aoki2.si.gunma-u.ac.jp/lecture/Cross/differenceofdist.html


徴収料金を適当な範囲で幾つかに分けた度数分布を作って、その分布が業者AとBで差があるかどうかを検定することになります。




質問には、「有罪であるかどうか」とありますが、統計検定が証拠能力を持つかどうか、というのは、別の話です。

専門家の証言でも、裁判では適切かどうかというのは議論の対象になりますから。


http://www.jlea.jp/ronbun/ronbun3-1.pdf

しょっぱなに載っている、「随想 計量モデル屋、証人台に立つ」が参考になるかと思います。


2 ● Baku7770
●75ポイント

業者Aが担当している駐車場では、他と比べてメータから計算される理論上の売上と実際の売上げの差が大きい。一応無賃駐車としているがA社が抜いているとしか思えないという理解でよろしいでしょうか。

業者Aが担当している駐車場ってどうなんでしょう?例えば他と比べて繁華街が多い。住宅街でもその中に個人営業に近い事業所があり遅くまで仕事をしていることが多い、数軒でも深夜まで営業している飲食店がある。といった無賃駐車が多い地域特性は無いのでしょうか?

あるようでしたら、回帰分析で解析することは可能ですが、複雑ですよ。仮に人目による誘発性を考えるなら、時間帯別の出庫台数の分布と人通りのデータが必要ですし、それは確実に周期1日の周期関数になりますから。

汎用機上でSALSという全ての連続関数の回帰分析を行うプログラムがありましたが、PC上でそういったプログラムの存在を私は知りません。

私なら、Aが回収する直前に目印を付けたお金と交換しておくとか、現金を数えておくとか、監視カメラを設置するとか別の方法を考えますし、統計上で調べたいのならt検定など他の方法を検討します。

ただし、社員、A社、B社で駐車場が3ヶ所程度なら統計学上のサンプル数としても少なすぎるような気がしますが。


3 ● a-kuma3
●75ポイント

このケースは、実ビジネスとして解きたいというわけではなく、回帰分析を習得するために与えられたケーススタディとしての位置づけでございます。

いまいち、背景がわかってませんが、データを見てみました。


f:id:a-kuma3:20111105174317p:image

Brick 社は 1979/6?1980/3 で、CDC 社は 1980/6?1981/3 です。

横軸が NCOL1A - N1A で、縦軸が TINCOME1A - INC1A になります(一応、エリア 1A のデータを外しました)。

N1A に比べて、NCOL1A の数値が少なすぎるのが気になります(*)が、

ぼくにはデータを訂正する手段が無いので、そのまま値を使ってます。

(*) 両方とも "# of collections" とありますが、単位が違っているように思えます


徴収料金は、メーター数と正の相関があるはずですが、Brick 社のデータは正の相関が小さすぎます。

ただ、コメント先のページにも記載されているように、お金をくすねた以外の要因があるかどうかは分かりません。


KAOさんのコメント
a-kuma3さん、ご丁寧に感謝申し上げます。 重ねて申し訳ありません、確認させて頂きたいのですが、頂いた表のBrinkとCDCの回帰モデルは、下記式で合っていますでしょうか。 Income = α + β2*NCOL + β3*Brinkダミー + β4*NCOL*Brinkダミー 頓珍漢なことを言っておりましたら、申し訳ございません。

a-kuma3さんのコメント
ダミー変数は入れてません。 単純に、Income = α+β×NCOL を、Brink 社と CDC 社について、それぞれ求めただけです。 Brink 社かどうかをダミー変数に取った、とも言えますが。

4 ● うぃんど
●75ポイント

コメントにすべきか、回答にすべきか・・・

一番下の Bentow and Afshartous. から、

リンク先(下記)に飛べば解説ありますよ

http://www.stat.ucla.edu/cases/brinks/brinks-answer.php

関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ