回帰分析に関してお教えください。

ある都市のパーキングメーターの料金徴収業者Aが、こっそりとコインを盗んでいた可能性があり、その業者Aが有罪であるかどうかを、回帰分析を行って判断したいのですが、どのような式で仮説検定を行うのが適切だと考えられますでしょうか?
取得できているデータは、24ヶ月分の、①その業者Aが徴収したメーター数&徴収料金総額と、②他の業者Bが徴収したメーター数&徴収料金総額と、③その都市の従業員が徴収したメーター数&徴収料金総額(最も信頼できるデータ)になります。
ダミー変数も用いた仮説検証を行い、業者Aが有罪か否かを判断したいと思っています。どのような式が考えられるか、ご教授頂けましたら幸いです。

回答の条件
  • 1人5回まで
  • 13歳以上
  • 登録:2011/11/05 02:54:08
  • 終了:2011/11/12 02:55:03

回答(4件)

id:a-kuma3 No.1

a-kuma3回答回数4523ベストアンサー獲得回数18802011/11/05 12:00:00

ポイント75pt

質問で「回帰分析」とあるのは、説明変数をメータ数と徴収料金総額にとって相関を調べる、ということを言ってるのだと思いますが、回帰分析をやるにはデータが少なすぎます。


こういう場合には、統計値検定を使います。

母平均の検定、もしくは、平均値の差の検定になるでしょうか。

どちらを行う場合でも、不偏分散を求める必要があるので、徴収料金総額だけではなく、個々の徴収料金が必要になります。

以下、「その業者A」および、「他の業者B」の徴収料金について分散が求められることを前提とします。


■母平均の検定

母平均をμ、標本標準偏差をs、標本平均を http://www.aoni.waseda.jp/abek/img2/x.gif としたときに、

http://www.aoni.waseda.jp/abek/img2/test_avg_2.jpg

で、あらわされる統計量が、自由度n-1のt分布にしたがうことを使います。

帰無仮説は、「業者Aの徴収料金の平均値は、その都市の徴収料金の平均値と等しい」になります。



■二群の平均値の差の検定

二群の分散が等しいときと、異なるときで統計量の式が違うのですが、「お金をくすねる」という

行為を考えると、徴収料金が多いときにくすねる金額が多い、というのが想像できますので、

分散が異なる場合で検定します。

http://www.aoni.waseda.jp/abek/img2/t-test_3.jpg

同じ母集団からの2つの標本X,Yの大きさm,n,平均,分散をそれぞれ(http://www.aoni.waseda.jp/abek/img2/x.gif, sx2),(http://www.aoni.waseda.jp/abek/img2/y.gif, sy2)とした場合、

http://www.aoni.waseda.jp/abek/img2/t-test_3.jpg

で、あらわされる統計量が、自由度m+n-2のt分布に従うことを使います。

帰無仮説は、「業者Aの徴収料金の平均値と業者Bの平均値は等しい」になります。


以下のページなどに、具体的な数値を使った統計検定のやり方が載っています。

http://www.aoni.waseda.jp/abek/document/t-test.html

http://aoki2.si.gunma-u.ac.jp/lecture/tests.html

http://aoki2.si.gunma-u.ac.jp/lecture/Average/t-test.html

http://aoki2.si.gunma-u.ac.jp/lecture/Average/Mean1.html


どちらのやり方も、徴収料金は正規分布であるという前提なので、個々の徴収料金のデータが手に入るなら、

適合度検定の方がマッチするかもしれません。

その場合は、業者AとBの分布に差があるかどうかを検定することになります。

http://aoki2.si.gunma-u.ac.jp/lecture/Cross/differenceofdist.html


徴収料金を適当な範囲で幾つかに分けた度数分布を作って、その分布が業者AとBで差があるかどうかを検定することになります。




質問には、「有罪であるかどうか」とありますが、統計検定が証拠能力を持つかどうか、というのは、別の話です。

専門家の証言でも、裁判では適切かどうかというのは議論の対象になりますから。


http://www.jlea.jp/ronbun/ronbun3-1.pdf

しょっぱなに載っている、「随想 計量モデル屋、証人台に立つ」が参考になるかと思います。

id:Baku7770 No.2

Baku7770回答回数2832ベストアンサー獲得回数1812011/11/05 13:00:45

ポイント75pt

 業者Aが担当している駐車場では、他と比べてメータから計算される理論上の売上と実際の売上げの差が大きい。一応無賃駐車としているがA社が抜いているとしか思えないという理解でよろしいでしょうか。

 業者Aが担当している駐車場ってどうなんでしょう?例えば他と比べて繁華街が多い。住宅街でもその中に個人営業に近い事業所があり遅くまで仕事をしていることが多い、数軒でも深夜まで営業している飲食店がある。といった無賃駐車が多い地域特性は無いのでしょうか?

 あるようでしたら、回帰分析で解析することは可能ですが、複雑ですよ。仮に人目による誘発性を考えるなら、時間帯別の出庫台数の分布と人通りのデータが必要ですし、それは確実に周期1日の周期関数になりますから。

 汎用機上でSALSという全ての連続関数の回帰分析を行うプログラムがありましたが、PC上でそういったプログラムの存在を私は知りません。

 

 私なら、Aが回収する直前に目印を付けたお金と交換しておくとか、現金を数えておくとか、監視カメラを設置するとか別の方法を考えますし、統計上で調べたいのならt検定など他の方法を検討します。

 ただし、社員、A社、B社で駐車場が3ヶ所程度なら統計学上のサンプル数としても少なすぎるような気がしますが。

id:a-kuma3 No.3

a-kuma3回答回数4523ベストアンサー獲得回数18802011/11/05 18:09:16

ポイント75pt

このケースは、実ビジネスとして解きたいというわけではなく、回帰分析を習得するために与えられたケーススタディとしての位置づけでございます。

いまいち、背景がわかってませんが、データを見てみました。


f:id:a-kuma3:20111105174317p:image

Brick 社は 1979/6~1980/3 で、CDC 社は 1980/6~1981/3 です。

横軸が NCOL1A - N1A で、縦軸が TINCOME1A - INC1A になります(一応、エリア 1A のデータを外しました)。

N1A に比べて、NCOL1A の数値が少なすぎるのが気になります(*)が、

ぼくにはデータを訂正する手段が無いので、そのまま値を使ってます。

  (*) 両方とも "# of collections" とありますが、単位が違っているように思えます


徴収料金は、メーター数と正の相関があるはずですが、Brick 社のデータは正の相関が小さすぎます。

ただ、コメント先のページにも記載されているように、お金をくすねた以外の要因があるかどうかは分かりません。

id:cozying0910

a-kuma3さん、ご丁寧に感謝申し上げます。

重ねて申し訳ありません、確認させて頂きたいのですが、頂いた表のBrinkとCDCの回帰モデルは、下記式で合っていますでしょうか。

Income = α + β2*NCOL + β3*Brinkダミー + β4*NCOL*Brinkダミー

頓珍漢なことを言っておりましたら、申し訳ございません。

2011/11/05 19:30:11
id:a-kuma3

ダミー変数は入れてません。

単純に、Income = α+β×NCOL を、Brink 社と CDC 社について、それぞれ求めただけです。

Brink 社かどうかをダミー変数に取った、とも言えますが。

2011/11/05 19:41:02
id:windofjuly No.4

うぃんど回答回数2625ベストアンサー獲得回数11492011/11/05 18:24:54

ポイント75pt

コメントにすべきか、回答にすべきか・・・

 

一番下の Bentow and Afshartous. から、

リンク先(下記)に飛べば解説ありますよ

http://www.stat.ucla.edu/cases/brinks/brinks-answer.php

  • id:rish314
    単純に、メーター数 x 単価 で売上の理論値を出して、それが徴収料金総額とどれだけ乖離しているか調べればいいのでは? ってのは、やっぱり難しいのかな?????

    自分だったら、1-3のそれぞれについて、x:メーター数、y:徴収料金総額をプロットして最小二乗法あたりで線引いて重ねあわせるかな。誰もちょろまかしてないなら1-3それぞれ同じラインが引けるはずだし、そうでなければ、ラインが重ならないし。

    あんまり詳しくないんで、他の人の回答に期待!!!
  • id:Hyperion64
    >③その都市の従業員が徴収したメーター数&徴収料金総額(最も信頼できるデータ)にな>ります。
     この意味ですが、①や②とどのような関係がある/ないですか? それと①②③のメータ数はどのくらいでしょうか? メータ毎に料金が紐付けされたデータでしょうか? 駐車場のロケーション毎にメータがグループ化されてますか?                  また、業者Aがどのようなロジックでくすねているかにより、分析の方法が異なると思います。固有名を消去したサンプルデータがあると考えやすいのでけど。希望者に送付していただければ、より正確な提言もしくは解析ができます。
  • id:cozying0910
    みなさま、ご助言頂き有難うございます。ご多忙のところ感謝致します。

    質問させて頂く際に記載しなかったのですが、このケースは、実ビジネスとして解きたいというわけではなく、回帰分析を習得するために与えられたケーススタディとしての位置づけでございます。
    ですから、他の手段ではなく回帰分析で調査をする必要があります。

    そして先ほど、私が与えられていた資料の元データがWebに掲載されているのを発見致しましたので、共有させてください。

    http://www.stat.ucla.edu/cases/brinks/

    このURLの英文の真ん中にTableというLINKがあり、そこに今回のケースのデータセットが入っています。
    質問する際に、データセットをきちんとご提供できずに失礼致しました。

    もしこのデータセットから何らかの解き方に気づかれましたら、お教え頂けると幸いです。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません