出題者の出題の意図が何なのかはシラバスを見ればわかるだろう
そのうえで、ここでは「あなたの通っている学科による」としか言い様がない。
たとえば、invest-lifeさんが経済や社会学系の学問をしているのであれば総務省統計局の統計をソース元としてダウンロードすれば良いだろう、心理学系であれば貴方の持っている教科書にたくさんの資料があるはずだからそれを使えば用いれば良いだろう。理学系ならソースもとを明かすまでもなく、例示してやれば良い
アイデアが湧かないのはそれより前の問題、アイデアを沸かす前にもうちょっとその単元を復習した方が良い。
ちなみに、以下のサイトは群馬大学情報行動学科青木繁伸教授さんのサイトだそうです。
参考にならないと思いますが………
単回帰分析の場合、説明変数と従属変数のデータセットが統計解析をするのに十分な数必要ですよね。
私は、あるデータに関して説明変数が従属変数を説明しきれない場合もあると思っています。さらに、そのデータはできる限り観測値そのものであって、集計値の集合ではないのがいいと思っています。
個別データについて2つ以上の観測データを多数公表しているものが少ないと思います。比較的データの多いのが気象関係です。
例えば、次のようなデータのセットから、説明変数と従属変数を選んで、解析してみてはどうでしょうか。
http://www.data.jma.go.jp/obd/stats/data/mdrr/synopday/data1s.ht...
http://www.data.jma.go.jp/obd/stats/data/mdrr/tem_rct/alltable/m...
何かの実験や医薬品の治験などの素データが集められれば最高ですが、そういうデータはなかなか公表されていません。
統計の教科書や参考書に載っているのは、すでに統計解析されていて使えないのではないでしょうか。
都道府県などの地方自治体を1つのデータ単位と見なせば、都道府県ごとの人口や出生率に関する集計データ、都道府県ごとのエネルギーや水の使用量など集計データから、適宜2つの都道府県ごとのデータをセットにして、統計分析に使えるかもしれません。それならば、統計局の集計データも利用できるかもしれません。
http://www.stat.go.jp/data/nihon/index.htm
http://www.data.jma.go.jp/obd/stats/data/mdrr/tem_rct/alltable/m...
http://www.stat.go.jp/data/nihon/10.htm
集計されてしまったデータは通常使えないのだと思いますけれども、それがかなり細かく&多面的に観測したものがデータとして発表されていれば、その中から統計解析の対象にするデータセットを作れるかもしれません。ここにはかなりの量の集計結果が出ているので、うまく視点を決めることができると、データセットを作れるかもしれません。
http://www.jil.go.jp/institute/research/2006/014.htm
http://www.jil.go.jp/institute/research/documents/014/research01...
もしも友人から非観血血圧計を借用して数台集められれば、自分でも友人でも、運動したり静かにしたりした時にその複数の血圧計で血圧や脈拍測定値を測って、血圧計の特性?や血圧と最高血圧の何かの知見を統計的に確認することもできるかもしれません。
なお、実測値や何かの報告ではなくて、エクセルを使ってデータを作ることもできます。
たとえば、説明変数を
2x+3で xを0.2~4.5で、0.02刻みで作ります。
B3:B218に3.4~12.0を入れます。
従属変数は、C3に =NORMINV(RAND(),$B3*2,$B3*0.3)と入れて、
C3:O218にオートフィルします。
そこで、適宜、C列でも、F列でも、好きなところの列の値を
従属変数にします。
多少凝るならば、ランダムに3~218の間で、300位の整数を作り、
その整数に対応した行のC列、同じ整数が出たらD列、E列、F列の
データをとって、B列の値とセットにする手もあると思います。
この場合、従属変数は説明変数から作られていますが、正規分布の
逆関数を使っているので、データセットの数が少なければ、単純には
関連が立証しにくい値になると思います。
特に標準偏差の値を大きくとれば、ほとんど訳のわからない(関連性が薄い)データセットになると思います。
コメント(0件)