例えば映画、音楽、スポーツ、その他の4つのジャンルが用意されており、1人は最大3点(1点でもよい)好きなジャンルに投票することができます。
このとき、県別に評価すると
(映画、音楽、スポーツ、その他)
青森(50点、30点、67点、90点)
沖縄(60点、20点、44点、80点)
・
・
・
全体平均(60点、25点、40点、85点)
全体合計(6000点、3000点、4000点、8000点)
というようなデータ構造であるとき、
県別の特性および全体の特性などを捉えるための統計的な手法を教えてください。
実際に数値の計算は必要ないです。
最も基本から高度な考え方まで幅広く教えてください。
方法は解説されているURLでも結構です。
どのようなまとめ方をするかは、どのような調査を行ったかによります。質問で気になったのは、それぞれの都道府県の回答者数がどうであったか、ということです。(※設定でコメントをオープンにしていただければ、もうすこし有益な回答ができるかもしれません)
もし、各都道府県に同数の回答者がいた場合、各都道府県のデータの表示はそのままでいいと思います。(回答者数が異なる場合でも、あまり気にしなければ、これでいいかもしれません)例でいえば、回答者各100人から得られたデータが青森(50点、30点、67点、90点)・沖縄(60点、20点、44点、80点)なら、これをそのまま加工せずに使うのがいいでしょう。全体の平均も、点数をふつうに足し合わせて、都道府県数で割ってやればいいです。
県名|aa|bb|cc|dd|
----------------
青森|50|30|67|90|
沖縄|60|20|44|80|
================
平均|55|15|56|85
見た目重視で行きたいなら、項目ごとの地図を4枚作って、得点に基づいて色分けするといいでしょう。
各都道府県の項目ごとに、全国平均からの隔たりを知りたいなら、z得点を用いるといいです。http://www.u-gakugei.ac.jp/~kishilab/z-score.htm この際、平均・標準偏差は、それぞれの項目のものをもちいます。
一方、もし、都道府県別で回答者の人数が異なる場合、各都道府県のデータが、回答者人数の違いを反映してしまいます(鳥取と東京都の場合、東京都が全項目で鳥取の10倍とかになってたらヘン、という話)。この場合、回答者100人当たりの得点比率に変換してやることが必要です。具体的には、もし、ある都道府県の回答者がa人、その県のある項目の点数がb点の場合、b*100/a を結果の表示に用います。もともとの生データと併記した表示にするのが好ましいでしょうから、
東京|15(80)|21(92)|11(65)|12(70)
鳥取|12(11)|21(14)|13(12)|35(29)
*カッコの外=100人あたりの得点、カッコの中=もともとのデータ
とやるのがいいでしょう。
この場合、全国平均は、100人あたりの得点を都道府県間で足し合わせるのと、もともとのデータに直接基づいて算出するのと、2通りの方法があります。もし、都道府県ごとのサンプル数が、なんらかの合理的な根拠(人口とか)にもとづいているのなら後者の方法をとることが出来ますが、そうでなければ前者の方法がいいと思われます。このようにして求めた平均と標準偏差に基づいて、z得点を算出することも出来ます。
ポイントはいりません。
z得点は、平均から標準偏差に換算しての隔たりを示す指標です。リンク先にあるとおり、いわゆる偏差値と考え方は同じです。+2以上、-2以上の値をとるのは、それぞれ全体の数パーセントです(z得点+2は偏差値で言う70に相当します)。ですので、調査の目的が、「全国でとびぬけて映画の人気が高い(低い)県を知りたい」みたいな時には有効です。
ただ、趣味のデータでは、都道府県ごとのバラつきがそれほど大きくなく、地味な値しかでないことも考えられます。その場合は、あえてz得点を表示する意味はないかもしれません。
今後のことも考えると結構使えそうです。
ありがとうございました。
ありがとうございます。
なるほどですね。z得点ですか、どうにか算出できそうですがそこからさらに
何を見出すかはまた別の能力が必要そうですね。