人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

信頼性の尺度としてよく、クロンバックのαが使われます。文献には、αは一定限度の値(0.7?0.8)以上を満たすべきであると書かれていることが多いですが、逆に、高すぎることに問題はないのでしょうか?

αが高ければ高いほど良いかどうかは、アチーブメント・テスト(学科試験など)の場合と、心理学で使う質問紙の場合で異なると聞いたこともあるのですが、詳しくご存知の方がいらっしゃったら教えてください。

●質問者: akdamar
●カテゴリ:学習・教育 科学・統計資料
✍キーワード:アチーブメント テスト 学科 尺度 心理学
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● kurukuru-neko
●10ポイント

論理的妥当性の問題、内容的妥当性の問題と呼ぶようです。

http://www.miyakyo-u.ac.jp/school/taira/Lecture/rel-sound.doc

http://staff.miyakyo-u.ac.jp/~m-taira/

信頼性と妥当性

http://www.ipc.hokusei.ac.jp/~z00105/_kamoku/sinken/sinrai/sinra...

◎質問者からの返答

ありがとうございます。

少し分かりました。

この問題は、アチーブメント・テストの場合と質問紙の場合とで扱いが異なるのではないかと思っていますが、その点はどうでしょうか?


2 ● kurukuru-neko
●0ポイント

芸術は爆発だ!!・・・ではありませんが。

(あまり詳しくはありませんが)

測定の誤差:

答えが一意にある物の測定精度と

言葉の測定精度は同じでないのは当然。

因子の可能性を見いだす事は出来ても証明にはならない。

http://rinro5.hus.osaka-u.ac.jp/kenshin2000/shouroku.pdf

http://www.hss.ocha.ac.jp/psych/socpsy/inet/Katsuya99_1.PDF


http://www.ec.kagawa-u.ac.jp/~hori/yomimono/scale.html

統計色々

http://www.statsoft.co.jp/download/06janalysismodules.pdf

◎質問者からの返答

いまいちよくわかりません。

・アチーブメント・テスト=答えが一意にある=測定精度高い

・質問紙=答えが一意でない=測定精度低い

という単純な図式なのでしょうか?

アチーブメント・テストでも問題数が少なかったり、測りたい能力を測らない問題が混じっていればαは低くなるし、そうでなければαが高くなると思います。

質問紙の場合にα=1を目指すことが正しい道でないことは回答1の資料で漠然とわかりました。

アチーブメント・テスト(学力テスト、TOEFL、TOEIC等々)ではどうなのでしょうか。α=0.7を超えても、α=1を目指して信頼性を上げていくべきなのでしょうか?


3 ● pedagogy
●60ポイント ベストアンサー

測定しようとしている対象が曖昧な場合には、複数の項目で幅広い領域をカバーすることが重要です。このようなときには、質問項目の数も多くて、尺度内の一貫性(α係数)もそれほど高くないはずです。

逆に、測定しようとしてる対象が明確に定まっている場合には、項目が少数でも、狭い領域をカバーすればいいんだけど、一貫性は非常に高くないと不味いでしょう。

教科や単元によっても異なりますが、たとえば、数学などでは、リトマス試験紙のような問題が作成可能です。このような場合には、問題数は少数で十分です。このあたりの話は、到達度を測るテスト(Content-Referenced Test)と準拠集団を想定した相対評価のためのテスト(Norm-Referenced Test)では、アプローチの仕方が違うこととも似ていると思います。

α係数云々の議論はさておいて、リトマス試験紙のように識別力がやたらと高い問題をいくつも用意したような試験が本当に必要かどうか、そもそも当該の領域でそのように識別力の高い問題を作成することができるかどうかを、考えるべきではないでしょうか?

◎質問者からの返答

なるほど。とてもよくわかりました。

何を測定しようとしているのか?をどれくらい明確に定義できているかによるのですね。

ありがとうございます。


4 ● pedagogy
●40ポイント

蛇足ながら、α係数が1になる状況というのは、同じ質問項目が並んでいるような状況状況ですから、基本的にはありえない話です。理想的な尺度(項目群)とは、それぞれ似たようなことを聞いているんだけど、微妙に違っているような項目群で、項目間の相関もだいたい.5?.7くらいで、項目数も5個くらいの、そんなイメージです。

一般的な心理学の研究文脈では、ホドホドの高さというのが意外と重要だと思います。そういう意味で、.7?.8というのは穏当な数値なのかもしれません。

なお、学力検査の場合には、α係数云々よりも、視力検査のような発想 --- より具体的にいえば、項目反応理論(Item Response Theory)に基づいた設計の方が今風だと思います。

◎質問者からの返答

ありがとうございます。

そうですよね・・・α=1.0というのは全く同じ問題(質問)が連続する状態で、かなり不条理なテストを想像させます。

>理想的な尺度(項目群)とは、それぞれ似たようなことを聞いているんだけど、微妙に違っているような項目群で、項目間の相関もだいたい.5?.7くらいで、項目数も5個くらいの、そんなイメージです。

なるほど・・・私のところでは、まず質問項目をたくさん作っておいて一度トライアルし、トライアルデータを因子分析して、くっついたものを1つの尺度(項目群)としています。

また、IRTも文献等で勉強してはいるんですが、現実問題として受検環境の問題もあり、ペーパーテストを捨てられないところです。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ