信頼性の尺度としてよく、クロンバックのαが使われます。文献には、αは一定限度の値(0.7~0.8)以上を満たすべきであると書かれていることが多いですが、逆に、高すぎることに問題はないのでしょうか?


αが高ければ高いほど良いかどうかは、アチーブメント・テスト(学科試験など)の場合と、心理学で使う質問紙の場合で異なると聞いたこともあるのですが、詳しくご存知の方がいらっしゃったら教えてください。

回答の条件
  • 1人3回まで
  • 登録:2006/07/10 14:04:26
  • 終了:2006/07/17 10:30:05

ベストアンサー

id:pedagogy No.3

pedagogy回答回数16ベストアンサー獲得回数12006/07/11 13:26:08

ポイント60pt

測定しようとしている対象が曖昧な場合には、複数の項目で幅広い領域をカバーすることが重要です。このようなときには、質問項目の数も多くて、尺度内の一貫性(α係数)もそれほど高くないはずです。

逆に、測定しようとしてる対象が明確に定まっている場合には、項目が少数でも、狭い領域をカバーすればいいんだけど、一貫性は非常に高くないと不味いでしょう。

教科や単元によっても異なりますが、たとえば、数学などでは、リトマス試験紙のような問題が作成可能です。このような場合には、問題数は少数で十分です。このあたりの話は、到達度を測るテスト(Content-Referenced Test)と準拠集団を想定した相対評価のためのテスト(Norm-Referenced Test)では、アプローチの仕方が違うこととも似ていると思います。

α係数云々の議論はさておいて、リトマス試験紙のように識別力がやたらと高い問題をいくつも用意したような試験が本当に必要かどうか、そもそも当該の領域でそのように識別力の高い問題を作成することができるかどうかを、考えるべきではないでしょうか?

id:akdamar

なるほど。とてもよくわかりました。

何を測定しようとしているのか?をどれくらい明確に定義できているかによるのですね。

ありがとうございます。

2006/07/11 13:44:15

その他の回答(3件)

id:kurukuru-neko No.1

kurukuru-neko回答回数1844ベストアンサー獲得回数1552006/07/10 17:22:57

ポイント10pt

論理的妥当性の問題、内容的妥当性の問題と呼ぶようです。

http://www.miyakyo-u.ac.jp/school/taira/Lecture/rel-sound.doc

http://staff.miyakyo-u.ac.jp/~m-taira/

信頼性と妥当性

http://www.ipc.hokusei.ac.jp/~z00105/_kamoku/sinken/sinrai/sinra...

id:akdamar

ありがとうございます。

少し分かりました。

この問題は、アチーブメント・テストの場合と質問紙の場合とで扱いが異なるのではないかと思っていますが、その点はどうでしょうか?

2006/07/10 18:01:50
id:kurukuru-neko No.2

kurukuru-neko回答回数1844ベストアンサー獲得回数1552006/07/10 18:31:56

芸術は爆発だ!!・・・ではありませんが。

(あまり詳しくはありませんが)

測定の誤差:

 答えが一意にある物の測定精度と

 言葉の測定精度は同じでないのは当然。

因子の可能性を見いだす事は出来ても証明にはならない。

http://rinro5.hus.osaka-u.ac.jp/kenshin2000/shouroku.pdf

http://www.hss.ocha.ac.jp/psych/socpsy/inet/Katsuya99_1.PDF


http://www.ec.kagawa-u.ac.jp/~hori/yomimono/scale.html

統計色々

http://www.statsoft.co.jp/download/06janalysismodules.pdf

id:akdamar

いまいちよくわかりません。

・アチーブメント・テスト=答えが一意にある=測定精度高い

・質問紙=答えが一意でない=測定精度低い

という単純な図式なのでしょうか?

アチーブメント・テストでも問題数が少なかったり、測りたい能力を測らない問題が混じっていればαは低くなるし、そうでなければαが高くなると思います。

質問紙の場合にα=1を目指すことが正しい道でないことは回答1の資料で漠然とわかりました。

アチーブメント・テスト(学力テスト、TOEFL、TOEIC等々)ではどうなのでしょうか。α=0.7を超えても、α=1を目指して信頼性を上げていくべきなのでしょうか?

2006/07/11 09:53:19
id:pedagogy No.3

pedagogy回答回数16ベストアンサー獲得回数12006/07/11 13:26:08ここでベストアンサー

ポイント60pt

測定しようとしている対象が曖昧な場合には、複数の項目で幅広い領域をカバーすることが重要です。このようなときには、質問項目の数も多くて、尺度内の一貫性(α係数)もそれほど高くないはずです。

逆に、測定しようとしてる対象が明確に定まっている場合には、項目が少数でも、狭い領域をカバーすればいいんだけど、一貫性は非常に高くないと不味いでしょう。

教科や単元によっても異なりますが、たとえば、数学などでは、リトマス試験紙のような問題が作成可能です。このような場合には、問題数は少数で十分です。このあたりの話は、到達度を測るテスト(Content-Referenced Test)と準拠集団を想定した相対評価のためのテスト(Norm-Referenced Test)では、アプローチの仕方が違うこととも似ていると思います。

α係数云々の議論はさておいて、リトマス試験紙のように識別力がやたらと高い問題をいくつも用意したような試験が本当に必要かどうか、そもそも当該の領域でそのように識別力の高い問題を作成することができるかどうかを、考えるべきではないでしょうか?

id:akdamar

なるほど。とてもよくわかりました。

何を測定しようとしているのか?をどれくらい明確に定義できているかによるのですね。

ありがとうございます。

2006/07/11 13:44:15
id:pedagogy No.4

pedagogy回答回数16ベストアンサー獲得回数12006/07/11 17:34:14

ポイント40pt

蛇足ながら、α係数が1になる状況というのは、同じ質問項目が並んでいるような状況状況ですから、基本的にはありえない話です。理想的な尺度(項目群)とは、それぞれ似たようなことを聞いているんだけど、微妙に違っているような項目群で、項目間の相関もだいたい.5~.7くらいで、項目数も5個くらいの、そんなイメージです。

一般的な心理学の研究文脈では、ホドホドの高さというのが意外と重要だと思います。そういう意味で、.7~.8というのは穏当な数値なのかもしれません。

なお、学力検査の場合には、α係数云々よりも、視力検査のような発想 --- より具体的にいえば、項目反応理論(Item Response Theory)に基づいた設計の方が今風だと思います。

id:akdamar

ありがとうございます。

そうですよね・・・α=1.0というのは全く同じ問題(質問)が連続する状態で、かなり不条理なテストを想像させます。

>理想的な尺度(項目群)とは、それぞれ似たようなことを聞いているんだけど、微妙に違っているような項目群で、項目間の相関もだいたい.5~.7くらいで、項目数も5個くらいの、そんなイメージです。

なるほど・・・私のところでは、まず質問項目をたくさん作っておいて一度トライアルし、トライアルデータを因子分析して、くっついたものを1つの尺度(項目群)としています。

また、IRTも文献等で勉強してはいるんですが、現実問題として受検環境の問題もあり、ペーパーテストを捨てられないところです。

2006/07/11 17:56:41

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません