学力評価の最前線 - わさっきhb

今月の電子情報通信学会誌（平成21年12月，Vol.92, No.12）に，「小特集　学力評価の最前線」というテーマで，7件の記事がありました．会誌｜電子情報通信学会の目次で，なぜか「2009年12月号」のPDFがうまく取得できなかったので，タイトルを書き写しておきますと：

項目応答理論 -TOEFL・TOEIC等の仕組み-
ニューラルテスト理論 -資格試験のためのテスト標準化理論-
eテスティング -最先端テスト技術-
テストのユニバーサルデザイン
グループ学力の測定
教育評価とテスト
小論文自動採点

このうち最初の記事を読んで，やっと，項目応答理論（項目反応理論，IRT）を必要とする理由が分かりました．自分の言葉で説明できればいいのですが，無理そうなので，引用に頼ります．

古典的テスト理論に用いられている「正解数に基づく得点」には，多くの限界が見られる．例えばNRSが35点であった場合，その原因は，受験者の能力が低いからなのか，それともテスト問題が非常に難しかったからなのかが分からないということである．したがって，この二つの要素，能力と困難度を切り離して検討できる道の開発が必要であった．
そこで，非常に簡単にいえば，能力をθ，項目困難度をb，正答確率をPとした場合，P=θ-bの関係が成立することを目指さなければならなかった．能力が項目困難度よりも大きければ，正答確率は高い．逆に，項目困難度が能力より大きければ，正答確率は低くなるという関係を示すモデルが求められたのである．また，先にも述べたように，得点の天井効果や床面効果をなくし，無限大に能力を表現できるように得点を用いるなどの準備が必要であった．
（大友賢二: 項目応答理論 -TOEFL・TOEIC等の仕組み-, p.1010）

「NRS」は，正解数に基づく得点のことで，Number-right Scoreの略です（p.1008）．
各記事と，それに先立つ「小特集編集にあたって」に目を通しましたが，全国学力テストについては言及が一切ありませんでした（PISAとNAEPは，書かれていました）．悉皆調査か抽出調査か，経年比較か地域比較か，問題は公開か非公開かについての記述も，見られませんでした．
ただしこれまでの全国学力テストが，上記引用でいう「古典的テスト理論」に基づいていることは，一通り読めば容易に推測できます．単純だけど何かと問題のある手法（そしてそこから導き出される理論やモデル）を超えた，有用かつ実用化されている学力評価技法を，この小特集によって紹介しているのだと，判断しました．

過去に自分で書いたのを，見直そう…．

[3]では(略)統計手法の数式や図（グラフ）の意味は，この文書を読んだだけですっと頭に入ってくるわけではありませんが，本気で理解しようと思えば，そのモデルや手法手法の名称でさらに検索して，読み進めばいいのですね．
全国学力テストを理解するための3つのおすすめPDF - わさっき

[3]のPDFを再度取り寄せ，今回の記事と比較しました．2パラメータロジスティックモデルの式が若干異なりますが，おそらく本質に影響しないところでしょう．相補しあう内容になっています．

「学校は全国学力テストの対策に時間がとられ，普段の授業・教育ができない」という主張も，どれだけ妥当なのか，分かっていません．Webから知り得たのは，鳥取県や宮城県で，それぞれの県教職員組合が調査しているということくらいです．
「おバカ教育」の構造，読む前に調査 - わさっき

海外の分析の事例を知ることができました（p.1034）．