筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室



2017年度  異文化言語教育評価論

以下、エッセイ・ライティングの評価に関連する研究論文2編についてレポートいたします。

 

Article 1

Wang, J., Engelhard Jr, G., Raczynski, K., Song, T., & Wolfe, E. W. (2017). Evaluating rater accuracy and perception for integrated writing assessments using a mixed-methods approach. Assessing Writing, 33, 36-47.

 

T. 研究目的

Integrated writing (IW: 学習者が読んだ文章について書くライティング・タスク) の評価の正確性にエッセイによる違いが生じるか、そして、その違いの理由は何かを定量的及び定性的分析 (mixed method) により解明する。

 

U. 研究方法

1) 調査参加者

(1) 20人のライティング評価者 (Georgia Center for Assessmentの評価者リストからランダムに 選出された)。平均して約9年間の評価経験 (223) を持つ。

論文上では “rater” となっているため、ここでは「評価者」とする。

(2) 3人のベテラン評価者 (同センター所属): (1) の比較対象として選出。IWを専門に評価するトレーニングを受けた専門家。

論文上では “expert” と名付けられているため、ここでは「専門家」とする。

2) 分析材料: 評価用エッセイ

・中学校1年生 (英語母語話者) が以下の条件により母語で書いた多くのエッセイから任意に抽出した100篇のエッセイ。

・生徒は最初に500語程度の文章を読み、読んだ文章についてエッセイを書く。

           Passage 1: アフリカの水害の原因と影響について

        Passage 2: アフリカ在住の水害にあった少女のストーリー

・エッセイ課題: それぞれのパッセージから例を引用し、その例が引き起こす水害の影響について説明する。

・評価の観点:(a) 論展開、構成、一貫性 (IDOC: idea development, organization, coherence)

                         (b) 言語形式 (LUC: language usage, conventions)

3) 調査手順: 評価の正確度の測定

・評価トレーニングの後、20名の評価者が100篇のエッセイを、上記 (a) (b) 2つの領域(domain) 別に採点。

・採点した評点と、専門家の3人の評点の中央値を比較。

・それぞれにエッセイについて、評価者ごとに (a) (b) 2つの領域別に分析し、専門家と評点が同じ場合は正確な評点として「1」、異なる場合は不正確な評点として「0」をつけた。

=各々のエッセイに評価者ごとに (a) (b) 2つの領域で「0」か「1」をつける。

4)分析方法と分析結果

論文中では分析と結果は分かれて記述されているが、ここではわかりやすいよう、定量分析と定性分析を分け、分析方法と結果を一緒に報告する。

 

(1)定量分析:多相ラッシュ測定

@ 分析方法

・評価の正確性を表す2値データについて、多相ラッシュモデルを用いて分析。

・そうとして設定する変数は「エッセイ」「評価者」「言語領域 (IDOC, LUC)

・モデルは rater accuracy model の頭文字を取り、RAMと名付けた。

A 結果

Wright mapを参照すると、評価者は大部分のエッセイを正確に評価しているが、LUC領域と比較し、IDOC 領域については正確に評価できていないことが見てとれる。以下にそれぞれの相についての分析結果を示す。

1.「エッセイ」変数について

・カイ二乗検定の結果: χ2 (99) = 348.3 , p < 0.01、分離信頼性: 0.77

エッセイを正確に評価することの困難度が異なる。

・インフィット平均平方: 最も低いエッセイ、0.7; 最も高いエッセイ、1.46

アウトフィット平均平方: 0.621.65

0.61.4を期待値の範囲とした場合、96%のエッセイがこの範囲に含まれている

 RAMへの適合度は容認できる範囲にある

2.「評価者」変数について

・カイ二乗検定: χ2 (19) = 35.5 , p < 0.05、分離信頼性: 0.44  

 評価者間に多様性あり

・インフィット平均平方: 0.901.13、アウトフィット平均平方: 0.841.23

 RAMへの適合度は高い

3.「言語領域」変数について

・カイ二乗検定: χ2 (1) = 154.5 , p < 0.01  二つの領域の難易度は異なる.

IDOCのインフィット/アウトフィット平均平方: 両方とも1.00

LUC: それぞれ1.00 / 0.99

 ほぼ完全にRAMに適合している

IDOC領域のロジット値: 0.44 (正確性54%)LUC領域: -0.44 (正確性72%)

 論展開、構成などは言語形式よりも正確に採点することが難しい

 

(2) 定性分析

@ 分析方法

100篇のエッセイからランダムに20篇のエッセイに絞り、それぞれのエッセイについて、評価者が評価の観点やエッセイの文章の特徴を自由に記述。専門家も同様に記述。

・自由記述はキーワード (theme) 化した後、テーマをカテゴリーに分類し、カテゴリー内のテーマの頻度を算出。

20のエッセイは、以下の観点で記述をカテゴリー化したものを評価者と専門家について定性的に比較。

A結果:提示されている結果はIDOC, LUCごとに、コメント (テーマ) をカテゴリー化したものを左列に評価者のコメント、右列に専門家の間のコメントを並べ類似性・相違性を目で確認した結果によるため、統計的な解析の結果ではないため割愛する。

 

Article 2

Attali, Y. (2015). A comparison of newly-trained and experienced raters on a standardized writing assessment. Language Testing, 33, 99-115.

 

T. 研究目的

 ライティング評価経験の少ない評価者に対する訓練に効果があるかを、トレーニング後の評価者の採点結果と専門家の採点結果と比較することで検証した。最終的に以下の観点について、結果が解釈された。

1) Severity: 評価者間の採点基準の一致度

2) Reliability: 採点の一貫性

3) Convergent validity: 専門家の評価との一致度

 

U. 研究方法

1) 調査参加者

(1)Amazon.comMechanical Turkによって集めた一般人48人のうち、最終的なライティング採点トレーニングを終えた14名の英語母語話者(以降「評価初心者」とする)。

(2) 16人のライティング・タスク評価熟達者(以降「専門家」とする)。: (1)との比較用

2) 分析材料と評価手順

 大学レベルの学力を測る大規模な標準テストのうち、分析的なライティング力を測定するためのタスクを参加者 (トレーニングを終えた評価初心者) が採点したものを分析材料とした。

タスクは以下の2種があるが、本研究では (1) のみが使用された。平均語数は458語。

(1) Issue task: あるトピックに対する考え方を述べる45分のエッセイ・ライティング。

(2) Argument task: パッセージを読み、それに対する主張を、根拠を示して述べる30分のエッセイ・ライティング

・分析に使用されたエッセイはあらかじめ用意された200エッセイのうち、ランダムサンプリングされた100篇。

・参加者はウェブ上で、100篇それぞれのエッセイを、論展開、文章構成、語彙選択、流暢さ、正書法を総合した6段階の評価ルーブリックに基づいた統合的評価 (16) で採点した。

・本研究が行われる前に、同じ100篇のエッセイが6人の専門家によって採点されており、それぞれのエッセイについて16人の評点の平均を取った「真の評点」が算出されている。分析は、この真の評点と評価初心者の評点とを比較する。

3) 分析方法と分析結果

論文では分析方法も分析結果の項に含まれており、本レポートでも分析方法ごとに方法と結果を示す。

(1) 真の評点と評価初心者の評点の平均値の相違

@ 分析方法

1. マン・ホイットニーのU検定による評価初心者と専門家の評点の平均値比較

2. 「真の評点」との相関関係

A 結果

1. 評価初心者の評点と専門家の評点の平均値比較 (マン・ホイットニーのU検定)

・評価者の平均評点値:M = 3.85 (SD = 0.23), 専門家の評点: M = 3.72 (SD = 0.30)

・両群に評点の平均値の有意差はなかった (U = 77.5, p = .16)

・ただし、SDは評価初心者の評点のほうが小さいため、評価者効果は小さい。

2.評価者の評点と「真の評点」との相関(どの相関係数かの記述はない)

・相関係数の中央値 = .77 (p < .01) : 強い相関あり

(2) 一般化可能性理論を用いた分析

@ 分析

評価初心者と専門家のスコアの信頼性を調べるため、一般化可能性理論(generalizability analysis)を用いた分析を、評価者を相として、それぞれのグループについて行った。

A 結果

・分散成分値:初心者5% < 専門家10%

・誤差の分散値:初心者34% 専門家27% 

・上記2つは、エッセイの分散成分はほぼ同値で (62%, 64%)、ファイ係数も群間で同等なことから、ほぼ相殺できる。

(3) 検証的因子分析

 さらに評価初心者の評点と専門家の評点の評価基準の違いを分析するために、検証的因子分析 (confirmatory factor analysis) が用いられている。

@ 分析

・観測変数: エッセイのスコア (サンプルサイズ100)

・以下の2つのモデルを、Rパッケージを用いて比較

1. Single factor analysis: 評価初心者と専門家が同一の要素で評価していると仮定

 2. Two-factor analysis: 評価者群それぞれが異なる要素で評価していると仮定

・使用した因子推定法方法は最尤法

・モデル適合度の指標:

A 結果


    Model            CFI  RMSEA     χ2      


One-factor         .904        .091        741.40


Two-factor         .909        .089        724.33   

・両モデルとも似た適合度: CFIおよびRMSEAを参照した結果

2要因モデルのほうが適合度は若干高い(with significant χ2 differences

2要因の潜在変数の相関係数: .98

 両群ともに同様の採点要素で採点している

 

<考察>

 両研究ともエッセイ・ライティング評価における評価者間の差を縮めることを主眼に置き、評価者の差が出やすい初心者が、求められる基準からどの程度離れているかを検証している。自動採点技術が発達してきているとはいえ、まだ信頼性がさほど高くないのか、人間による採点者間の差が出ないようにするためには人による評価に負うところが大きいと同時に、エッセイ評価の際にどの要素に注意を払えば過った評価につながらないで済むのかという問題は未だ十分には解明されていないことがわかる。

 二つの研究は、評価初心者の祭典の信頼性を上げるための評価トレーニングの妥当性を検証しているが、研究目的が類似している。にもかかわらず、使用した分析方法はかなり相違があるところは興味深い。同様の目的を持つ研究が異なった分析方法を用いることにより、様々な指標による様々な側面からの深い洞察を得ることができる半面、多様性が高すぎるがために同一の研究分野で一貫した結論を出すことが困難になるということも考えられる。ここでは、前者のより深い洞察力という観点から2つの論文を捉えるほうが建設的であると言えよう。

 いずれの研究も、同じエッセイを、トレーニングを受けたばかりの評価初心者と評価経験の多い「専門家」の評点を比較することで、評価者間の採点のズレがどこにあるのかを解明しようとしているが、専門家の評点は外れが少ないということを前提としているところには疑問が残るところであり、専門家の評点を「真の評価」とするのではなく、信頼性の高い自動採点システムを活用してもよかったのではないかと思われる。

 両研究の分析は異なる検定方法を用いているものの、評価者の誤差を問題にしたパフォーマンス測定を扱っているため、誤差の分析も含めた解析方法を適切に使っていると言える。Wang et al. (2017) はラッシュモデルを用いることで、エッセイ、評価者及び言語領域を同じ次元で同時に分析しようとしている。これに対し、Attali (2015) は一般化可能性理論を用いた分析を行っている。しかし、両者とも、一つの分析法に頼るのではなく、Wnag et al. の場合は、評価者のコメントを定性的に分析することで、ラッシュモデルの結果を補完しようと試みており、Attali はマン・ホイットニーの検定検定による、評価初心者と専門家のエッセー評点の平均値の差や最終的に、検証的因子分析による両群の評価基準の差を検証している。このように異なる分析方法を複数用いることで、求めている

 次に、両研究とも比較的未熟な評価者の評点が真の評点と異なるかを検証し、どちらも評価者が真の評価あるいはそれに近い評価と同様の評価をしていることを解明した。いずれも結果の解釈はそのようにできる。ただし、Attaliは首尾一貫して、評価初心者と専門家の評価の相違性や類似性を分析し、両者が類似していることを示しているが、検索的因子分析の潜在変数は何か、一般可能性理論に基づいて得られた結果を基に、さらにどのような決定をするのか、次の分析も考えるべきであると思われる。この点についてWang et al.の方はラッシュモデルに加え、正しく採点する際の困難点をさらに、評価者のコメントを質的に分析するという手法を取っている。

 最後に、いずれの研究とも分析方法は目的を達成するものに適しており、解釈も適切ではあると思われるが(Attaliの検証的因子分析の検証的因子分析において、モデルの適合度を適切としているが、CFIRMSEの値を見るそうとも言えない結果に思えるのを除き)、それぞれの分析方法を用いる場合の前提条件あるいはその分析方法を使うことの理由などの必要な事項が明記されておらず、研究結果を真に信頼してよいものか不確定な点が多い。