筑波大学 人文社会科学研究科                                                現代語・現代文化専攻                                           平井 明代研究室



2019年度  英語教育学Ⅶ


REVIEW

Journal: Assessing Writing

Title: Automated formative writing assessment using a levels of language framework

Joshua, W., Rod, R., & Yusra A. (2017). Automated formative writing assessment using a levels of language framework. Assessing Writing, 34, 16-36.

 

[Introduction]

・ライティング指導の一つとして,formative assessment (形成的評価)がある。潜在知識の活性化,期待されるパフォーマンスレベルに到達するための方法や戦略を形成的に指導,フィードバックする。

・しかし,形成的評価は教師の使う評価ツールに依存していたり,人間が評価を行うことにより評価者内信頼性に影響されたりする。

 →そのため,自動化ツールが形成的評価をどのように促進するかを調査する必要がある。

本研究ではlevels of language frameworkの中での自動化手法を調査する。

levels of language (言語レベル) framework:ライティング能力をword, sentence, discourseレベルで捉える。先行研究においてはなかなか自動化に焦点が置かれてこなかった。

・自然言語処理(NLP)でのテキスト抽出:LSA(Latent Semantic Analysis)Coh-Metrix

RQ1NLPの手法は,言語レベルにわたる生徒のライティング能力評価に用いることができるか

Coh-metrixConfirmatory Factor Analysis (CFA)によって,言語的特徴が言語レベルの潜在的要因に負荷を与えているか明らかにする。(事前に因子の数や構造を仮定)

RQ2:それらの要因がパフォーマンステストにおける結果に有意に関係しているか

構造方程式モデリング(SEM)よって,言語レベル要因を用いてパフォーマンス結果を予測するモデルを評価する。

 

[Method]

・テスト:The computerized benchmark writing assessment

Participants and sampling

・実験参加者:アメリカ在住の6年生(n=240)8年生(n=240)

 →なぜ6年生と8年生(1と中3)を選んだか

     高校に向けてライティング能力を伸ばさなければいけない時期

     中学生は上位と下位のライティングスキルを使用することに困難を感じることが多い

     中学校教師は効果的な形成的評価ができていないことが多い

・テスト実施時期:20129月~20131

・データ:テストにおけるargumentative writing(証拠や理由づけをしながら意見を構築する)の結果

・サンプル抽出:state guidelinesに基づいて受験者を5つのレベル(Bands 1 ~ Bands 5)に分類

“struggling”レベルにある受験者からそれぞれ120人を抽出

→同数の“proficient”レベルにある受験者をランダム抽出

・男女差,無償もしくは割引の昼食提供の有無,英語学習者,特別教育サービスの有無において統計的に有意な差はない。

 


State writing assessment

Direct Assessment of Writing (DAW):テーマに沿って45分で作文

Editing and Revising test (ER):多肢選択式。文法や構成における誤りが含まれた文を読み,3240分で正しい修正をしているものを選ぶ。

Coh-Metrix

Coh-Metrix 3.0により語,文,談話レベルでのライティング能力を評価

 

Analytic Approach

モデルの適合度の検証

→カイ2乗値とSRMR(standardized root mean square residual)によって絶対適合を評価

CFI(comparative fit index)TLI(tucker-lewis index)によって比較適合を評価

 RMSEA(root mean square error of approximation)によって倹約性修正を評価

検定力分析

Monte Carlo simulationを用いて分析。今回のモデルにおいは容認可能な検定力評価を得られた。

 

[Results]

RQ1NLPの手法であるCoh-metrixCFAによって言語レベルの分類と潜在変数との関係をモデル化

・記述統計:先行研究がCoh-metrixによって示した3つの言語レベルにける項目について,対数変換,平方根変換,逆数変換を行って正規性を確保し,各項目を相関係数(|.30|以下を除外)により選別。(23項目→9項目+2)

(1~3: Word, 4~6: Sentence, 7~9: Discourse, 10: DAW, 11: ER)

 

Multigroup CFA

・6年生と8年生それぞれで最も適合するCFAモデルを確立

→言語レベルで仮定されたモデルの構成概念妥当性が満たされていることが示唆された。

  また,語レベルでは単語選択の要因,文レベルは統語的類似性・多様性の要因,談話レベルでは文と段落との意味的一貫性が,文脈のある文を作ることができる程度の要因と解釈できる。

 

configural modelによって,グループ間で因子数・因子構造が等しいかを検証

 →multigroupにおけるモデルの適合度は高かった。

(χ2=71.34, df= 46, p =0.010; RMSEA = 0.05 [0.02, 0.07]; CFI =0.98; TLI =0.97; SRMR =0.04.)

 

metric invarianceよって,グループ間で因子負荷量が等しいかを検証

sentence length of SDによって適合度が悪くなったと考えられ,partial metric invarianceを行ったところ,適合度が高まった。

→グループ間において因子数,潜在変数と説明変数との関係は等しかった。ただしsentence length of SDの因子負荷量はグループ間で異なる。

 

RQ2 ⇒ discourse, sentence要因は結果に有意に関係している

SEMによってRQ1CFAモデルがパフォーマンス結果を正しく予測できるか検証

・各学年で同じ構造が得られたが,ERに対するSentenceの因子負荷 (Grade 6=0.33, Grade 8=0.16)において顕著な違いがあった。

6年生ではDAW6%ER16%の変数,8年生ではDAW8%ER4%の変数が言語レベル要因によって説明可能だった。→予測的妥当性のinitial evidenceであると判断

 

・参加者の要因(性差,経済力など)を含めて再度SEMを実行

 →パス図において,談話要因・文要因とDAWERとのつながりは統計的に有意であった。

 

[Discussion]

Implication for the potential of automated formative writing assessment

・ライティングの形成的評価の利点は,(a)ライティング能力向上に結びつくような,妥当でニュアンス的な情報を与えられること,(b)教師が有効なフィードバックを与えられること,などがある。

・本研究では,言語レベルにおける自動化された測定方法がライティング能力の測定に有意に結びつくことが示唆された。今後はそれをいかにフィードバックへとつなげるかが課題となる。

・自動化された測定方法では,コンピューターの構成概念妥当性の欠如や,テキストの長さや語彙・文法の複雑性を過度に評価してしまう危険が考えられる。また,自動測定は教師のフィードバックを補助するものとして使うべきである。

 

Limitation and future research

・ライティング能力測定の場合はトピックと話題を考慮する必要がある

 →本研究はargumentativeのみを対象にしたので,他ジャンルでも測定していかなければならない。

・本研究で使用されデータはstate’s writing assessmentの一度きりのライティング結果であるため,他の全ての場合においても妥当であるとはいえない。

 

[疑問点]

RQ2で示された説明可能なパーセンテージが低すぎる?

 →どの程度なら予測的妥当性を説明できると言えるのか。

CFAにおいて,グループ間で異なる因子構造があった場合の処理はどうするのか?

AWEと教師による直接のフィードバックをどのように使い分けていくと良いのか?