ABOUT/CONTACT

SEMINAR

SLAA
（Second Language Acquisition & Assessment Research Group）

FOR STUDENTS

TEASY

LINK

2019年度　　応用言語学特講Ⅰa

Chapter 7

Issues Involved in Learner Text-Based Studies~

Issues Involved in Learner Text-Based Studies

・指標の信頼性、妥当性

・自動化(automated)と交差言語的な(crosslinguistic)コーディングの問題

・手続き上の問題

データの採取(eliciting)や他のデータとの組み合わせ

Reliability

量的研究では、どんな種類のデータを分析するにせよ、コーディングが信頼できるようにしなければならない

⇔emergent coding(Chapter 11)

理論やモデルなしに行うコーディング

質的研究で行う

他の人がコーディングしたとしても、同じ結果が得られる＝信頼性あり

反対に、他の研究者が追試して同じ結果が得られなければ方法の信頼性を確認するまではどんな結論も言えない

多肢選択式のテスト：信頼性を担保する統計的な手法が様々

n L2ライティングにおける評価者間・コーダー間信頼性

評価者間信頼性が高いコーディング

例）T-unit

2人の評価者がT-unitの数を数えた際、98％の信頼性(80％なら許容可能)を達成

→T-unitを数える際は、1人でも問題ない

n 評価者間で判断が揺れるコーディング

例）T-unitあたりの節の数

T-unitをさらに細かく分けると、コーディングは困難になる

Example 6.1: The wedding guests ate, drank, and danced all night.

主語が1つしかないので、節の定義によって1つか3つになる

Example 6.2: Even though the guests enjoyed themselves, a lot of preparation.

書き手は"there were a lot of preparations"と書きたかったが、主語と動詞を削除してしまった

コーディングでは明確なガイドラインが必要だが、ガイドラインがあったとしても困難なこともある

「エラーとは何か」を一致させることが難しいため正確性をコードすることは困難である

例）レジスターの違い

who/whom

gonna/going to

文法のエラーも書き手が意図した意味を理解することの困難さだけでなくコーダーの方言の違いもあり困難である

Example 6.3: The student are always must leave early from the class.

エラーの種類をコーディングする場合、以下のようなこと考えなければならない。

・studentが複数(sの脱落)なのか、単数(be動詞)なのか

・classがそれ以前の文脈で定義されているか

・スペルミスをコードするかどうか

これらの決定は、信頼性を担保するためにガイドラインに加える必要がある

また、例えばエラーのないT-unitの数を数える、と決定すれば、作業は楽になる

→エラーがあるか/ないかの2択になるため

しかし、Polio and Shea(2014)では、5個以上のエラーがあるT-unitに別なコードを当てたところ、エラーのないT-unitを数えることが必ずしも信頼性を高めるわけではないことを発見した。(語彙的エラーの数の信頼性が下がった)

・ここまで正確性を例に挙げてきたが、何を調査するにしても信頼性は重要である。信頼性についてすべての研究が述べてるわけではなく、またデータの一部だけを提示する研究もある。

・評価者間で95％の信頼性を達成したら、すべてのデータを2人で分析する必要はない。

・コンピューターでコーディングする場合は、信頼性は問題にならない(コンピューターはいつでも同じ結果を出すため)。その代わり、妥当性が問題になる。

・信頼性を測るのに、どの指標(measure)を使うかについて

単純にPearsonの相関係数が使われる

データがカテゴリーに分類されている場合、一致率(percentage agreement)かカッパ係数(Cohen's Kappa)が用いられている

生物統計学など、ほかの手法を参考にすることも価値がある。

Validity

n L2ライティングの妥当性

Wolfe-Quintero, Inagaki, and Kim(1998)

過去の研究からもっともよく上達をとらえるライティングの指標を見つけ、その指標を確かめようとした。

縦断的研究・横断的研究を検証

→指標が時間による変化を見せる、熟達度との相関がみられる場合に妥当であると言える

この結論には若干の問題点がある

・逆は必ずしも真である必要はない

指標が時間による変化を表さなかったとしても、指標は妥当である

・異なる構造の発達が線状ではないため、すべての研究の結論が生徒の熟達度のレンジによって制限される

→生徒の熟達度によって、語彙的に変化が起こるか、構造的に変化が起こるかが違う(Verspoor et al., 2012)

n 相関が存在していれば、その指標は妥当であると言える

例）語彙的な複雑さあるいは文法の正確さがエッセイの質と相関関係にあると予想する。しかし、もしそこに相関が無ければ、結論は限定されてしまう。

Bulte and Housen(2014)でエッセイの質とテキストの従属関係の間に関連があると発見した。たとえ従属関係の指標が時間変化に関係しなかったとしても、質に関連があったという事実は指標が複雑さのあるアスペクトを示していることを意味している。

妥当性を調べるうえでより複雑な統計学的なテクニックがあるが、L2ライティングではほとんど使用されていない。

Automated Coding

n コーディングを人力で行うか、コンピューターで行うか

語彙に関してはコンピューターが行う

→異なり語数/総語数のように、人の判断がほとんど介入しないため

Natural Language Toolkitのように、さまざまなソフトウェアがある。人力の時とは違い、毎回同じ結果となるため信頼性は問題とならない。

その代わり、妥当性が大きな問題となる

・語彙的なエラーが無視される

・語の正確さが異なる構造で判別される

・低頻度語彙を謝っていたとしても幅広く使うと、語彙的多様性の面で高評価がでる

n Coh-MetrixやSyntactic Complexityは複雑性に関する指標である

Coh-Metrix：リーダビリティの指標として開発されたが、L2ライティングに応用されている

※文と文、パラグラフとパラグラフの間の結束性や一貫性を視野に入れた指標

Syntactic Complexity：L2ライティングに特化して開発された

・両方ともシステムに基づいて理論的に解釈するが、そのプログラムは自然言語処理のバックグラウンド無しに評価することは難しい。

・どちらも妥当性は担保されているが、それでもL2ライティングの解釈を扱うには疑問が残る。人力で複雑性を評価したものとCoh-Metrixを使ったものを比較した研究はない。

→ただし、Lu(2010)やYoon and Polio(2016)は両者の間に十分な相関があったと報告している。一方、正確性についてはいまだ人力でのコーディングが要求される。

Educational Testing Servece's Criterionのように、学習者に文法エラーのフィードバックを与えるソフトウェアもある。ただし、それらは研究用にすべてのエラーをコードするようには意図されていない。

Crosslinguistic Measure

このチャプターでは、ほとんどの研究が主に英語、一部ドイツ語を分析対象にしている。テキスト分析の指標を別な言語にも適用する場合は注意が必要である。同じ言語で同様の指標を使う場合は問題がないが、別な言語で用いる場合はそれが適切かどうかを検討する必要がある。

How to Design a Study Using Text Data

Eliciting Data

テキストデータがリサーチクエスチョンの答えを見つけるのに役立つ場合、どのようにデータを採取(eliciting)するかを決めなければならない。

Kuiken and Vedder(2008)

タスクの複雑さを操作し、生徒が書いたものの状態で決めた

どの側面を測るかによって指標を決定

実証的研究の場合、生徒は短時間で参考にするものなしにエッセイを書く。言い換えれば、TOEFLの自由記述のような状況と似ている。外部の情報源を使わずに、手あるいはテキストエディター(校正機能のないもの)を用いる。これは、剰余変数をコントロールするためである。

例）ある生徒は校正機能を使って短いが正確なエッセイを書き、他の生徒は校正機能を一切使わない

エッセイを書く状況を制御することで、独立変数に起因させることができる。

n キーボードを使うべきか否か

初心者はタイピング能力がライティング能力を示すわけではないので使うべきではない。しかし、より熟達した学習者は、手書きでスピードダウンすることがある。タイピングはデータ分析を楽にするが、すべての参加者にコンピューターを用意することが難しいこともある。

n どれくらいの時間を用意すべきか

研究の文脈では、より多くのデータがある方が良い。しかしコースの時間や、生徒の疲労などが介入する。研究に使う生徒とよく似た生徒でパイロット実験することで、どれくらいの時間を与えればいいかを参考にする手がかりになる。エッセイが短すぎた場合、量的研究には適していない。

n どんな刺激(prompt)を与えるか

どんな刺激を与えるかを時間や資源を考慮しながら決定する。その刺激が独立変数の場合は、リサーチクエスチョンに加える。しかし、辞書使用の効果を調べたEast(2007)のように特定の刺激がリサーチクエスチョンで言及されない場合もある。

エッセイのトピックの親しみやすさも重要である。生徒がトピックについて詳しくない場合、エッセイをあまり書けないことがあり、余計な変数となる。

刺激として絵を見せたり、絵のストーリーについて語ったりする研究もある。

→トピックの知識に関する問題を排除、ただし生徒が書く方法は広い

例）

過去形/現在形

独立した記述か/全体的なストーリーか

これらの問題もパイロット実験で検証可能

書くときの状態や刺激の選択は生態学的妥当性にも関係する。それは、実験でやるような短い時間でエッセイを書くという状況は実際のL2学習者の文脈に即していないかもしれないということである。

Making Coding Decisions

何を測定するか、あるいはどの言語機能に注目するか

明かな場合もあれば、そうでない場合もある

Benevento and Storoch(2011)

フランス語のライティングスキルが6ヶ月の指導でどのように変化するか

正確さ、複雑さ、チャンクの使用について調査

しかし、結束性やディスコースマーカーの使用について調査することもできる

もしテキストを機械で分析する場合、ソフトウェアに導入できるようデータを用意しなければならない。手書きの場合は打ち込む必要があり、必要なデータをつけておく。(名前、判別不可能な文字への注釈など)

正確さや複雑さについて評価する場合、まずはエッセイを表を用いてT-unitに分割する。そして、それぞれの行について集計を行う。この時、節の数やエラーの数、エラーの種類やディスコースマーカーを含めることもできる。表は統合して信頼性について計算したり、平均をもとめたりできる。

終了したら、ガイドラインをより発達させる。これは、のちに追試を行いたいものへの付録にもなるため重要である。しばしばコーディングがはっきりしていないことがある。また、コーディングの方法もさまざまである。ベストな方法がないとき、方針を一つに決めて明確にしておく。明確なガイドラインは信頼性を高めるうえでも役立つ。ガイドラインは、2人の評価者が研究に用いるのとは別のデータでディスカッションしながら作成する。これはテスト採点者がルーブリックを使い規範化するプロセスと似ている。先に述べたように2人の評価者がすべてをコーディングするか一部ののみをするかは評価者間信頼性による。

Supplementing with Other Data

最後に考えなければならないのは、テキスト分析に加えて、他の方法論を使うかどうかである。研究がケーススタディならば、他の手法を使う必要がある。しかし、大規模な研究でも他の手法を用いるメリットは存在している

Focal Study

Kormos, J. (2011). Task complexity and linguistic and discourse features of narrative writing performance.

【Research Questions 】

RQ1: 物語において、生徒にコンテンツを教えた場合と生徒自身に物語をプランさせた場合における語彙、文法、結束性の違いは何か？

RQ2: 母語と外国語の間で語彙、文法、結束性の特徴はどのように異なるか？

【Method】

44人の中等学校ハンガリー人EFL学習者と10人のイギリス人大学生が絵をもとに2つの物語を書く。漫画の中にはストーリーが示されているので、参加者が自分で物語を作ることはできないが、難しい語を使うことができる。絵の方には関連のないものが並んでいるので、参加者が自由にストーリーを作ることができるが、難しい語を使う必要はない。

それぞれの物語は語彙、文法的複雑さ、正確さ、結束性の観点で評価される。

【Results】

EFL学習者の間で2つのタスクに大きな違いは見られなかった。一方は語彙、一方は結束性に違いがみられたが、他の側面にはなかった。母語話者との違いでは、語彙と複雑さに違いがみられた。L1からの干渉は見られなかった。

Discussion of a Focal Study: Kormos (2011)

・指標の選び方は適切である。語彙の指標を例に挙げると、D-Valueを主に使っているが、そのほかにも2つの指標を用いている。文法や正確さについても、複数の指標が適切に用いられている。

・2つの物語についての違いを見つけることはできなかったが、すべての語彙的な指標や複雑さの指標が同じ結果を示すわけではないという事実は、それらが同じものを測っているわけではないことを示す。様々な指標を使っていることで、違いが起こりうる可能性のある指標を網羅することができた。

Discussion Point

・EFL学習者のエッセイをコンピューターで評価した場合、人力による評価とどのように異なるだろうか。