渡慶次正則(2014)「TOEFL iBTにおけるスピーキング測定とライティング測定の妥当性、信頼性、

  実現性」『名桜大学紀要』19, pp.65-76

 

1. はじめに

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 ◎ TOEFL iBTに初めて導入されたスピーキングライティングを焦点化して検証する。

 

2. 先行研究

2.1 TOEFLテストの発達

 ① PBT(ペーパーベーストテスト)

   ・マークシート方式

        Listening(聴解)… 50問(3040分間)

   ・構成   Structure and Written Expressions(文法)… 40問(25分間)

        Reading(読解)… 55問(50分間)

   ・難点:試験中にメモを取ることが一切許されなかった。

 

 ② CBT(コンピュータ・ベーストテスト)

     ・コンピュータを用いて解答

   ・特徴:受験者に応じて問題を変えることができる。

   ・構成:PBT +「書く能力(⇒与えられたトピック1題について、直接コンピュータに入力)

   ・「書く能力」の試験のみメモを取ることが許された。

 

  iBT(インターネット・ベーストテスト)

・構成:リーディング、リスニング、スピーキング、ライティング(各30点)

・スピーキングとライティングのみ他の4技能と組み合わせた統合テスト

 

 

2.2 Huges2003)に基づく妥当性、信頼性、実現性

    妥当性validity

 意図するものを的確に測定しているかどうか。

 的確に測定していれば「そのテストは妥当性がある」と言える。

        (1) 内容妥当性:テストの内容が測定すべき事項を含んでいるかを示す。

        []スピーキングの測定 → 発音記号の知識で測定 ?

     (2) 構成概念妥当性:言語能力に対する理論的な概念の妥当性。妥当性の中で最も重要。

            []「コミュニケーション能力が高い」→具体的にどのような構成要素を測定すべきかを

                          理論的に考えてテストを作成する。

     (3) 表面妥当性:受験者や管理者、保護者にとって試験が表面的に説得力があるかを示す。

 

   信頼性reliability

 測定する言語能力が同じ条件下で測定した場合、同様な測定結果を示すかどうか。

 本稿では、信頼性を高めるための問題作成者の観点について検証。

採点者によって採点結果に偏りが生じていないかを判断する採点者信頼性の観点から論じる。

 

 実現性practicality

実際に実施できるかどうか。

 

3. 調査方法

 ETSから公式認定を受けているCIEE(国際教育交換協議会日本支部)主催によるTOEFL iBTの指導者対象ワークショップを筆者が受講し、認定トレーナーから採点の具体的な指導を受け、受験者として主にスピーキングとライティングのテストに取り組んだ際の文献資料とフィードバックを用いて検証する。

 ワークショップについての詳細は以下の通り。

 

 参加ワークショップ:Propell Workshop for the TOEFL iBT Test

 日時     :平成251117日(日) 午前930分~午後4

  主催者   CIEE

  参加者   :講師と受講生18名(ほとんどが大学英語教員)

  配布資料 :TOEFL Teacher Workshop Manual, TOEFL More Skills & Activities, TOEFL Reading,

               Listening, Speaking & Writing, TOEFL Prep Planner

 

 

4. 調査結果と分析

  本稿では、ライティングのみ取り上げる。

 

 

4.1 ライティング採点の体験と検証

 筆者が、TOEFL Teacher Workshop Manualを用いてライティング採点を体験。0から5までの6段階のスケールで評価される。細部は採点せず、全体的に文章の一貫性と正確性を測定する。

 

<タスク実例(統合ライティング)タスク(表3を参照)>

  題目:「グループプロジェクトの長所と短所」

  活動1:題目について300語程度の文章を読む(3分間)

  活動2:題目に関連した教授の講義を聞く(2分間、300語程度)

  活動3:聞き取った文のポイントをまとめ、読んだ文章に関連付けて説明する文を書く

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


<ライティング・サンプル>

 ライティング・サンプルを用いて採点を行ったところ、「受講者間で採点に大きなばらつきが生じ、ライティング測定と指導の難しさを痛感した」と筆者は述べる。

 

【サンプルA:レベル3(筆者はレベル4と判定)】

・文法的な誤りが散在するが、意味の理解を大きく妨げる程度ではない。

・講義と資料文のポイントを列挙している。

・単語の綴りミスは1ヶ所。

・ポイントは正確に伝えているが、資料文と講義の内容をうまくカバーしていない。

・不正確で不明瞭な表現がある。

 

【サンプルB:レベル5(筆者はレベル4と判定)】

・文法的な誤りは2ヶ所。

・文の始まりが小文字で始まっている文が2ヶ所。

・講義と説明文の内容をもらさず説明しており、両者の対比点も説明している。

 

【サンプル基準文(レベル1)】

・使われている言語のレベルは非常に低い。

・講義を参照して書かれているのが第2パラグラフしかない。(全第4パラグラフ)

・パラグラフから意味をつかみ取ることが困難。

・一貫した情報に貢献していない。

 

<採点体験・採点基準説明資料・Manualの注釈から明らかになった点>

・文法や綴りミスは大きな誤りではない。

・講義や説明文の内容のポイントをもらさず説明すれば高得点が得られる。

・文章の量は、制限字数を超えても減点はない。

・難解な語を用いていても、資料からコピーした文が多く書き手自らの言い換えや要約がほとんど

 ないと、低い採点となる。

 

4.2 ライティング測定の妥当性

3より、

   統合タスク :講義などで観察される文献を読んだり、講義を聞いて対比しながらポイントを

          書いてまとめたりするタスク。

   独立タスク :個人的な意見や立脚点について論拠を示しながら論述する従来の形式のライテ

          ィング。

 

(1) 内容妥当性

・伝統的な論述的エッセイと講義でのノートテイキングを測定する基礎的かつあらゆる講義に共

 通する書く能力を測定している。

 →アカデミック・ライティングを全体的に網羅しているわけではないが、必修な内容。

 

(2) 構成概念妥当性

paraphrase, summarize, synthesizeはアカデミックな最も基本的なスキル。

iBTテストは、大学の初年次を想定したアカデミック・ライティング

[] Cottrell2003):アカデミック・ライティングに共通する特徴

  ①根拠資料を利用すること    ②比較・対比すること

  ③評価する基準を用いること   ④問題解決の複雑さへの認識を持つこと

 

  

  ⑤論旨に従うこと        ⑥問題に対する立脚点を持つこと

  ⑦決められたスタイルに従うこと ⑧論旨が一貫していること

  ⑨感情的に中立であること

iBTテストの統合タスクと独立タスクがすべてのアカデミック・ライティングを包括している

 とは言い難く、限定的である。

 

(3) 表面妥当性

iBTライティング・タスクがアカデミック・ライティングを全体的に網羅しているとは思えな

 いが、米国の大学教育を経験した筆者としては、大学の講義での典型的なライティングである

 ことは直感的には理解できる。

 

4.3 ライティング測定の信頼性

iBTテストでは、ライティング測定結果の信頼性に大きな配慮をしている。

・試験当日に行う採点者の検査に加え、計4人(種類)の採点者によって採点される。

・統合タスクは2名、独立タスクは1名+機械による採点プログラムによって採点される。

 

□採点者の主観や採点の偏り…大きな課題

 ┗文法や綴りなどの言語的な誤りを機械で採点する=より主観性を排除した採点方法

 ┗複数の採点者を用いる=採点の偏りや主観性の最小化

 ┗レベル別基準文と照合しながらの採点

 ⇒信頼性は大きく進歩している

 

4.4 ライティング測定の実現性

2つのタスクに対し、応答文をコンピュータに打ち込む形式:技術的な困難点は少ない

  必要となるのは、タッチタイピング等キーボードへの入力の技術

  →現代社会において必須な一般的学習スキル

 

5. 結論

これまでTOEICや実用英語検定試験ではスピーキング力とライティング力を測定できなかった

 →4技能を測定するTOEFL iBTへの期待は非常に大きい!

 


多数のコンピュータ機器を要すること

テキスト ボックス: 課題採点者のトレーニングに専門的ノウハウ・時間・経費を要すること

受験費用が高額であること

受験時間が長時間であること

試験センターが不足していること

 

 

■ディスカッションポイント

・機械を用いて採点すると、文法ミスやスペルミスなどの形式的なミスばかりとりあげてしまうのでは

 ないか。独立タスクを採点する際、独立タスクの採点者と機械とで採点の仕方が違った場合、統合タス

 クのように個々の回答に柔軟に対応できないのではないか。

TOEFL iBTテストは未だ多くの課題を抱えているが、中でも長時間という問題はどうすれば改善され

 るか。

 

<みんなから出た意見>

・統合タスクでは2名とも人間が採点するのに、独立タスクでは人間と機械で採点するという違いがな

 ぜあるのか気になった。

 →(先生のコメント:)採点を人間がやるとコストがかかるから、なるべく機械でできた方が良い。

・評価者間信頼性はカバーできているかもしれないが、評価者内信頼性はどうなのか。

 →(先生のコメント:)サンプルで提示されているのと同じように採点者みんなが判断できるようになる

  よう、訓練が必要である。

・文法ミスは大した問題ではないという考え方もまた主観なのではないか。

 →(先生のコメント:)文法は日本人がよく見るところ。TOEFL iBTの採点は世界各国の人々が採点す

  るため、国によって重視する点が異なる可能性がある。受験者も、国によって気を付ける所が変わ

  る。

・機械にコーパスを読み込ませて、色々な例を覚えさせて応用することで、機械と人間での分業がもっと

 確立されると良いと思う。

 →(先生のコメント:)今、機械もかなり発達しており、文法や構成も見ることができるようになってい

  る。

・問題を作る際、かなりのお金が使われているが、せっかくiBTのような良いテストになっているのだ

 から、もっと受験料も下がって時間も少なくなれば多くの人に受けてもらえると思う。その点では、機

 械化もよいと思った。