1. イベント・セミナー情報 HOME
  • 2022年06月03日
  • 公益財団法人 日本英語検定協会
  • ビジネステスト事務局

ビジネスを動かす英語力~成功する企業のグローバル人材育成と採用~
セミナー開催レポート

開催概要:2022年1月26日(水) オンライン開催
主催: 公益財団法人 日本英語検定協会
共催協力: ケンブリッジ大学英語検定機構 /株式会社ジェイエイシーリクルートメント

本セミナーのポイント

グローバルビジネスパーソンの育成は、多くの企業にとって重要なミッションとなっていますが、人事担当者にとって、具体的な取り組み方法の検討は極めて難しい課題となっているのではないでしょうか。英語力の向上を図るうえでカギとなるのは、信頼性の高い効果測定による「英語スキルの可視化」です。

2022年1月、英国のケンブリッジ大学英語検定機構、株式会社ジェイエイシーリクルートメントとのコラボレーションで開催された公益財団法人 日本英語検定協会主催のオンラインセミナー『ビジネスを動かす英語力~成功する企業のグローバル人材育成と採用~』では、3名のゲストスピーカーを迎え、「英語力の可視化」をテーマにアカデミックな視点、そして人事・採用の視点から、これから益々ニーズの高まるグローバルなビジネスコミュニケーション力についての講演が行われました。

スピーキングテストのAI単独採点は本当に信頼できるのか?~正しいゴール設定と信頼あるテストの重要性~

ケンブリッジの英語能力試験Linguaskill(リンガスキル)の開発に携わる二人の研究者に、英語スピーキングのAI自動採点の技術と信頼性について、最近の研究論文に基づき講演していただきました。

ケンブリッジ大学英語検定機構サマリーレポート 文:ケンブリッジ大学英語検定機構様
 

登壇者:Cambridge Assessment English(ケンブリッジ大学英語検定機構)
Dr. Jing Xu (ジン・シュー博士)
Dr. Edmund Jones (エドモンド・ジョーンズ博士)

 
 

  • 人工知能(AI)の研究開発

    ケンブリッジ大学英語検定機構では第二言語として英語を話す音声の自動採点技術の領域において、2012年からケンブリッジ大学工学部と共同研究を行っています。

    Linguaskillでは2020年7月から、スピーキングテストにAI採点を導入し、人間の試験官(人手採点)とAI採点の融合である「ハイブリッド採点」の仕組みが稼働しています。基本的な考え方は、AIが採点結果に対して不正確と予測した、あるいは疑義を検出した場合に、代わりに人間の試験官が受験者の回答を採点するというものです。

    人間の試験官(人手採点)とAI自動採点の比較

    人が採点を行う対面式のスピーキングテストでは、受験者は「実世界」のようなやり取りで質問に答えたり、ロールプレイや他の受験者と協力して意見交換や意思決定を行ったりするタスクが存在します。したがって、試験運営上の課題は、①試験官のトレーニング、②十分な資格を持った試験官を見つけるのが難しいこと、③テスト結果を速やかには算出できないことにあります。
    一方、コンピュータ採点のスピーキングテストは、テスト結果の返却がとても迅速です。採点の際に使用される「自動採点(automarker)」はスコアの一貫性が高く、一度システムの訓練を行えば常に同じ方法で受験者の回答を採点することができます。人手採点のように採点者側が疲れて採点結果に影響が出るリスクはありません。これにより、オンデマンド(希望に応じた)試験日の設定が可能になりました。ただし、高品質な自動採点システムの構築には、機械学習の高い専門性とシステムを訓練するための高精度なデータが必要です。

    スピーキング自動採点の構成

    スピーキング自動採点の仕組みは、音声認識、特徴量抽出、グレーダーの3つで構成されています。

    言語産出(発声)は、音声認識で英語のテキストに変換され、特徴量抽出モジュールでは音声とテキストの両方からスピーキングパフォーマンスの品質を示す言語的特徴量を抽出します。

    3つ目のグレーダーとは、言語的特徴量に基づいて受験者の熟達度を推定する統計モデルを指します。

    Khabbazbashi, N., Xu, J., & Galaczi, E. (2021). Opening the black box: Exploring automated speaking evaluation. In B. Lanteigne, C. Coombe, & J. D. Brown (Eds.), Challenges in language testing around the world: Insights for language test users (pp. 333–343). New York: Springer.

    スピーキング自動採点の妥当性チェックのために行う6つの質問
    言語評価の研究者は、自動採点を評価するために、テスト利用者に対して以下の質問を用意しています。

    1. What data has the auto-marker been trained on?
      自動採点は、どのようなデータで学習させたのですか?
    2. How is the test administered in practice?
      実際のテストは、どのように実施されているのですか?
    3. What speaking tasks are used in the test?
      テストでは、どのようなスピーキングのタスクが使われていますか?
    4. What scoring features are extracted to inform a score?
      どのようなスコアリングの特徴を抽出して、スコアに反映させるのですか?
    5. How well do the auto-marker scores agree with the human expert scores?
      自動採点のスコアは、熟練の人手採点と比べて、どのくらい一致しているのですか?
    6. What is the potential for cheating on the test?
      テストで不正が行われる可能性は?

    以上が、スピーキング自動採点の妥当性を確認する際に有効な質問です。

    続いて、次の2つの研究課題について、詳細な説明²をしました。

    関心のある方は、Assessing L2 English speaking using automated scoring technology: Examining automarker reliability, Assessment in Education: Principles, Policy & Practice.(2021, Jing Xu, Edmund Jonesら共著論文) をご参照ください。

    (1)「自動採点のスコアは、判断の基準となる人手採点のスコアとどのくらい一致しているのか?」
    (2)「自動採点は、英語の発声と英語以外の発声を確実に区別できるのか?」

    ハイブリッド採点の性能

    Linguaskillのスピーキングテストの単独自動採点は、ケンブリッジ大学英語検定機構としてまだ十分に満足な採点結果ではないと判断している³ため、自動採点と人手採点を組み合わせたハイブリッド採点を採用しています。
    3 現在使用中の最新版「自動採点(automarker)」ではなく、以前の古いバージョンを用いた調査に基づく採点結果であることをご留意ください。

    まとめ

    自動採点には、適切な検証とエビデンス、つまり、採点が正しく機能し、信頼性の高い有意義なスコアを算出することを示す必要があります。

    これらの主張は、データを用いた厳密な研究によって裏付けされる必要があります。学会や学術誌で発表することも、研究の厳密さを示す一つの方法です。

    Linguaskillのスピーキングテストでは、受験者が正確なスコアを確実に受けとることができるよう、ハイブリッド採点で正確なスコアを提供しているのです。

     

    <講演内容を振り返って (日本英語検定協会)>
    言語評価における信頼性の確保のために、様々な検証と数値による裏付けが求められる自動採点。現在は、ハイブリッドでの活用が現実的であるとしながらも、シュー博士、ジョーンズ博士の所属するケンブリッジ大学英語検定機構では、さらに新しいバージョンのハイブリッドマーキングの開発がすすめられ、現在も継続的な開発・改良が行われているそうです。社会全体におけるAIの活用の場が拡大しているように、自動採点技術等、アカデミックな分野におけるAIの役割もまた、今後ますます大きく、そして進化したものになるであろう可能性を、確かに感じることができた第1部でした。

     

    *****************セミナー内でいただいたご質問への回答*****************

     

    1. Q1:AI自動採点は受験者数が増えるほどデータが蓄積され、精度が高まるのですか?
      (Will the accuracy of automatic AI scoring increase as the number of test takers increases and data is accumulated?)
    2. A1:はい、そうなることを期待しています。ただし、自動採点(automarker)が必要とする「学習データ」は、通常、自動採点と人間の採点官の両方(自動採点だけではない)が採点した回答でなければならず、また、現在の受験者集団をできる限り代表するものでなければならない、という2点を補足させていただきます。
      (Yes, we expect that it will. However, two points are worth mentioning. The “training data” needed by the automarker normally has to be responses that are marked by both automarker and human examiners (not just the automarker), and it also has to be as representative as possible of the current test-taker population.)
    3. Q2:2-3年後には更に精度が上がっていると考えて良いでしょうか?
      (Will the accuracy of automarker be even higher in 2-3 years?)
    4. A2:はい、そうなると思っています。自動採点の技術は多くの側面で、持続的かつ段階的に改良が加えられていますが、具体的な予測を立てるのは非常に難しいですね。
      (Yes, we expect that it will. There is constant gradual improvement in many aspects of these technologies, but it is very hard to make concrete predictions.)
    5. Q3:今後自動採点が人手採点と同等の精度に達するには、どの程度の時間がかかるでしょうか?
      (How much time will it take to reach the same level of accuracy as human rating in the future?)
    6. A3:残念ながら、これは予想がつきません。ライティングに関しては、すでに自動採点は十分な精度を持ち、一部のテストでは単独で使用できると考えていますが、スピーキングに関しては、まだそのレベルには到達していません。
      (Unfortunately, this is impossible to predict. For writing we think automarking is already sufficiently accurate to be used on its own for some tests, but for speaking that level has not yet been reached.)
    7. Q4:この先自動採点(automarker)は人手採点以上の精度となり、自動採点が主流になっていくのでしょうか?
      (Will the automarker become more accurate than scoring by human grader in the future, and will automarkers become the mainstream instead of human rater?)
    8. A4:これは複雑な問題です。自動採点の精度は、人手採点の場合と比較することで測定されます。しかし、人間の採点官の間には多少のばらつきがあるので、自動採点のスコアを、人手採点の専門家グループによる総合的な判断と比較した際に、自動採点の方が個々の人間の採点官よりも正確な採点を行う可能性があります。一般的に英語テストは、スピーキングやライティングなど、技能によっては運用上自動採点のみで採点されている場合がありますが、自動採点のスコアが十分に正確であるかどうかを判断するために、人間の採点官が必要とされているのです。
      (This is complicated. The accuracy of an automarker is measured by comparing it to human examiners. But there is some variation between human examiners, so if we compare the automarker`s scores to a collective judgment made by a group of expert human examiners, then it might be possible for an automarker to be more accurate than individual human examiners. Some components of English language tests are operationally marked by automarkers only, but there is still a need for human examiners, to judge whether the automarker scores are accurate enough.)
    9. Q5:言語自体も時代の移り変わりで変化していくと思いますが、自動採点の技術開発においてはそういった要素は考慮されているのでしょうか?
      (Languages themselves change with the times, but are these factors taken into account in the development of automarker technology?)
    10. A5:はい。テスト課題を定期的に見直して最新のものにし、自動採点も定期的に再トレーニングして、現代英語に対応できるようにする必要があります。
      (Yes. The test tasks need to be periodically reviewed to make sure they are up-to-date, and the automarker also needs to be periodically retrained to make sure it performs well on modern English.)

海外事業展開と英語力〜中途採用市場で獲得できる“英語力”とは〜

 

登壇者:株式会社ジェイエイシーリクルートメント 海外進出支援室長・チーフアナリスト
佐原賢治氏

 

『海外事業展開と英語力』に登壇したのは、人材紹介会社ジェイエイシーリクルートメントで海外進出支援室長を務める佐原賢治氏。日本と海外でグローバルに事業を展開する日本企業に対して、様々な人材を紹介されています。Linguaskill Businessを通じて自社の社員の英語力育成に取り組んでいる組織として、また高い英語力を持つグローバルな人材とクライアントをつなぐ企業として、「中途採用市場で獲得できる“英語力”とは」をテーマに、求人企業や求職者の最近の動向から見える採用成功のポイントについて説明されました。


ビジネスコミュニケーションスキル向上のカギ~スキル向上のPDCAサイクル~

 

登壇者:公益財団法人 日本英語検定協会 ビジネステスト事務局
永吉伸己

 

「英語のできるビジネスパーソンと聞くと、どんなイメージをお持ちになるでしょうか?」そのような参加者への問いかけをもって幕を開けた『ビジネスコミュニケーションスキル向上のカギ』では、社会人の英語ビジネスコミュニケーションスキルの育成のための、継続的な英語学習の仕組みづくりについて焦点を当てたプレゼンテーションが行われました。
まず初めに、永吉は英語学習における技能の偏りについて指摘。実際のビジネスにおける英語の活用シーンでは商談やプレゼンテーション、そして資料作成などの「アウトプットスキル」が求められるにもかかわらず、多くのビジネスパーソンが取り組む英語学習は、「インプットスキル」のトレーニングが中心になってしまう傾向にあると話しました。




 
 

Linguaskill Business / Cambridge Online Courseに関するお問い合わせ

公益財団法人 日本英語検定協会 ビジネステスト事務局
TEL:03-3266-6366
Email:biz_eiken@eiken.or.jp
※平日9:30am-5:30pm(土・日・祝日を除く)

※本レポートの著作権(著作権法第27条、第28条に定める権利を含む)、特許権、実用新案権、意匠権、商標権
その他の知的財産権は公益財団法人 日本英語検定協会に帰属します。

ページトップへ