ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

ChatGPTはクラウドワーカーより優秀か データのラベル付け作業で検証 結果は?Innovative Tech

» 2023年04月05日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 スイスのチューリッヒ大学に所属する研究者らが発表した論文「ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks」は、機械学習向け大規模データセットを作成するためのラベル付け作業(アノテーション)において、ChatGPTと人ではどちらがパフォーマンスが良いかを検証した研究報告である。

 多くの機械学習モデルでは、学習やテストを行うために高品質なラベル付きデータを必要とする。科学の進歩のため、研究者が特定分野の大規模なラベル付きデータセットを作成して公開する。あとの研究者らは、このデータセットを使用して学習やテストを行い効率的に新たな研究を進める。

 とはいえ、研究によってはこれまでにないラベル付きデータセットを必要とする場合も多い。その場合は自分たちでラベル付けを行いデータセットを作成しなければならない。この作成は、研究室周辺の訓練されたアノテーター(リサーチアシスタント)で収集したり、Amazon Mechanical Turk(MTurk)のようなプラットフォーム上のクラウドワーカーに依頼したり、両方を合わせたりする。

 どちらも利点や欠点がある。リサーチアシスタントは高品質のデータを作成するが大きなコストがかかり、クラウドワーカーは安価だが品質が不十分である可能性がある。

 今回は、新たな作成手法としてChatGPTによるラベル付けタスクを検証する。この研究では、2022年11月にリリースされたChatGPTに焦点を当て、テキストアノテーションタスクにおける大規模言語モデル(LLM)の可能性を探る。

 分析は、以前のプロジェクトで収集した2382件のツイートのサンプルを使用する。このプロジェクトでは、5つの異なるタスクについてリサーチアシスタントがラベル付けを行っている。

 リサーチアシスタントを指導するために作成したコードブックと同じものを使って、タスクをゼロショット分類としてChatGPTに入力した。またMTurkのクラウドワーカーにも同じコードブックを提供してアノテーションタスクを行ってもらった。

 評価の結果、5つのタスクのうち4つで、ChatGPTのゼロショット精度がMTurkの精度を上回っていることが分かった。

MTurkおよびリサーチアシスタントと比較した、ChatGPTのゼロショットテキストアノテーション性能

 ChatGPTが上回った3つのケース(Frames I、Frames II、Stance)では、ChatGPTの性能はMTurkの2.2倍から3.4倍であった。ChatGPTの精度は、タスクの難易度やクラス数、アノテーションがゼロショットであることを考慮すると、全体として十分すぎるレベルであることが分かる。GPT-4で実施すると精度の向上も期待できる。

 ChatGPTはMTurkよりもかなり安価だ。5つの分類タスクのコストは、ChatGPTでは約68ドル(2万5264アノテーション)、MTurkでは657ドル(1万2632アノテーション)。そのため、ChatGPTのアノテーション単価は約0.003ドル、Mturkの単価が0.05ドル、MTurkよりChatGPTの方が約20倍安く、かつ高品質である。

 ChatGPTや他の大規模言語モデルがより幅広い文脈でどのように機能するかをよりよく理解するためにはさらなる研究が必要だが、この結果から、サンプル全体のアノテーションや教師あり学習のための大規模データセットをChatGPTを用いて低コストで作ることができる可能性を示唆した。

Source and Image Credits: Fabrizio Gilardi, Meysam Alizadeh, and Mael Kubli. ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks.



Copyright © ITmedia, Inc. All Rights Reserved.