The people paid to train AI are outsourcing their work… to AI

クラウドワーカーの3割、AI訓練をチャットGPTに丸投げか

人工知能（AI）システムの訓練に使うデータを作成するギグワーカーの3割超が、チャットGPTのようなAIを使っている可能性があることが分かった。ただでさえエラーを起こしやすいAIモデルに、さらなるエラーを持ち込む可能性がある。 by Rhiannon Williams2023.06.26

人工知能（AI）モデルを訓練することで賃金を得ている人のかなりの割合が、その仕事をAIに任せている可能性があることが、新しい研究で明らかになった。

特定のタスクを正確かつ確実に実行できるようにAIシステムを訓練するには、膨大な量のデータが必要だ。多くの企業は、アマゾンのメカニカル・タークのようなプラットフォームでギグワーカーに報酬を支払い、キャプチャ（CAPTCHA）認証の解決、データへのラベル付け、テキストへの注釈追加といった、一般的に自動化が困難なタスクを完了してもらう。このようなデータはAIモデルに供給され、訓練に使用される。ギグワーカーは低賃金で、多くのタスクをすばやくこなすことを求められることが多い。

そうした中で、「チャットGPT（ChatGPT）」のようなツールで稼ぎを最大化しようとする人がいても不思議ではない。その実態を探るため、スイス連邦工科大学ローザンヌ校（EPFL）の研究チームは、ギグワーク・プラットフォームのアマゾン・メカニカル・タークで44人を雇い、医学論文の16の抜粋の要約を依頼した。そして、単語の選択の多様性の欠如といったチャットGPTの出力の兆候を探し出す、独自に訓練したAIモデルを使って、得られた回答を分析した。さらに、回答がコピー＆ペーストされたかどうかを調べるために、作業者のキーストロークを抽出した。それは、回答が別の場所で作成されたことを示す指標となる。

その結果、作業者の33％から46％がオープンAI（OpenAI）のチャットGPTのようなAIモデルを使用していたと推定された。研究成果はアーカイブ（arXiv）で公開され、まだ査読を受けていない。論文の著者によれば、チャットGPTや他のAIシステムがより強力で簡単に利用できるようになるにつれて、この割合はさらに高くなる可能性が高いという。

「クラウド・ソーシング・プラットフォームが終わるとは思いません。その力学が変わるだけです」。研究の共著者であるEPFLのロバート・ウェスト助教授は言う。

AIの訓練にAIが生成したデータを使用すると、すでにエラーが発生しやすいモデルにさらなるエラーを導入する可能性がある。大規模言語モデルはしばしば誤った情報を事実として提示する。言語モデルが生成した誤った出力を他のAIモデルの訓練に使用すると、エラーはそれらのモデルに吸収され、時間の経過とともに増幅され、その起源を突き止めることがますます難しくなる可能性がある。こう述べるのは、オックスフォード大学コンピューター科学課程のジュニア研究フェローであるイリア・シュマイロフ博士だ（同博士は今回の研究プロジェクトには参加していない）。

さらに悪いことに、簡単な解決策はない。「問題なのは、AIが作成したデータを使っている場合、統計的な誤りやモデルの誤解からエラーが生じることです」とシュマイロフ博士は話す。「自分のエラーが他のモデルの出力にバイアスを与えないようにする必要がありますが、そのための簡単な方法はありません」。

この研究は、データが人間によって作成されたものなのか、AIによって作成されたものなのかをチェックする新しい方法の必要性を強調するものだ。また、AIシステムに供給されるデータの整理という重要な仕事を、ギグワーカーに頼ろうとする傾向にあるテック企業の問題点のひとつも浮き彫りにしている。

「すべてが崩壊するとは思いません」とウェスト助教授は言う。「しかし、AIコミュニティは、どの作業が最も自動化されやすいかを綿密に調査し、これを防ぐ方法の確立に取り組まなければならないと思います」。

人気の記事ランキング

リアノン・ウィリアムズ [Rhiannon Williams]米国版ニュース担当記者: 米国版ニュースレター「ザ・ダウンロード（The Download）」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i （アイ）」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。