We finally have a definition for open-source AI

「オープンソースAI」問題ついに決着、OSIが定義を発表

これまで明確な定義がなかった「オープンソースAI」の定義をオープンソース・イニシアティブ（OSI）が発表した。テック企業が「オープンソース」という言葉を都合よく使っているとの批判への回答となるか。 by James O'Donnell2024.08.26

この記事の3つのポイント

オープンソースAIの定義がOSIにより発表された
定義はAIモデルの使用、検査、修正、共有の自由を規定している
訓練データの透明性については意見の相違があり折衷案となった

summarized by Claude 3

オープンソースAIは現在、至る所に存在する。問題は、実際のところそれが何なのかということについて、意見が一致していないことだ。今、私たちはようやくその答えを得られたかもしれない。オープンソースであることの意味の裁定者を自任するオープンソース・イニシアティブ（OSI）が、新しい定義を発表したのだ。OSIは、立法者が人工知能（AI）のリスクから消費者を保護するための規制を策定する上で、この定義が助けとなることを期待している。

OSIはこれまで他の分野で、オープンソース・テクノロジーの定義について多くのことを発表してきたが、AIモデルについて定義するのはこれが初めて。OSIは、研究者、弁護士、政策立案者、活動家、並びにメタ、グーグル、アマゾンといった大手テック企業の代表者で構成される70人のグループに、実用的な定義を考案するよう依頼した。

このグループの定義によれば、オープンソースAIシステムは、許可を得ることなくどのような目的にも使用することが可能であり、研究者が構成要素を検査してそのシステムの仕組みを研究できるようにするべきであるという。

また、どのような目的でもそのシステムを修正（出力の変更を含む）することが可能であり、修正の有無にかかわらずあらゆる目的のために他の人とシステムを共有して使用できなければならない。さらに、この基準は、所与のモデルの訓練データ、ソースコード、および重みに関する透明性のレベルを定義することも試みている。

これまでオープンソースの基準がなかったことで、ある問題が生じていた。オープンAI（OpwnAI）とアンソロピック（Anthropic）は自社のモデル、データセット、アルゴリズムを非公開とする決定を下しているので、この2社のAIが「クローズドソース」であることは分かっている。しかし、一部の専門家は、メタとグーグルの誰でも自由にアクセスし、検査や改造ができるモデルも、真のオープンソースではないと主張する。ライセンスによってユーザーがそれらのモデルを使ってできることが制限されていることと、訓練データセットが公開されていないことがその理由である。メタ、グーグル、オープンAIにこの新たな定義への対応についてコメントを求めたが、記事公開前に返答は得られなかった。

「企業は自社のモデルをマーケティングする際に、この用語の誤った使い方をすることで知られています」と、AIモデルの構築と共有のためのプラットフォーム「ハギング・フェイス（Hugging Face）」の応用政策研究者、アビジット・ゴッシュは言う。AIモデルをオープンソースと表現することで、本当にオープンソースであるのかどうか研究者が独立した調査をできなくても、そのシステムがより信頼できるものであると受け取られる可能性がある。

OSIの今回の作業プロセスに参加したモジラ（Mozilla）のアヤ・ブデール上級顧問によると、オープンソースの定義の一定部分については、合意形成が比較的簡単だったという。たとえば、モデルの重み（AIモデルの出力生成方法を決定する際に使うパラメーター）を明らかにする必要性などだ。討議された他の部分は、より多くの議論を必要とした。特に、訓練データをどのように公開するべきかという問題は、意見が割れた。

訓練データの出所に関する透明性の欠如は、オープンAIのような大規模言語モデルの開発企業からスノ（Suno）のような音楽生成AI企業に至るまで、大手AI企業を相手取った数え切れないほどの訴訟につながってきた。それらの企業は訓練データセットについて、「一般にアクセス可能な情報」が含まれているということ以外、あまり情報を開示していない。その状況を受け、オープンソース支持者たちの中には、オープンソースモデルはすべての訓練データセットを開示するべきであるという意見もある。しかしブデールはこの基準について、著作権やデータ所有権などの問題があるため、実施が難しいだろうと言う。

最終的に今回の新しい定義は、オープンソースモデルに対し、「スキルを持つ者が同一または類似のデータを用いて実質的に同等のシステムを再現できる」範囲で、訓練データに関する情報を提供することを求めている。これは、すべての訓練データセットの共有を求める包括的な要件ではないが、多くの専有モデルや、表向きだけのオープンソースモデルが現在していることより踏み込んだ内容になっている。厳格な要件と現状との間の折衷案になっているのだ。

「事実上誰にも満たされることがない、思想的に純粋な種類の絶対的基準を主張することは、結局、期待外れに終わります」と、ブデールは言う。そして、OSIはある種の執行メカニズムを計画していると付け加えた。オープンソースと説明されているのに、その定義を満たしていないモデルにフラグを立てる予定だ。また、新しい定義に合致するAIモデルのリストも公開する予定だという。ブデールによると、まだ定義への合致が確認されたモデルはないものの、リストへの掲載が見込まれる少数のモデルは、比較的小規模なものだという。エルーサーAI（EleutherAI）の「ピティア（Pythia）」や、アレン人工知能研究所（Ai2）の「OLMo」、オープンソース共同体「LLM360」の各種モデルなどである。

2024年8月27日14時50分更新：最終段落に誤字がありました。掲載中の記事は修正済みです。

人気の記事ランキング

ジェームス・オドネル [James O'Donnell]米国版 AI／ハードウェア担当記者: 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン（FRONTLINE）』の調査報道担当記者。ワシントンポスト、プロパブリカ（ProPublica）、WNYCなどのメディアにも寄稿・出演している。