ChatGPT(チャットGPT)はテキスト、オーディオ、画像に堪能で、あるフォーマットでプロンプトを受け取って別のフォーマットで結果を生成できる。この流暢さの多くは、現在オープンAI(OpenAI)の最高研究責任者(CRO)である34歳のマーク・チェンに帰するところが大きい。
2018年に同社に加わった後、チェンは多くの主要AIモデルが現在、視覚データを取り込み生成するために採用している技術を開拓したチームを率いた。特筆すべき点は、研究者が自然言語生成に成功裏に使用していたトランスフォーマー・アーキテクチャーを画像処理に適応させる方法を解明したことだ。画像を構成するピクセルは、文中の単語と同様に、一連のトークンとしてエンコードできることが判明した。
「画像を奇妙な言語として扱うこの表現を得ると、トランスフォーマーでそれを使用できます」とチェンは述べる。チームは最初にその手法を2020年にリリースされたImageGPTに組み込み、その後DALL-E(ダリー)シリーズが続いた。現在、彼らはそれをGPT-5、オープンAIのフラッグシップモデルに展開している。
画像に関する仕事のほかに、チェンはプロンプトからコンピューター・コードを生成するオープンAIのモデル「コーデックス(Codex)」も先導した。コードはテキストで書かれているにもかかわらず、それを生成するモデルは他の言語モデルとは異なる基準で評価される。なぜなら、生成されるコードは正しく聞こえるのではなく、実行時に望ましい機能を実行しなければならないからだ。
現在、チェンは以前の反復よりも複雑な推論(Reasoning)が可能なモデルを作るオープンAIの取り組みを率いている。同社の戦略は、モデルに速度を落として、プロンプトをステップに分解させることだ。これは「思考の連鎖(Chain of thought)」として知られ、オープンAIが2024年にo1モデルのリリースで最初に実証した。チェンは、科学実験を実行する研究計画などの、より細かなニュアンスの出力を生成するために、長期間自律的に働くエージェントを支えるモデルを間もなく構築することを目指している。
新しい地位において、チェンは製品安全にも取り組んでいる。安全なAIモデルとは、ユーザーの同意なしにメールを送信するなどの「暴走」をすることなく、ユーザーが望むことを実行するモデルのことだという。また、彼は文化的・政治的偏見を示すことに対する同社モデルへの批判や、訓練データの知的財産侵害に関する継続的な訴訟にも対処しなければならない。
- 人気の記事ランキング
-
- This company claims a battery breakthrough. Now they need to prove it. すべてのパラメーターが矛盾——「出来すぎ」全固体電池は本物か?
- OpenAI’s “compromise” with the Pentagon is what Anthropic feared アンソロピック排除の裏で進んだオープンAIの軍事契約、その代償は
- AI is rewiring how the world’s best Go players think 「アルファ碁」から10年、 AIは囲碁から 創造性を奪ったのか
- How uncrewed narco subs could transform the Colombian drug trade 中には誰もいなかった—— コカイン密輸組織が作った 「自律潜水ドローン」の脅威