ChatGPT(チャットGPT)はテキスト、オーディオ、画像に堪能で、あるフォーマットでプロンプトを受け取って別のフォーマットで結果を生成できる。この流暢さの多くは、現在オープンAI(OpenAI)の最高研究責任者(CRO)である34歳のマーク・チェンに帰するところが大きい。
2018年に同社に加わった後、チェンは多くの主要AIモデルが現在、視覚データを取り込み生成するために採用している技術を開拓したチームを率いた。特筆すべき点は、研究者が自然言語生成に成功裏に使用していたトランスフォーマー・アーキテクチャーを画像処理に適応させる方法を解明したことだ。画像を構成するピクセルは、文中の単語と同様に、一連のトークンとしてエンコードできることが判明した。
「画像を奇妙な言語として扱うこの表現を得ると、トランスフォーマーでそれを使用できます」とチェンは述べる。チームは最初にその手法を2020年にリリースされたImageGPTに組み込み、その後DALL-E(ダリー)シリーズが続いた。現在、彼らはそれをGPT-5、オープンAIのフラッグシップモデルに展開している。
画像に関する仕事のほかに、チェンはプロンプトからコンピューター・コードを生成するオープンAIのモデル「コーデックス(Codex)」も先導した。コードはテキストで書かれているにもかかわらず、それを生成するモデルは他の言語モデルとは異なる基準で評価される。なぜなら、生成されるコードは正しく聞こえるのではなく、実行時に望ましい機能を実行しなければならないからだ。
現在、チェンは以前の反復よりも複雑な推論(Reasoning)が可能なモデルを作るオープンAIの取り組みを率いている。同社の戦略は、モデルに速度を落として、プロンプトをステップに分解させることだ。これは「思考の連鎖(Chain of thought)」として知られ、オープンAIが2024年にo1モデルのリリースで最初に実証した。チェンは、科学実験を実行する研究計画などの、より細かなニュアンスの出力を生成するために、長期間自律的に働くエージェントを支えるモデルを間もなく構築することを目指している。
新しい地位において、チェンは製品安全にも取り組んでいる。安全なAIモデルとは、ユーザーの同意なしにメールを送信するなどの「暴走」をすることなく、ユーザーが望むことを実行するモデルのことだという。また、彼は文化的・政治的偏見を示すことに対する同社モデルへの批判や、訓練データの知的財産侵害に関する継続的な訴訟にも対処しなければならない。
- 人気の記事ランキング
-
- It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
- Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
- Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
- A reality check on the AI jobs hysteria 「ホワイトカラー消滅」 まだデータに兆候なし ——ただし若者に警戒信号
- Inside the stealthy startup that pitched brainless human clones 「臓器袋」から全身置換へ ステルス企業R3が隠す 「脳なし」クローン計画
