KADOKAWA Technology Review
×
7/30イベント「バイブコーディングの正体——AIエージェントはソフトウェア開発を変えるか?」申込受付中!
追加訓練なし、初見の部屋でも働くお片付けロボットの新研究
Stephanie Arnett/MITTR | Envato, Getty
This robot can tidy a room without any help

追加訓練なし、初見の部屋でも働くお片付けロボットの新研究

新しいシステムにより、ロボットはオープンソースAIモデルの助けを借りて、これまで見たことのない家の中を歩きまわれるようになった。 by Rhiannon Williams2024.02.07

ロボットは、特定のタスクを得意とする。例えば、ロボットは物体を持ち上げて移動するのが得意で、また最近では料理も上手くなっている。

しかし、研究室の環境ではこのようなタスクを簡単にこなせるかもしれないが、利用可能なデータがほとんどない初めての環境でロボットにタスクを実行させることは、本当に難しいことなのだ。

現在、「OKロボット(OK-Robot)」と呼ばれる新しいシステムにより、ロボットがこれまでに経験したことのない環境で、物体を拾い上げ、移動できるよう訓練できるようになった。追加のコストのかかる複雑な訓練を必要としないため、急速に改善するAIモデルと実際のロボットの機能とのギャップを埋められるかもしれないアプローチだ。

このシステムを開発するために、ニューヨーク大学とメタの研究グループは、車輪付きユニットに背の高い高いポール、そして格納式アームで構成されるハロー・ロボット(Hello Robot)製の市販ロボット「ストレッチ(Stretch)」を、5つの家の合計10部屋でテストした。

研究チームはロボットが部屋にいる間、スマートフォンのライダー(LIDAR:レーザーによる画像検出・測距)システムを使用して3Dビデオを撮影し、ロボットと共有しているアイフォーン(iPhone)アプリの「Record3D(レコード3D)」を使って周囲をスキャンした。

その後、OKロボット・システムは、映像のフレーム上でオープンソースAIの物体検出モデルを実行した。他のオープンソースのモデルと組み合わせることで、ロボットはおもちゃのドラゴン、歯磨き粉のチューブ、トランプのパック、椅子、テーブル、ゴミ箱を含む、その部屋にある物体を識別できるようになった。

次に研究チームは、ロボットに特定の物体を拾い上げて別の場所に移動するよう指示した。ロボットの挟み込みアームは、58.5%のケースで物体を拾って移動させることに成功した。あまり散らかっていない部屋では、成功率が82%にまで上昇した(この研究は、まだ学術誌の査読を受けていない)。

最近のAIブームにより、言語とコンピューター・ビジョンの機能が大幅に進歩し、ロボット研究者は3年前にはなかったオープンソースのAIモデルやツールにアクセスできるようになった、とグーグル・ディープマインド(Google DeepMind)のマティアス・ミンデラー上級コンピューター・ビジョン研究員は話している(同上級研究員はこのプロジェクトに関与していない)。

「既製のモデルに完全に依存するのはかなり珍しいことです。そして、それを機能させるのは非常に素晴らしいことだと思います」(ミンデラー上級研究員)。

「私たちは機械学習の革命を目の当たりにし、研究室だけでなく実世界でも機能するモデルを作成できるようになったのです」とミンデラー上級研究員は付け加えた。「実際の物理環境で本当にこれが機能すると確認することは、非常に有益な情報になります」。

今回の研究チームのシステムは、特定のプロジェクトに合わせて微調整されていないモデルを使用していたため、ロボットは探すように指示された物体を見つけられなかった場合、解決策を見つけようとするのではなく、単にその場で止まってしまった。この重大な制限は、ロボットが整然とした環境で成果を出す可能性が高い理由の1つである。物体が少ないということは、混乱の可能性が少なく、ナビゲーションのためのスペースがより明確であることを意味しているためだ。

既製のオープンソース・モデルを使用することは幸運でもあり、また呪いでもあったと、このプロジェクトを共同主導したニューヨーク大学のレレル・ピント助教(コンピューター・サイエンス)は話している。

「長所は、ロボットには環境内で追加の訓練データを与える必要がなく、そのままで機能するという点です」とピント助教は話す。「そして欠点は、ロボットは物体を拾い上げて別の場所に落とすことしかできないことです。ロボットに引き出しを開けるように指示できません。なぜならロボットは、物体を拾い上げる、それを別の場所に落とす、という2つのことしか知らないためです」 。

そしてOKロボットと音声認識モデルを組み合わせることで、研究チームはロボットに話しかけるだけで指示を与えられるようになり、すぐに利用できるデータセットを使った実験が容易になる、と今回の研究を共同で主導したニューヨーク大学の博士課程学生、マヒ・シャフィウラは述べている。

「(ロボット)コミュニティには、家事は難しい、ロボットも難しい、そして家事とロボットを組み合わせることは全く不可能だという意見がかなり広く蔓延しています」とシャフィウラは話す。「多くの人が家庭用ロボットの実現が可能だと信じ始めれば、この分野ではさらに多くの仕事が生まれると考えています」。

 

人気の記事ランキング
  1. Promotion MITTR Emerging Technology Nite #33 バイブコーディングって何だ? 7/30イベント開催のお知らせ
  2. Promotion Call for entries for Innovators Under 35 Japan 2025 「Innovators Under 35 Japan」2025年度候補者募集のお知らせ
  3. Why the US and Europe could lose the race for fusion energy 核融合でも中国が優位に、西側に残された3つの勝機
  4. Trajectory of U35 Innovators: Yoichi Ochiai 落合陽一:「デジタルネイチャー」の表現者が万博に込めた思い
  5. What comes next for AI copyright lawsuits? AI著作権訴訟でメタとアンソロピックが初勝利、今後の展開は?
リアノン・ウィリアムズ [Rhiannon Williams]米国版 ニュース担当記者
米国版ニュースレター「ザ・ダウンロード(The Download)」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i (アイ)」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る