Perspectives
Our Topics
Welcome Sakana AI!日本のAIの未来を築く
事業機会 日本は今、極めて重要な局面に立たされています。それは、いかにAIを活用して生産性を向上させ、次なるイノベーションの波を牽引するかという点です。機会は明白ですが、その実現には日本のユニークなビジネス環境に合わせて構築されたソリューションが必要です。グローバルなAIプラットフォームは、日本のワークフローや意思決定プロセスと一致しないことが多く、一方で国内のソリューションは歴史的に、基礎研究やインフラよりもアプリケーション層に重点を置いてきました。 日本の産業界がAIによって生産性の向上を実感できるよう支援する、エキサイティングな機会がここにあります。今求められているのは、世界クラスのAI研究と、日本企業のニーズに対する深い理解を兼ね備えた企業です。 ソリューション Sakana AIはその架け橋を築いています。2023年に設立された同社は、複数のモデルを組み合わせることで、特に日本企業にとって優れた性能と効率を実現する高度な大規模言語モデル(LLM)を開発しています。既製品をそのまま提供するのではなく、Sakanaは彼らが「レイヤー3.5」と呼ぶ、AIモデルと実世界の企業アプリケーションの間の重要な領域に注力しています。 具体的には、Sakana AIは、深いビジネスの洞察と高度なAI技術を組み合わせ、各顧客のワークフローに合わせた最適なAIサービスを提供します。その結果、AIは理論上機能するだけでなく、日本企業の実際のオペレーションにシームレスに統合されるのです。 同社は当初、日本で最も要求の厳しい2つのセクター、金融と防衛をターゲットにしました。すでにSakanaは、日本を代表する2つの金融大手、三菱UFJフィナンシャル・グループ(MUFG)と大和証券においてソリューションを展開しており、深いドメイン知識を活かして、それぞれのワークフローに最適化されたシステムを構築しています。今後は、ミッションクリティカルな業界での初期顧客から得た知見を活かし、製造業やその他のセクターへと拡大し、高品質なソリューションを大規模に展開していく計画です。 Sakana AIを支援する理由 Sakana AIを率いるのは、世界的に著名なAI研究者であるデイヴィッド・ハ氏(CEO)とライオン・ジョーンズ氏(CTO)、そして外交官としての経歴を持ち、メルカリの欧州拠点責任者も務めた卓越した事業開発の専門家、伊藤 錬氏です。 デイヴィッド・ハ氏は、ゴールドマン・サックスのデリバティブ・トレーダーからGoogleのAI研究者を経てSakanaを創業しました。この経歴により、技術的な深みと企業の意思決定プロセスへの理解という、稀有な組み合わせを兼ね備えています。ライオン・ジョーンズ氏は、現代AIの基盤となる画期的な2017年の論文「Attention Is All You Need」(Transformer)の共同執筆者の一人です。彼らは共に、間違いなく日本最高峰のAI研究者・エンジニアチームを結成しました。 この世界クラスの研究能力と洗練されたビジネス実行力の組み合わせこそが、Sakanaを際立たせている理由です。グローバルなAI企業は、日本企業への浸透に苦戦してきました。日本のAIスタートアップは貴重な市場知識を持っていますが、真に高度なソリューションを提供する技術力を持たない場合が多くあります。一方、Sakanaはそうしたローカルな知見と、世界クラスのAI研究力を独自に融合させ、日本のビジネス要件を深く理解した高度なAIソリューションを提供しています。 同社の勢いは、このユニークな立ち位置を反映しています。Sakanaは日本で最も早くユニコーン企業となった企業です。労働力不足への対応と生産性向上が国家レベルの急務となっている今、Sakana AIは最先端のAI技術を活用して、日本の産業基盤全体に業務効率化とレジリエンスをもたらしています。 今後の展望 あらゆるセクターでAIの実装が不可欠となる中、日本のAIイノベーションの最前線にいるSakana AIを支援できることを光栄に思います。 我々は、Factorial Funds、MUFG、Khosla Ventures、Googleなどと共に、このシリーズBラウンドに参加できることを誇りに思います。Sakana AIが日本産業界のAI導入を加速させ、真の変革をもたらすソリューションを提供していくことを楽しみにしています。 Sakana AIをSalesforce Venturesのポートフォリオに迎え入れることを大いに歓迎いたします。
ロボティクスのブレイクアウトの瞬間
私たちは今、ロボティクスの新しい時代を迎えようとしています。基盤モデルやトランスフォーマーベースのAIの進歩、そしてハードウェアのコスト低下と性能が劇的に向上したことにより、この分野はこれまでの領域が狭く、タスクに特化した自動化から、より野心的な「汎用的なロボット知能」へと進化を遂げています。 市場もこの動きに注目しています。 ロボット企業への投資額は2024年に70億ドルを超え、Figure(シリーズBで6億7500万ドル)、Physical Intelligence(シリーズAで4億ドル)、Skild(シリーズAで3億ドル)といった大型の資金調達が目立っています。 世界のロボット市場は、ロボットが汎用的な能力を獲得し、産業界からサービス部門、そして一般家庭へと拡大するにつれて、今後5年間で飛躍的に成長すると予測されています。 その成長の内訳は以下のとおりです。 汎用ロボットシステムは、複数のユースケースや業種に適用できるロボットの登場を可能にすることで、これらのカテゴリーの境界線を曖昧にし、市場をさらに拡大する可能性があります。 私たちは、ロボティクスエコシステムが発展すると予想しており、ロボット基盤モデル(Robotics foundation models, RFM)、フルスタックのハードウェア/ソフトウェアソリューション、およびロボティクスツール(例:ロボット学習データプロバイダー、シミュレーションプラットフォーム)を開発するチームに投資することで、この成長を支援できることを嬉しく思います。 私たちは過去7ヶ月間、ロボティクス市場を深く掘り下げ、この分野で働く最も優秀なイノベーターや専門家数十人と話をしてきました。これらの対話を通じて、私たちはロボティクスへの投資のためのフレームワークを開発しました。それは、この分野がこれまでどうであったか、そしてどこに向かっているかに基づいています。 私たちは分析を2つの部分に分けました。この記事では、汎用的なロボット知能の実現に向けて産業を前進させている技術に焦点を当て、今こそロボティクスにとって絶好のタイミングである理由を説明します。今後出される二つ目の記事では、この新興市場で「本物」を「ノイズ」から見分け、世界を変える可能性を秘めていると私たちが信じるロボット企業を特定する方法を説明します。 私たちの関心とこの分野の理解に貢献したロボティクスに関する公開コンテンツ、特にCoatue、Colossus、SemiAnalysis、Salesforceからの洞察記事に敬意を表します。 それでは、早速掘り下げていきましょう。 現在の状況 歴史的に見て、ロボティクスの進歩は遅々としていました。その理由は単純で、解決するのが非常に難しい問題だからです。しかし今日、私たちは汎用ロボティクスに向けた数十年におよぶ旅路における転換点を迎えています。現在開発されている技術は、産業製造業や物流におけるロボットのより広範な導入を促進し、ロボティクスが小売、医療、ホスピタリティなどの新しい分野に拡大するのを助け、そしてロボットを消費者の家庭に持ち込むでしょう。これこそ、ロボット工学革命における最後のフロンティアであると私たちは考えています。 生成AIのイノベーションのペースが、ロボティクスのブレークスルーに対する楽観的な見方を新たにしている一方で、ロボットの商業化は依然として非常に複雑な課題です。成功には、ハードウェア設計と製造、サプライチェーンロジスティクス、そして堅牢で汎用的なロボット基盤モデルの開発など、複数の分野にわたる卓越性が求められます。ロボティクスチームは、これらの主要な分野すべてにおいて、早期に、そして多くの場合、高いリスクを伴う戦略的な決断を下す必要があります。企業が特定のハードウェアやモデルアーキテクチャにコミットすると、方向転換するにはコストがかかり、困難になります。 では、なぜ今が過去のロボティクスへの熱狂の波と異なるのでしょうか? 以前の取り組みが脆弱なソフトウェアと高価で柔軟性のないハードウェアによって制約されていたのに対し、今日のシステムは大幅に改善された基盤から生まれています。私たちの見解では、3つの主要な分野がこの変化を推進しています。 各分野で最近大きな進歩が見られました。タイミングが正しい理由を理解するために、何が変わったのかを探ってみましょう。まずは、真にインテリジェントな現実世界のロボットを構築するための基盤となるデータから始めます。 1) データ 今日のロボティクスにおける最も差し迫ったボトルネックの一つはデータです。大規模言語モデル(LLM)は、すぐに利用できる膨大な量のインターネット上のテキストデータで学習されましたが、ロボットを学習させるための同等のデータソースは存在しません。今日、ロボティクス研究者や開発者は、いくつかの学習データソースに依存しています。シミュレーションデータ、遠隔操作データ、人間のビデオデータ、そして導入されたロボットからの実世界データです。これらのデータタイプは、アクセスの容易さ、スケーラビリティ、および有用性の点で異なります。人間のビデオデータとシミュレーションデータは、スケーリングやアクセスが容易ですが、ロボット学習の特定の側面にしか役立たない可能性があります。一方、遠隔操作データや導入されたロボットからの実世界データは、スケーリングやアクセスが困難ですが、より価値があります。以下は、私たちが話を聞いたロボティクス専門家が各学習データソースをどのように見ているかの内訳です。 シミュレーションデータ ロボティクスにおける従来の考え方は、シミュレーションデータはロボットに移動タスクの実行方法を教えるのに優れていますが、物理的な相互作用を伴う「操作」を教えるのは難しいというものでした。これは「sim-to-real gap」があるためです。シミュレーション環境と現実の環境との間に本質的なずれがあり、シミュレーションで学習したポリシーが現実世界で最適に機能しない原因となります。 このギャップは、これらのタスクが本質的に複雑であるため、器用な操作で最も顕著です。器用さには、視覚レンダリングの忠実度が高く、摩擦や変形といった物理的な微妙な違いをシミュレートするのがより困難です。 遠隔操作データ(テレオペレーションデータ) 遠隔操作データは、人間のオペレーターによるロボットのリモートコントロール中に収集されたデータであり、操作機能を解き放つ鍵として一般的に見なされています。ただし、リソースと運用に多くの労力がかかるため、スケーリングは困難です。 遠隔操作データは、人間のオペレーターがロボット企業が実際に導入で使用しているものとまったく同じ種類のハードウェアを使用してデータを収集している場合に特に役立ちます。これにより、収集されたデータをロボットの物理的な構造(形態)により正確にマッピングできるからです。同様の種類ではあるが厳密には同じではないハードウェアが使用されている場合、そのデータは「オフエンボディメント」と見なされます。これは依然として価値があり、遠隔操作データを補完するのに適しています。遠隔操作データは、カスタムハードウェアの製造が必要になる場合があるため、リソース集約型です。LLMと同様に、ロボットを学習させるにはデータの多様性が必要です。つまり、遠隔操作プロジェクトでは、データの多様性を実現するために、さまざまなセットアップ、背景、照明などが必要となります。対照的に、シミュレーション環境では、すべての物理的要素を調整およびシミュレートできます。 人間のビデオデータ 人間のビデオデータは、ロボットを学習させるための分かりやすい方法のように思えます。インターネット上には膨大な量の既存のビデオデータがあり、人間のビデオデータを作成するのは簡単です。さらに、ロボットは形態学的に人間に似ているように設計されています。ただし、すべての人間のビデオデータがロボット学習用に等しく作られているわけではありません。一人称視点で記録されたビデオ(「撮影者の視点から記録されたビデオデータ」)が最適です。このデータは、カメラを搭載したロボットが「見る」ものに似ています。また、手とオブジェクトの相互作用や人間の意図を理解するのにも役立ちます。 さらに、人間の環境には多様性が豊富にあるため(例:環境、照明、障害物など)、人間のビデオは多様性の問題に役立ちます。ただし、人間の手と腕はほとんどのロボットアーム/マニピュレーターとまったく同じではなく、これらのビデオにはアクションラベルがないことが多いため、一人称視点のビデオは遠隔操作データよりも価値が低いと見なされることがよくあります。 _ 上記の要約となりますが、ロボット工学データ会社xdof.aiの創設者は、さまざまなタイプのロボットトレーニングデータを階層に配置する優れたフレームワークを共有しました。 データ収集における最近の進歩 データを使用してモデルを学習またはファインチューニングしている多くのスタートアップと話をして、ロボティクスは非常に多様で論点の多い分野であることに気づきました。データに関して何がうまくいくかについてさまざまなチームが異なる見解を持っており、さまざまなアプローチを試しています。これは、ほとんどのロボティクス専門家が同様の手法に依存していた以前のトレンドサイクルと、今回のロボティクスイノベーションの波との間の重要な違いの一つです。さらに、欠点に対処するために前述の各データアプローチで継続的な研究が行われており、スケーラビリティに関する継続的なブレークスルーにつながり、以前の概念に疑問を投げかけています。 Skild AIは、汎用的なロボティクス基盤モデルを構築するという大胆な野心を持っています。創業者のDeepak PathakとAbhinav Guptaは、「あらゆるロボット、あらゆるタスク、1つの脳」という共通のビジョンを共有しています。彼らは、すべてのタイプのデータを活用する汎用モデル「Skild Brain」を学習させることによって、この目標にアプローチしています。DeepakとAbhinavはどちらも、AIとロボティクスで数十年の経験があり、今日ロボティクスの標準となっているいくつかの主要なアイデアのパイオニアです。彼らは、sim2realに関する最初の主要な受賞論文、ビデオから学習する最初の論文シリーズ(例:VideoDex、およびこちら)、およびいくつかの最大のテレオペレーションデータプロジェクト(MIME、RT-X)に関与してきました。Skild Brainは、シミュレーションと人間のビデオを使用して、移動から操作まで、可能な限り多くの機能とパフォーマンスを実現し、必要に応じて、学習後の遠隔操作で補完しています。 一方、Physical Intelligenceは、ロボティクスにおける器用な操作が要される問題を単独で解決することに焦点を当てています(例:針に糸を通すなど、きめ細かい方法でオブジェクトを操作できること)。最終的な目標は、完全に汎用的なモデル(つまり、タスク全体、ハードウェア全体)を実現することです。彼らはデータアプローチの組み合わせを使用しており、チームは、ロボティクス基盤モデルが効果的に汎用化するためには実世界データが不可欠であると考えています。しかし、現実的であることも重要であり、代替データ(シミュレーションデータ、人間のビデオデータなど)を「代用品」としてではなく「補完」として使用しています(LLMにおける無関係だが有用な事前学習データと同様)。PIは、これにより、過度なエンジニアリング対応を回避し、モデルが代替ソースを、正確なタスク指示ではなく幅広い知識として使用できるようになると考えています。その結果、チームは実世界データの活用に大きく依拠しており、大規模な遠隔操作ラボを運営しています。 Dyna Roboticsも遠隔操作データに焦点を当てていますが、限られた量のデータで製品レベルのパフォーマンスを実現するために、強化学習(Reinforcement learning, RL)アプローチを考案しました。彼らのアプローチの詳細については、次のセクションで説明します。 前述のxdof.aiのような企業は、特殊なハードウェアと汎用ハードウェアを使用して実世界データを収集する大規模な遠隔操作プロジェクトを構築しており、このタイプのデータに対する大きな需要があることを認識しています。Standard Botsは、AIネイティブで垂直統合されたロボットを構築しており、ロボットデータ収集用の独自のハードウェアを開発しました。これにより、顧客は自分でデータを収集し、ロボットにさまざまなタスクを実行するように学習させることができます。 NVIDIAは、データのスケーリングにシミュレーションを活用することを推進しており、シミュレーションをインターネットのビデオデータ、人間のデモンストレーションデータ、および遠隔操作データで補完しています。これは、ヒューマノイド向けのNVIDIA Isaac Groot基盤モデルの基礎となっています。NVIDIAは、ロボティクスにおけるRL用に設計された高性能シミュレーション環境であるNVIDIA