ロボットを自然言語で操る!ヒューマノイド・ドローン・四足歩行を統一制御するAI OS — dimos

dimensionalOS/dimosPython995

dimosは、ヒューマノイドロボット・四足歩行ロボット・ドローン・ロボットアームなどの多様なロボットを、Pythonだけで統一的に制御できるオープンソースの「ロボット用オペレーティングシステム」です。従来はROS(ロボット開発の標準フレームワーク)が必須だった複雑なセットアップが不要で、自然言語で「部屋を探索して」とロボットに指示を出せるAIエージェント機能を備えています。カメラやLiDAR(レーザーで距離を測るセンサー)、モーターなどのハードウェアとAIが直接連携し、自律的なナビゲーション・物体認識・空間記憶といった高度な機能を簡単に組み合わせられます。実機がなくてもシミュレーションや録画データの再生で開発・テストでき、ロボット開発の敷居を大幅に下げるツールです。

🔥 なぜ話題?

AIエージェントブームが「デジタル世界」から「物理世界(ロボティクス)」へ拡張する流れの中で、ROS不要・Python一本・自然言語操作という圧倒的な手軽さが開発者の注目を集めています。特にClaude CodeなどのAIコーディングツールとMCP(Model Context Protocol)で直接連携できる点が、最新のAIエージェント開発トレンドと合致していることも人気の理由です。

💡 こう使える!

例えば、オフィスにUnitree Go2(四足歩行ロボット)を置いて、「キッチンを見つけて」とチャットで指示すると、ロボットが自分でカメラとセンサーを使いながら障害物を避けてキッチンまで移動し、途中で見つけた物体の位置を記憶して後から「さっき見たコップはどこ?」と聞けば教えてくれる、といった物理空間でのAIアシスタントを作れます。

ユースケース: ロボット(四足歩行・ヒューマノイド・ドローンなど)をAIと自然言語で制御する物理空間アプリケーションの開発

  • ROS不要でPythonだけでロボット制御アプリを構築でき、自然言語で「部屋を探索して」と指示するだけでロボットが動く
  • 四足歩行・ヒューマノイド・ドローン・ロボットアームなど多様なハードウェアに対応し、シミュレーションや録画再生で実機なしでも開発可能
  • MCP対応でAIエージェント(Claude Code等)と直接連携し、マルチエージェントシステムを構築できる
GitHubで見る →

Dimensional is the agentic operating system for physical space. Vibecode humanoids, quadrupeds, drones, and other hardware platforms in natural language and build multi-agent systems that work seamlessly with physical input (cameras, lidar, actuators).

技術情報

言語

Python

ライセンス

NOASSERTION

最終更新

2026-03-15

スター数

995

フォーク数

172

Issue数

181

技術詳細

アーキテクチャ・仕組み

  • モジュールシステム: dimosの中核は「Module」という単位で構成され、各モジュールはIn[](入力ストリーム)とOut[](出力ストリーム)を持ち、標準化されたメッセージで相互通信する
  • Blueprint: モジュール同士の接続方法を定義する設計図。autoconnect()関数がストリームの名前と型を自動マッチングして接続する
  • Transport層: LCM、共有メモリ(SHM)、DDS、ROS 2など複数の通信方式をサポート
  • エージェントネイティブ: AIエージェントがネイティブモジュールとして動作し、カメラ・LiDAR・制御ループなどあらゆるストリームを購読可能

主要な機能一覧

  • ナビゲーション・マッピング: SLAM(自己位置推定と地図作成)、動的障害物回避、A*経路計画、自律探索
  • 知覚処理: 物体検出、3D投影、VLM(視覚言語モデル)、音声処理
  • エージェント制御 + MCP: 自然言語によるロボット操作、MCP(Model Context Protocol)によるスキル呼び出し
  • 空間記憶: 時空間RAG(検索拡張生成)、動的メモリ、物体の位置特定と永続性
  • マニピュレーション: ロボットアーム制御(xArm、AgileX Piper対応)

対応ハードウェアプラットフォーム

カテゴリ機種状態
四足歩行Unitree Go2 pro/air🟩 安定版
四足歩行Unitree B1🟥 実験的
ヒューマノイドUnitree G1🟨 ベータ版
ロボットアームxArm, AgileX Piper🟨 ベータ版
ドローンMAVLink, DJI Mavic🟧 アルファ版
その他Force Torque Sensor🟥 実験的

対応環境

  • OS: Ubuntu 22.04/24.04(安定)、NixOS(安定)、macOS(アルファ)
  • Python: 3.12
  • GPU: CUDA対応
  • コンテナ: Docker対応
  • シミュレーション: MuJoCo対応
  • ローカルLLM: Ollama連携対応

多言語サポート

Pythonがメイン言語だが、LCM(Lightweight Communications and Marshalling)経由で以下の言語と相互運用可能:

  • C++
  • Lua
  • TypeScript

CLI機能

dimos run <blueprint> --daemon   # バックグラウンド起動
dimos status                     # 稼働状態確認
dimos log -f                     # ログのリアルタイム追跡
dimos agent-send "explore"       # エージェントへのコマンド送信
dimos mcp list-tools             # 利用可能なMCPスキル一覧
dimos mcp call <skill> --arg     # スキルの直接呼び出し
dimos stop                       # 停止

制約・注意点

  • 現在プレリリースベータ版の段階
  • 初回実行時にLFS(大容量ファイルストレージ)から約75MBのダウンロードが必要
  • macOS対応はアルファ段階で安定性に注意が必要
  • ドローン関連機能もアルファ段階

ライセンス・連携

  • AIコーディングエージェント(OpenClaw、Claude Codeなど)との連携用にAGENTS.mdが用意されている
  • MCPサーバー機能により、外部AIツールからロボットのスキルを直接呼び出し可能

インストール・クイックスタート

インタラクティブインストール(推奨)

curl -fsSL https://raw.githubusercontent.com/dimensionalOS/dimos/main/scripts/install.sh | bash

Pythonクイックスタート

# Python 3.12の仮想環境を作成
uv venv --python "3.12"
source .venv/bin/activate

# dimosをインストール(Unitreeロボット対応)
uv pip install 'dimos[base,unitree]'

# 録画データで四足歩行ロボットのデモを再生(実機不要)
dimos --replay run unitree-go2

シミュレーションで動かす場合

uv pip install 'dimos[base,unitree,sim]'
dimos --simulation run unitree-go2

実機に接続する場合

export ROBOT_IP=<ロボットのIPアドレス>
dimos run unitree-go2

参考になる外部の関連記事

関連リポジトリ

PDF・Word・Excel・画像…なんでもMarkdownに一発変換!AI時代の万能ファイル変換ツール — markitdown

microsoft/markitdownPython109.1k

MarkItDownは、PDF、Word、Excel、PowerPoint、画像、音声、HTMLなど、さまざまな形式のファイルをMarkdown(シンプルな書式付きテキスト)に変換するPython製の

LLMアプリのレシピ集!ChatGPTから音声エージェントまで実例満載 — awesome-llm-apps

Shubhamsaboo/awesome-llm-appsPython99.0k

awesome-llm-appsは、ChatGPTやGeminiなどの大規模言語モデル(AIの文章生成技術)を使った実用的なアプリケーションの作り方を集めたレシピ集です。AIエージェント(自動でタスク

写真1枚でリアルタイム顔入れ替え!ワンクリックでディープフェイク映像を生成 — Deep-Live-Cam

hacksider/Deep-Live-CamPython90.5k

Deep-Live-Camは、たった1枚の写真を用意するだけで、ウェブカメラの映像やビデオの中の顔をリアルタイムに別人の顔に入れ替えられるソフトウェアです。「顔を選ぶ→カメラを選ぶ→ライブボタンを押す

使うほど賢くなるAIエージェント — 学習・記憶・自動化を全部入りで月5ドルから運用 — hermes-agent

NousResearch/hermes-agentPython87.5k

Hermes Agentは、Nous Research社が開発した「自己改善するAIエージェント」です。会話するたびに経験からスキルを自動生成し、ユーザーの好みや過去のやり取りを記憶して、使えば使うほ

AIに「このサイトで○○して」と頼むだけ!ブラウザ操作を全自動化するエージェント — browser-use

browser-use/browser-usePython84.1k

browser-useは、AI(人工知能)にウェブブラウザを操作させて、オンラインの作業を自動化できるPython製のツールです。「この求人に応募して」「買い物リストの商品をカートに入れて」といった自