Vol. 01
2026.04.10
2026.02.27 ZENN // TECH

外出先からAntigravity IDEをAIに操作させたい──設計・調査編

ORIGIN: ZENN.DEV READ ORIGINAL

Introduction: モバイルデバイスによる自律型AI開発環境の構築

2025年、Google Antigravity IDEとGemini 2.5 Computer Use (CU) の統合により、ソフトウェア開発のパラダイムは「人間によるコード記述」から「エージェントによるミッション遂行」へと劇的な変化を遂げた。Antigravity IDEは、VS Codeをベースにエージェント管理機能を中核に据えた「ミッションコントロール」として設計されており、開発者はその実行を監督する役割を担う。

本稿では、iPhoneのようなモバイルデバイスから、遠隔地に存在するAntigravity IDEをGemini 2.5 CUを介して自律操作する「リモートAI開発環境」の構築手法について解説する。Tauri 2.0とRustを用いたセキュアな通信基盤の上に、視覚的推論能力を持つAIエージェントを統合し、場所を問わない高度な開発を実現するための技術スタックと実装上の課題を特定する。

Struggle: 座標系の不一致と視覚的推論の限界

実装における最大の技術的困難は、Gemini 2.5 CUが採用する独自の座標系と、物理的なOSピクセル間の整合性確保であった。モデルは画面を「UIのスクリーンショット」として視認し、0から1000の範囲で正規化されたグリッドに基づいて操作命令を生成する。このため、リレーサーバー側で正規化座標を実際のピクセル値へ正確に変換しなければ、クリック位置が数ピクセル単位でズレ、意図しないUI要素を操作する「幻覚的クリック」が頻発する。

また、モバイル回線(4G/5G)特有のネットワーク不安定性や、頻繁なスクリーンショット送信に伴うトークンコストの増大も深刻な課題となった。Gemini 2.5 Proの入力価格は1Mトークンあたり $1.25(200k context以下)、出力価格は $10.00 であり、高解像度の画像を連続送信することは、コンテキストウィンドウの急速な消費とコスト増を招く。さらに、特定のモデルにおいてアーティファクトを編集する際に「ユーザー入力待機」のままフリーズするといった、エージェントループ特有のバグも確認された。

Insight: 多層エージェント構造とMCPによる補完

調査の結果、視覚情報のみに依存する操作には限界があり、メタデータの併用が不可欠であることが判明した。具体的には、Model Context Protocol (MCP) を介してAntigravity IDEの内部状態(プロジェクト構造やエージェントのステータス)を同期することで、視覚的な誤認を論理的に補完できる。

また、iPhoneの小画面でPCの広大なデスクトップを管理するためには、役割を分担した「多層エージェント(Multi-Agent)オーケストレーション」が有効である。iPhone側でプランニングとユーザー対話を担当する「スーパーバイザー」と、遠隔PC側で実際のOS操作を実行する「ワーカー」に分離することで、モバイル側に送信する情報を重要な変化点やアーティファクトのみに圧縮し、監督効率を最大化できる。座標変換においては、ターゲット解像度を標準解像度に固定し、アスペクト比を維持したままスケーリングを行う数理モデルの導入が解決の鍵となった。

Solution: Tauri 2.0とRustによる低レイテンシ基盤の実装

最終的な解決策として、Tauri 2.0とRustを採用し、TailscaleによるセキュアなP2P接続とWebRTCを用いた低レイテンシな画面配信基盤を構築した。以下は、Geminiの正規化座標をOSレベルの実行座標へ変換する核心的なロジックである。

// Geminiの正規化座標(0-1000)をOSのピクセル座標へ変換する
fn scale_to_pixel(normalized_coord: f64, actual_dimension: f64) -> f64 {
    // 0-1000の範囲を実際の画面幅または高さにマッピング
    (normalized_coord / 1000.0) * actual_dimension
}

// 使用例: click_at(500, 500) を 1920x1080 の画面で実行する場合
// x = scale_to_pixel(500.0, 1920.0) -> 960.0
// y = scale_to_pixel(500.0, 1080.0) -> 540.0

この変換ロジックをRustの enigo クレートと組み合わせることで、OSレベルでの正確なマウス・キーボード操作を実現した。また、コスト削減策として、画面の変更箇所のみを抽出する「ダーティレクタ検知」を実装し、無駄なトークン消費を抑制している。さらに、iPhoneのUIには「アクションプレビュー」機能を導入し、AIが実行しようとしている操作を事前に視覚化することで、誤操作を未然に防ぐ「Agent-in-the-loop」の体制を確立した。

Next: 実装編へ

本稿では設計と調査の段階までを記録した。実際にTauri 2.0アプリとRustリレーサーバーを組み上げ、iPhoneからAntigravityを動かすまでの実装詳細については、後編として改めて公開予定である。