わずか数ヶ月で、GitHubのプロジェクトが17,000以上のスターを獲得しました。その作者はシリコンバレーの大企業出身ではなく、以前XboxとMicrosoft AIで働いていた開発者で、その後YC(Y Combinator)支援の起業をしました。Cua というこのプロジェクトは、開発者コミュニティで大きな注目を集めています。一言で言うと、AIエージェントが仮想コンピューターを操作するように、デスクトップシステム全体を安全に制御できるようにするものです。スクリーンショットの撮影、クリック、タイピング、コマンドの実行が可能です。そして、この仮想コンピューターは完全に分離されているため、AIが何をしても実機には影響しません。

AIに本当にコンピューターを使わせる
最も簡単な始め方は、Cuabotを使うことです:
npx cuabot
これにより、視覚的なウィンドウが立ち上がり、エージェントがサンドボックス内でどのようにデスクトップを操作しているかを直接目にすることができます。以下のことが観察できます:
- AIが独立したウィンドウで仮想デスクトップを操作する様子
- スクリーンショットの撮影、クリック、文字入力
- コマンドライン操作の実行
- ホストマシンとのクリップボード共有
全プロセスは、デジタル従業員が働いているのを見ているような感覚です。重要なのは、バックグラウンドで動作している間も、あなたのコンピューターには影響がないことです。コーディングや動画視聴、メッセージの返信を、干渉されることなく続けられます。

Cuaの中核機能は、AIが実機に影響を与えることなく、隔離された環境内で安全にデスクトップ操作を行えるようにすることです。主なコンセプトは3層アーキテクチャです。上部にAIエージェント、中間に統一されたComputer SDK、下部にサンドボックス層があります。基盤となる仮想化技術に関わらず、AIに提示されるインターフェースは同じです。コードを一度書けば、異なるシステムで実行できます。この設計の利点は以下の通りです:
- 統一インターフェース: 基盤OS(macOS、Windows、Linux、Android)を気にする必要がない。
- 安全な隔離: AIの操作はすべてサンドボックス内に閉じ込められ、ホストを保護する。
- 柔軟なデプロイ: クラウドサンドボックスまたはローカル仮想化を利用可能。

特筆すべきは、Cuaがデスクトップシステムだけでなくモバイルもサポートしている点です。Androidはクラウドサンドボックスまたはローカル仮想化で動作し、iOSもエージェント-デバイス統合でサポートされます。つまり、AIエージェントがコンピューターと同じようにスマートフォンを操作し、ジェスチャー、タップ、スワイプを実行できることを意味します。
Cuaの4つのコア機能を見ていきましょう:
1. Cua Driver: バックグラウンド制御、カーソルを奪わない
これはバックグラウンドデスクトップ制御プログラムです。ネイティブなデスクトップアプリケーションをバックグラウンドから制御でき、カーソルやフォーカスを奪いません。AIが作業している間も、他の作業にコンピューターを使い続けられます。macOSとWindowsで動作し、Linuxのサポートは現在プレリリース段階です。

2. Cua Sandbox: 隔離サンドボックス、1秒未満の高速起動
サンドボックス環境は、クラウドベースまたはローカル仮想化のいずれかを使用できます。macOSでは、AppleのVirtualization.Frameworkを使用して開発されたLumeというコンポーネントがあり、ほぼネイティブ(約97%)のCPU性能を実現します。Apple Siliconユーザーには朗報です。スナップショットとフォークをサポートしており、クリーンなベース状態を維持し、そこから複数の並列インスタンスをクローンできるため、数百のエージェントが異なるタスクを同時に実行できます。
3. Cuabot: コーディングエージェントのためのシームレスなサンドボックス(マルチエージェントコラボレーションツール)
Claude Code、OpenClaw、または他のグラフィカルワークフローを使用できます。サンドボックス化されたデスクトップをネイティブに表示するための独立ウィンドウを作成し、H.265エンコーディングを使用し、ホストとのクリップボード共有とオーディオをサポートします。
4. Cua-Bench: OSWorldベンチマークによるエージェントテスト
これは評価モジュールです。OSWorld、ScreenSpot、WindowsArenaなどの主要なベンチマークをサポートし、トレーニング用のエージェント実行トレースをエクスポートできます。大規模テストでは、CLIツールを使用して数百のエージェントを並列起動し、そのデータを強化学習モデルに供給できます。
これらの機能を見て、多くの方が試してみたいと思っていることでしょう。macOSまたはLinuxでは、1つのコマンドでCuaDriverをインストールできます:
bashbash/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"
Windowsでは、PowerShellを使用します:
powershellpowershellirm https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.ps1 | iex
Python SDKをpip経由でインストールします:
bashbashpip install cua
Cuabotをすぐに体験するには:
bashbashnpx cuabot
これにより、エージェントがサンドボックス内でどのように操作しているかを見られる視覚的なウィンドウが開きます。
Cua Computer SDK: スクリーンショット撮影、クリック、キーボード入力、シェルコマンドのための統一インターフェースを提供します。
ただし、現在の制限事項についても言及しておきます:
- Linuxサポートは現在プレリリース段階です。
- macOS上のRustバージョンとSwiftバージョンはまだ完全に同期していません。本番環境ではSwiftバージョンの使用を推奨します。
- MCP Serverを使用するには、有効なモデルAPIキーが必要です。
主にMacまたはWindowsを使用し、AIエージェントにGUIタスクを実行させたい、かつホストマシンを直接晒したくない場合、Cuaは優れたソリューションとなるでしょう。
最後に
私たちは以前、AIはコードを書いたり、絵を描いたり、チャットしたりできるが、一つの要素が欠けていると考えていました。それは、AIがコンピューターを使えるかどうかです。APIを呼び出すのでも、スクリプトを実行するのでもなく、画面を見て、マウスを動かし、ボタンをクリックし、文字を入力するという、人間のように。Cuaは軽量でオープンソースのソリューションを提供します。これはAIエージェントに安全な操作環境を提供し、単なる「アクセス」ではなく、デジタル従業員として本当の意味でコンピューターを「使わせる」ことを可能にします。そしてそのすべてはサンドボックス内で行われ、あなたの実機はそのまま残ります。
コメント欄でご意見をお聞かせください。このプロジェクトはMITライセンスの下で公開されています。興味のある方は、GitHubでソースコードや関連ドキュメントをご覧ください。
オープンソースアドレス: https://github.com/trycua/cua