L’employé numérique qui ne vole pas la souris est enfin arrivé
En quelques mois seulement, un projet sur GitHub a récolté plus de 17 000 étoiles. Son créateur ne vient pas d’un géant de la Silicon Valley, mais est un développeur ayant précédemment travaillé chez Xbox et Microsoft AI avant de lancer une startup soutenue par Y Combinator. Le projet, nommé Cua, a suscité un vif intérêt dans la communauté des développeurs. En résumé, il permet aux agents IA de contrôler de manière sécurisée un système de bureau entier, comme s’ils utilisaient un ordinateur virtuel – capturer des écrans, cliquer, taper et exécuter des commandes. Cet ordinateur virtuel est complètement isolé, ce qui signifie que tout ce que fait l’IA n’affectera pas votre machine réelle.

Faire en sorte que l’IA utilise vraiment un ordinateur
Le moyen le plus simple de commencer est d’utiliser Cuabot :
纯文本纯文本npx cuabot
Cela lance une fenêtre visuelle, vous permettant de voir de vos propres yeux comment l’agent opère le bureau dans un bac à sable (sandbox). Vous pouvez observer :
- L’IA manipulant un bureau virtuel dans une fenêtre séparée
- Capturant des écrans, cliquant et tapant du texte
- Exécutant des opérations en ligne de commande
- Partageant le presse-papiers avec la machine hôte

L’ensemble du processus donne l’impression de regarder un employé numérique travailler. Point crucial, pendant qu’il travaille en arrière-plan, votre ordinateur reste non affecté. Vous pouvez continuer à coder, regarder des vidéos ou répondre à des messages – tout cela sans interférence.
La fonctionnalité principale de Cua est de permettre à l’IA d’effectuer des opérations de bureau en toute sécurité dans un environnement isolé, sans impacter votre machine réelle. Le concept principal est une architecture à trois couches : l’Agent IA se trouve au sommet, un SDK d’ordinateur unifié au milieu, et la couche Bac à sable (Sandbox) en bas. Peu importe la technologie de virtualisation sous-jacente, l’interface présentée à l’IA reste la même. Écrivez le code une fois, et il s’exécute sur différents systèmes. Les avantages de cette conception sont :
- Interface unifiée : Pas besoin de se soucier du système d’exploitation sous-jacent (macOS, Windows, Linux ou Android).
- Isolation sécurisée : Toutes les opérations de l’IA sont confinées au bac à sable, protégeant l’hôte.
- Déploiement flexible : Peut utiliser des bacs à sable cloud ou de la virtualisation locale.

Il est à noter que Cua prend en charge non seulement les systèmes de bureau mais aussi les mobiles. Android peut fonctionner via des bacs à sable cloud ou une virtualisation locale, et iOS est pris en charge via une intégration agent-appareil. Cela signifie qu’un agent IA peut opérer un téléphone exactement comme un ordinateur, effectuant des gestes, des tapotements et des glissements.
Examinons les quatre capacités fondamentales de Cua :
1. Cua Driver : Contrôle en arrière-plan sans prendre votre curseur
Il s’agit d’un programme de contrôle de bureau en arrière-plan. Il peut contrôler des applications de bureau natives depuis l’arrière-plan sans s’emparer de votre curseur ou de votre focus. Vous pouvez continuer à utiliser votre ordinateur pour d’autres tâches pendant que l’IA travaille. Il fonctionne sur macOS et Windows, la prise en charge de Linux étant actuellement dans un état de pré-version.

2. Cua Sandbox : Bac à sable isolé, démarrage à chaud en moins d’1 seconde
L’environnement bac à sable peut être basé sur le cloud ou virtualisé localement. Sur macOS, un composant appelé Lume, développé en utilisant le Virtualization.Framework d’Apple, atteint des performances CPU quasi natives (~97%). Une bonne nouvelle pour les utilisateurs Apple Silicon. Il prend en charge les instantanés (snapshots) et le forking – maintenant un état de base propre et clonant plusieurs instances parallèles à partir d’un instantané, permettant à des centaines d’agents d’exécuter différentes tâches simultanément.
3. Cuabot : Bac à sable transparent pour les agents de codage (Outil de collaboration multi-agents)
Vous pouvez utiliser Claude Code, OpenClaw ou d’autres workflows graphiques. Il crée une fenêtre séparée pour afficher nativement le bureau en bac à sable, utilise l’encodage H.265 et prend en charge le partage du presse-papiers avec l’hôte et l’audio.
4. Cua-Bench : Évaluation des agents avec OSWorld
C’est le module d’évaluation. Il prend en charge des benchmarks grand public comme OSWorld, ScreenSpot et WindowsArena, et peut exporter les traces d’exécution des agents pour l’entraînement. Pour des tests à grande échelle, vous pouvez utiliser l’outil en ligne de commande (CLI) pour lancer des centaines d’agents en parallèle et alimenter les données dans des modèles d’apprentissage par renforcement.
Après avoir lu ces fonctionnalités, beaucoup d’entre vous sont probablement impatients de l’essayer. Pour macOS ou Linux, installez CuaDriver avec une seule commande :
bashbash/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"
Pour Windows, utilisez PowerShell :
powershellpowershellirm https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.ps1 | iex
Installez le SDK Python via pip :
bashbashpip install cua
Pour une expérience rapide avec Cuabot :
bashbashnpx cuabot
Cela ouvre une fenêtre visuelle pour voir comment l’agent opère dans le bac à sable.
Cua Computer SDK : Fournit des interfaces unifiées pour la capture d’écran, le clic, la saisie au clavier et les commandes shell.
Cependant, certaines limitations actuelles doivent être mentionnées :
- La prise en charge de Linux est actuellement dans un état de pré-version.
- Les versions Rust et Swift sur macOS ne sont pas encore entièrement alignées ; la version Swift est recommandée pour la production.
- L’utilisation du MCP Server nécessite une clé API de modèle valide.
Si vous utilisez principalement Mac ou Windows, souhaitez qu’un agent IA gère des tâches d’interface graphique (GUI) pour vous et préférez ne pas exposer directement votre machine hôte, alors Cua peut être une excellente solution.
Réflexions finales
Nous pensions auparavant que l’IA pouvait écrire du code, dessiner des images et discuter, mais il manquait une pièce : l’IA peut-elle utiliserun ordinateur ? Non pas en appelant des API ou en exécutant des scripts, mais en voyant l’écran, en déplaçant la souris, en cliquant sur des boutons et en tapant du texte – exactement comme un humain. Cua fournit une solution légère et open source. Il offre un environnement d’exploitation sûr pour les agents IA, leur permettant de véritablement « utiliser » un ordinateur comme un employé numérique, plutôt que de simplement y « accéder ». Et tout cela se produit dans un bac à sable, laissant votre ordinateur réel intact.
N’hésitez pas à partager vos réflexions dans les commentaires. Le projet est sous licence MIT. Ceux qui sont intéressés peuvent consulter le code source et la documentation sur GitHub.
Adresse Open Source : https://github.com/trycua/cua