Цифровой сотрудник, который не забирает мышь, наконец-то здесь
Всего за несколько месяцев проект на GitHub набрал более 17 000 звёзд. Его создатель — не из гиганта Кремниевой долины, а разработчик, ранее работавший в Xbox и Microsoft AI, прежде чем основать стартап, поддержанный Y Combinator. Проект под названием Cua вызвал значительный ажиотаж в сообществе разработчиков. Если кратко, он позволяет ИИ-агентам безопасно контролировать всю настольную систему, как будто они работают на виртуальном компьютере — делают скриншоты, кликают, печатают и выполняют команды. Этот виртуальный компьютер полностью изолирован, а значит, любые действия ИИ не повлияют на вашу реальную машину.

Заставить ИИ действительно использовать компьютер
Самый простой способ начать — использовать Cuabot:
npx cuabot
Он запускает визуальное окно, позволяя вам воочию увидеть, как агент управляет рабочим столом внутри песочницы (sandbox). Вы можете наблюдать:
- ИИ манипулирует виртуальным рабочим столом в отдельном окне
- Делает скриншоты, кликает и вводит текст
- Выполняет операции в командной строке
- Совместно использует буфер обмена с хост-машиной
Весь процесс похож на наблюдение за работой цифрового сотрудника. Ключевой момент: пока он занят в фоновом режиме, ваш компьютер остаётся нетронутым. Вы можете продолжать писать код, смотреть видео или отвечать на сообщения — всё без помех.

Основная функция Cua — позволить ИИ безопасно выполнять операции с рабочим столом в изолированной среде, не влияя на вашу реальную машину. Основная концепция — трёхуровневая архитектура: сверху находится ИИ-агент, посередине — единый Computer SDK, а внизу — уровень песочницы. Независимо от базовой технологии виртуализации, интерфейс, предоставляемый ИИ, остаётся неизменным. Напишите код один раз, и он будет работать в разных системах. Преимущества этого дизайна:
- Единый интерфейс: Не нужно беспокоиться о базовой ОС (macOS, Windows, Linux или Android).
- Безопасная изоляция: Все операции ИИ ограничены песочницей, защищая хост-систему.
- Гибкое развёртывание: Можно использовать облачные песочницы или локальную виртуализацию.
Стоит отметить, что Cua поддерживает не только настольные системы, но и мобильные устройства. Android может работать через облачные песочницы или локальную виртуализацию, а iOS поддерживается через интеграцию агент-устройство. Это означает, что ИИ-агент может управлять телефоном так же, как компьютером, выполняя жесты, нажатия и свайпы.

Давайте углубимся в четыре основные возможности Cua:
1. Cua Driver: Фоновое управление без захвата вашего курсора
Это программа фонового управления рабочим столом. Она может управлять нативными настольными приложениями из фона, не захватывая ваш курсор или фокус. Вы можете продолжать использовать компьютер для других задач, пока работает ИИ. Работает на macOS и Windows, поддержка Linux в настоящее время находится в статусе предварительного релиза.

2. Cua Sandbox: Изолированная песочница, горячий старт менее чем за 1 секунду
Среда песочницы может быть облачной или локально виртуализированной. На macOS компонент под названием Lume, разработанный с использованием Apple Virtualization.Framework, достигает почти нативной производительности процессора (~97%). Хорошая новость для пользователей Apple Silicon. Поддерживает снимки состояния (снапшоты) и разветвление (форки) — поддерживает чистое базовое состояние и клонирует множество параллельных экземпляров из снапшота, позволяя сотням агентов одновременно выполнять разные задачи.
3. Cuabot: Бесшовная песочница для агентов-кодеров (Инструмент совместной работы нескольких агентов)
Вы можете использовать Claude Code, OpenClaw или другие графические рабочие процессы. Он создаёт отдельное окно для нативного отображения изолированного рабочего стола, использует кодировку H.265 и поддерживает общий буфер обмена с хостом и аудио.
4. Cua-Bench: Тестирование агентов с OSWorld
Это модуль оценки. Он поддерживает основные тесты производительности, такие как OSWorld, ScreenSpot и WindowsArena, и может экспортировать трассы выполнения агентов для обучения. Для крупномасштабного тестирования вы можете использовать CLI-инструмент для параллельного запуска сотен агентов и передачи данных моделям обучения с подкреплением.
Прочитав об этих функциях, многие из вас, вероятно, горят желанием попробовать. Для macOS или Linux установите CuaDriver одной командой:
bashbash/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"
Для Windows используйте PowerShell:
powershellpowershellirm https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.ps1 | iex
Установите Python SDK через pip:
bashbashpip install cua
Для быстрого знакомства с Cuabot:
bashbashnpx cuabot
Это откроет визуальное окно, чтобы увидеть, как агент работает в песочнице.
Cua Computer SDK: Предоставляет единые интерфейсы для создания скриншотов, кликов, ввода с клавиатуры и выполнения команд оболочки.
Однако следует упомянуть некоторые текущие ограничения:
- Поддержка Linux в настоящее время находится в статусе предварительного релиза.
- Версии Rust и Swift на macOS ещё не полностью синхронизированы; для рабочего использования рекомендуется версия Swift.
- Использование MCP Server требует действительного API-ключа модели.
Если вы в основном используете Mac или Windows, хотите, чтобы ИИ-агент выполнял за вас задачи с графическим интерфейсом, и предпочитаете не раскрывать напрямую вашу хост-машину, то Cua может стать отличным решением.
Заключительные мысли
Раньше мы думали, что ИИ может писать код, рисовать картинки и общаться, но не хватало одного элемента: может ли ИИ использоватькомпьютер? Не вызывая API или выполняя скрипты, а видя экран, двигая мышью, нажимая кнопки и печатая текст — точно как человек. Cua предоставляет лёгкое, открытое решение. Он предлагает безопасную операционную среду для ИИ-агентов, позволяя им по-настоящему «использовать» компьютер как цифровой сотрудник, а не просто «получать к нему доступ». И всё это происходит внутри песочницы, оставляя ваш реальный компьютер нетронутым.
Поделитесь своими мыслями в комментариях. Проект лицензирован под лицензией MIT. Заинтересованные могут ознакомиться с исходным кодом и документацией на GitHub.
Адрес проекта с открытым исходным кодом: https://github.com/trycua/cua