引言
English | 简体中文
TARS * 是一个多模态 AI Agent 栈,目前包含两个项目:Agent TARS 和 UI-TARS-desktop:
- Agent TARS
- UI-TARS-desktop
agent-tars-book-hotel.mp4 computer-use-triple-speed.mp4
Agent TARS 是一个通用的多模态 AI Agent 栈,它将 GUI Agent 和视觉能力引入你的终端、电脑、浏览器和产品中。它主要通过 CLI 和 Web UI 提供使用方式。其目标是通过前沿的多模态大语言模型以及与各种真实世界 MCP 工具的无缝集成,提供一种更接近人类完成任务的工作流程。
UI-TARS Desktop 是一个桌面应用程序,提供基于 UI-TARS 模型的原生 GUI Agent。它主要提供本地和远程电脑以及浏览器的操作能力。
目录
- 新闻
- Agent TARS 展示
- 核心功能
- 快速开始
- 文档
- UI-TARS Desktop 展示
- 功能特性
- 快速开始
- 贡献
- 许可证
- 引用
- [2025-11-05] 🎉 我们很高兴地宣布发布 Agent TARS CLI v0.3.0!该版本为多种工具(shell 命令、多文件结构化显示)带来了流式支持,新增了运行时设置(包含工具调用和深度思考的计时统计),以及用于数据流跟踪和调试的事件流查看器。此外,它还独家支持 AIO Agent Sandbox,作为隔离的全能工具执行环境。
- [2025-06-25] 我们发布了 Agent TARS Beta 和 Agent TARS CLI——推出 Agent TARS Beta,一个多模态 AI Agent,旨在通过丰富的多模态能力(如 GUI Agent、视觉)以及与各种真实世界工具的无缝集成,探索更接近人类完成任务的工作形式。
- [2025-06-12] 🎁 我们激动地宣布发布 UI-TARS Desktop v0.2.0!本次更新引入了两个强大的新功能:远程电脑操作和远程浏览器操作——两者完全免费。无需配置:只需点击即可远程控制任何电脑或浏览器,体验全新的便捷与智能。
- [2025-04-17] 🎉 我们很高兴地宣布发布全新的 UI-TARS Desktop 应用程序 v0.1.0,其 Agent UI 经过重新设计。该应用增强了电脑操作体验,引入了新的浏览器操作功能,并支持先进的 UI-TARS-1.5 模型,以提升性能和精确控制。
- [2025-02-20] 📦 推出了 UI TARS SDK,这是一个用于构建 GUI 自动化 Agent 的强大跨平台工具包。
- [2025-01-23] 🚀 我们在中文版:GUI模型部署教程中更新了云部署部分,新增了与 ModelScope 平台相关的信息。你现在可以使用 ModelScope 平台进行部署。
新闻
Agent TARS
Agent TARS 是一个通用的多模态 AI Agent 栈,它将 GUI Agent 和视觉能力引入你的终端、电脑、浏览器和产品中。它主要通过 CLI 和 Web UI 提供使用方式。其目标是通过前沿的多模态大语言模型以及与各种真实世界 MCP 工具的无缝集成,提供一种更接近人类完成任务的工作流程。
展示
- 请帮我预订 Priceline 上 9 月 1 日从圣何塞到纽约的最早航班,以及 9 月 6 日最晚的返程航班。
agent-tars-new-flight.mp4
- 预订酒店
agent-tars-book-hotel.mp4
- 使用额外的 MCP 服务器生成图表
mcp-chart.mp4
指令:我将于 9 月 1 日至 9 月 6 日在洛杉矶,预算为 5000 美元。请帮我在 booking.com 上预订离机场最近的丽思卡尔顿酒店,并为我整理一份交通指南。
指令:为我绘制一张杭州一个月的天气图表。
更多使用案例,请查看 #842。
核心功能
- 🖱️ 一键开箱即用的 CLI - 支持有头 Web UI 和无头服务器执行。
- 🌐 混合浏览器 Agent - 使用 GUI Agent、DOM 或混合策略控制浏览器。
- 🔄 事件流 - 基于协议的事件流驱动上下文工程和 Agent UI。
- 🧰 MCP 集成 - 内核基于 MCP 构建,同时支持挂载 MCP 服务器以连接真实世界工具。
快速开始
# 使用 `npx` 启动
npx @agent-tars/cli@latest
# 全局安装,需要 Node.js >= 22
npm install @agent-tars/cli@latest -g
# 使用你偏好的模型提供商运行
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
请访问全面的快速开始指南以获取详细的设置说明。
文档
🌟 探索 Agent TARS 宇宙 🌟
| 分类 | 资源链接 | 描述 | |------|----------|------| | 🏠 中心枢纽 | 你的 Agent TARS 生态系统入口 | | 📚 快速开始 | 5 分钟从零到精通 | | 🚀 最新动态 | 发现前沿功能与愿景 | | 🛠️ 开发者专区 | 掌握每一个命令与功能 | | 🎯 展示 | 查看官方和社区构建的使用案例 | | 🔧 参考 | 完整技术参考 |
UI-TARS Desktop
UI-TARS Desktop 是一个用于本地电脑的原生 GUI Agent,由 UI-TARS 和 Seed-1.5-VL/1.6 系列模型驱动。
📑 论文 | 🤗 Hugging Face 模型 | 🫨 Discord | 🤖 ModelScope 🖥️ 桌面应用 | 👓 Midscene(在浏览器中使用)
展示
| 指令 | 本地操作 | 远程操作 | |------|----------|----------| | 请帮我打开 VS Code 的自动保存功能,并在 VS Code 设置中将自动保存操作延迟 500 毫秒。 | computer-use-triple-speed.mp4 | remote-computer-operators.mp4 | | 你能帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的未关闭 issue 吗? | browser-use-triple-speed.mp4 | remote-browser-operators.mp4 |
功能特性
- 🤖 基于视觉-语言模型的自然语言控制
- 🖥️ 截图和视觉识别支持
- 🎯 精确的鼠标和键盘控制
- 💻 跨平台支持(Windows/MacOS/浏览器)
- 🔄 实时反馈和状态显示
- 🔐 私密且安全——完全本地处理
快速开始
请参阅快速开始。
贡献
请参阅 CONTRIBUTING.md。
许可证
本项目基于 Apache License 2.0 许可。
引用
如果你觉得我们的论文和代码对你的研究有帮助,请考虑给我们一个星标 ⭐。