引言
English | 简体中文
TARS * 是一个多模态 AI Agent 技术栈,目前包含两个项目:Agent TARS 和 UI-TARS-desktop。
- Agent TARS
- UI-TARS-desktop
[agent-tars-book-hotel.mp4] [computer-use-triple-speed.mp4]
Agent TARS 是一个通用的多模态 AI Agent 技术栈,它将 GUI Agent 和视觉能力引入你的终端、计算机、浏览器和产品中。它主要通过 CLI 和 Web UI 提供使用方式。其目标是通过前沿的多模态大语言模型以及与各种真实世界 MCP 工具的 seamless 集成,提供一种更接近人类完成任务的工作流程。
UI-TARS Desktop 是一款桌面应用程序,提供基于 UI-TARS 模型的原生 GUI Agent。它主要提供本地和远程计算机以及浏览器的操作能力。
目录
- 新闻
- Agent TARS 展示
- 核心功能
- 快速开始
- 文档
- UI-TARS Desktop 展示
- 功能特性
- 快速开始
- 贡献
- 许可证
- 引用
- [2025-11-05] 🎉 我们激动地宣布 Agent TARS CLI v0.3.0 发布!该版本为多种工具(shell 命令、多文件结构化显示)提供了流式支持,新增了运行时设置(包含工具调用和深度思考的计时统计),以及用于数据流跟踪和调试的 Event Stream Viewer。此外,它还独家支持 AIO Agent Sandbox 作为隔离的一体化工具执行环境。
- [2025-06-25] 我们发布了 Agent TARS Beta 和 Agent TARS CLI——推出 Agent TARS Beta,这是一个多模态 AI Agent,旨在通过丰富的多模态能力(如 GUI Agent、视觉)以及与各种真实世界工具的 seamless 集成,探索更接近人类完成任务的工作形式。
- [2025-06-12] 🎁 我们激动地宣布 UI-TARS Desktop v0.2.0 发布!本次更新引入了两项强大的新功能:远程计算机操作和远程浏览器操作——两者完全免费。无需配置:只需点击即可远程控制任何计算机或浏览器,体验全新的便捷与智能。
- [2025-04-17] 🎉 我们激动地宣布新的 UI-TARS Desktop 应用程序 v0.1.0 发布,其 Agent UI 经过重新设计。该应用增强了计算机使用体验,引入了新的浏览器操作功能,并支持先进的 UI-TARS-1.5 模型,以实现更优性能和精确控制。
- [2025-02-20] 📦 推出了 UI TARS SDK,这是一个用于构建 GUI 自动化 Agent 的强大跨平台工具包。
- [2025-01-23] 🚀 我们在中文版:GUI模型部署教程中更新了云部署部分,增加了与 ModelScope 平台相关的新信息。你现在可以使用 ModelScope 平台进行部署。
新闻
Agent TARS
Agent TARS 是一个通用的多模态 AI Agent 技术栈,它将 GUI Agent 和视觉能力引入你的终端、计算机、浏览器和产品中。它主要通过 CLI 和 Web UI 提供使用方式。其目标是通过前沿的多模态大语言模型以及与各种真实世界 MCP 工具的 seamless 集成,提供一种更接近人类完成任务的工作流程。
展示
- 请帮我在 Priceline 上预订 9 月 1 日从圣何塞到纽约的最早航班,以及 9 月 6 日最晚的回程航班。
[agent-tars-new-flight.mp4]
- 预订酒店
[agent-tars-book-hotel.mp4]
- 使用额外的 MCP 服务器生成图表
[mcp-chart.mp4]
指令:我将于 9 月 1 日至 9 月 6 日在洛杉矶,预算为 5,000 美元。请帮我在 booking.com 上预订离机场最近的丽思卡尔顿酒店,并为我整理一份交通指南。
指令:为我绘制一张杭州一个月的天气图表。
更多用例请查看 #842。
核心功能
- 🖱️ 一键开箱即用的 CLI——支持有头 Web UI 和无头服务器执行。
- 🌐 混合浏览器 Agent——使用 GUI Agent、DOM 或混合策略控制浏览器。
- 🔄 事件流——协议驱动的事件流驱动上下文工程和 Agent UI。
- 🧰 MCP 集成——内核基于 MCP 构建,同时支持挂载 MCP 服务器以连接真实世界的工具。
快速开始
# 使用 `npx` 启动。
npx @agent-tars/cli@latest
# 全局安装,需要 Node.js >= 22
npm install @agent-tars/cli@latest -g
# 使用你偏好的模型提供商运行
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
请访问全面的快速开始指南以获取详细的设置说明。
文档
🌟 探索 Agent TARS 宇宙 🌟
| 分类 | 资源链接 | 描述 | |------|----------|------| | 🏠 中央枢纽 | 你的 Agent TARS 生态系统入口 | | 📚 快速开始 | 5 分钟从零到精通 | | 🚀 最新动态 | 发现前沿功能与愿景 | | 🛠️ 开发者专区 | 掌握每一个命令和功能 | | 🎯 展示 | 查看官方和社区构建的用例 | | 🔧 参考 | 完整的技术参考 |
UI-TARS Desktop
UI-TARS Desktop 是一个面向你本地计算机的原生 GUI Agent,由 UI-TARS 和 Seed-1.5-VL/1.6 系列模型驱动。
📑 论文 | 🤗 Hugging Face 模型 | 🫨 Discord | 🤖 ModelScope 🖥️ 桌面应用程序 | 👓 Midscene(在浏览器中使用)
展示
| 指令 | 本地操作 | 远程操作 | |------|----------|----------| | 请帮我打开 VS Code 的自动保存功能,并在 VS Code 设置中将自动保存操作延迟 500 毫秒。 | [computer-use-triple-speed.mp4] | [remote-computer-operators.mp4] | | 你能帮我在 GitHub 上查看 UI-TARS-Desktop 项目最新的未关闭 issue 吗? | [browser-use-triple-speed.mp4] | [remote-browser-operators.mp4] |
功能特性
- 🤖 基于视觉语言模型的自然语言控制
- 🖥️ 截图和视觉识别支持
- 🎯 精确的鼠标和键盘控制
- 💻 跨平台支持(Windows/MacOS/浏览器)
- 🔄 实时反馈和状态显示
- 🔐 私密且安全——完全本地处理
快速开始
请参阅快速开始。
贡献
请参阅 CONTRIBUTING.md。
许可证
本项目采用 Apache License 2.0 许可证。
引用
如果你觉得我们的论文和代码对你的研究有帮助,请考虑给我们一个星标 ⭐。