← 返回日报
🌐 机器翻译 · DeepSeek · GitHub

bytedance UI-TARS-desktop


引言

English | 简体中文

TARS * 是一个多模态 AI Agent 技术栈,目前包含两个项目:Agent TARS 和 UI-TARS-desktop:

agent-tars-book-hotel.mp4 computer-use-triple-speed.mp4

Agent TARS 是一个通用的多模态 AI Agent 技术栈,它将 GUI Agent 和视觉能力引入你的终端、电脑、浏览器和产品中。它主要通过 CLI 和 Web UI 提供使用方式。其目标是通过前沿的多模态大语言模型以及与各种真实世界 MCP 工具的无缝集成,提供一种更接近人类完成任务的工作流程。

UI-TARS Desktop 是一个桌面应用程序,提供基于 UI-TARS 模型的原生 GUI Agent。它主要提供本地和远程电脑以及浏览器操作能力。

目录

Agent TARS 是一个通用的多模态 AI Agent 技术栈,它将 GUI Agent 和视觉能力引入你的终端、电脑、浏览器和产品中。它主要通过 CLI 和 Web UI 提供使用方式。其目标是通过前沿的多模态大语言模型以及与各种真实世界 MCP 工具的无缝集成,提供一种更接近人类完成任务的工作流程。

展示

agent-tars-new-flight.mp4

agent-tars-book-hotel.mp4

mcp-chart.mp4

指令:我将于 9 月 1 日至 9 月 6 日在洛杉矶,预算为 5000 美元。请帮我在 booking.com 上预订离机场最近的丽思卡尔顿酒店,并为我整理一份交通指南。 指令:给我画一张杭州一个月的天气图表。

更多用例请查看 #842。

核心功能

请访问全面的快速开始指南以获取详细的设置说明。

文档

🌟 探索 Agent TARS 宇宙 🌟

| 分类 | 资源链接 | 描述 | |------|----------|------| | 🏠 中心枢纽 | 你的 Agent TARS 生态系统入口 | | 📚 快速开始 | 5 分钟从零到精通 | | 🚀 最新动态 | 发现前沿功能与愿景 | | 🛠️ 开发者专区 | 掌握每条命令与功能 | | 🎯 展示 | 查看官方和社区构建的用例 | | 🔧 参考 | 完整的技术参考 |

UI-TARS Desktop

UI-TARS Desktop 是一个用于你本地电脑的原生 GUI Agent,由 UI-TARS 和 Seed-1.5-VL/1.6 系列模型驱动。

📑 论文 | 🤗 Hugging Face 模型 | 🫨 Discord | 🤖 ModelScope 🖥️ 桌面应用程序 | 👓 Midscene(在浏览器中使用)

展示

| 指令 | 本地操作 | 远程操作 | |------|----------|----------| | 请帮我打开 VS Code 的自动保存功能,并在 VS Code 设置中将自动保存操作延迟 500 毫秒。 | computer-use-triple-speed.mp4 | remote-computer-operators.mp4 | | 你能帮我查看 GitHub 上 UI-TARS-Desktop 项目最新的未解决问题吗? | browser-use-triple-speed.mp4 | remote-browser-operators.mp4 |

功能特性

请参阅快速开始。

贡献

请参阅 CONTRIBUTING.md。

许可证

本项目采用 Apache License 2.0 许可证。

引用

如果你觉得我们的论文和代码对你的研究有帮助,请考虑给我们一个星标 ⭐。

📖 阅读原文 →