← 返回日报
🌐 机器翻译 · DeepSeek · GitHub

bytedance UI-TARS-desktop


引言

English | 简体中文

TARS * 是一个多模态 AI Agent 技术栈,目前包含两个项目:Agent TARS 和 UI-TARS-desktop。

[agent-tars-book-hotel.mp4] [computer-use-triple-speed.mp4]

Agent TARS 是一个通用的多模态 AI Agent 技术栈,它将 GUI Agent 和视觉能力引入你的终端、计算机、浏览器和产品中。它主要通过 CLI 和 Web UI 提供使用方式。其目标是通过前沿的多模态大语言模型以及与各种真实世界 MCP 工具的 seamless 集成,提供一种更接近人类完成任务的工作流程。

UI-TARS Desktop 是一款桌面应用程序,提供基于 UI-TARS 模型的原生 GUI Agent。它主要提供本地和远程计算机以及浏览器的操作能力。

目录

Agent TARS 是一个通用的多模态 AI Agent 技术栈,它将 GUI Agent 和视觉能力引入你的终端、计算机、浏览器和产品中。它主要通过 CLI 和 Web UI 提供使用方式。其目标是通过前沿的多模态大语言模型以及与各种真实世界 MCP 工具的 seamless 集成,提供一种更接近人类完成任务的工作流程。

展示

[agent-tars-new-flight.mp4]

[agent-tars-book-hotel.mp4]

[mcp-chart.mp4]

指令:我将于 9 月 1 日至 9 月 6 日在洛杉矶,预算为 5,000 美元。请帮我在 booking.com 上预订离机场最近的丽思卡尔顿酒店,并为我整理一份交通指南。

指令:为我绘制一张杭州一个月的天气图表。

更多用例请查看 #842。

核心功能

请访问全面的快速开始指南以获取详细的设置说明。

文档

🌟 探索 Agent TARS 宇宙 🌟

| 分类 | 资源链接 | 描述 | |------|----------|------| | 🏠 中央枢纽 | 你的 Agent TARS 生态系统入口 | | 📚 快速开始 | 5 分钟从零到精通 | | 🚀 最新动态 | 发现前沿功能与愿景 | | 🛠️ 开发者专区 | 掌握每一个命令和功能 | | 🎯 展示 | 查看官方和社区构建的用例 | | 🔧 参考 | 完整的技术参考 |

UI-TARS Desktop

UI-TARS Desktop 是一个面向你本地计算机的原生 GUI Agent,由 UI-TARS 和 Seed-1.5-VL/1.6 系列模型驱动。

📑 论文 | 🤗 Hugging Face 模型 | 🫨 Discord | 🤖 ModelScope 🖥️ 桌面应用程序 | 👓 Midscene(在浏览器中使用)

展示

| 指令 | 本地操作 | 远程操作 | |------|----------|----------| | 请帮我打开 VS Code 的自动保存功能,并在 VS Code 设置中将自动保存操作延迟 500 毫秒。 | [computer-use-triple-speed.mp4] | [remote-computer-operators.mp4] | | 你能帮我在 GitHub 上查看 UI-TARS-Desktop 项目最新的未关闭 issue 吗? | [browser-use-triple-speed.mp4] | [remote-browser-operators.mp4] |

功能特性

请参阅快速开始。

贡献

请参阅 CONTRIBUTING.md。

许可证

本项目采用 Apache License 2.0 许可证。

引用

如果你觉得我们的论文和代码对你的研究有帮助,请考虑给我们一个星标 ⭐。

📖 阅读原文 →