← 返回日报
🌐 机器翻译 · DeepSeek · HN

Reimagining the mouse pointer for the AI era


以下是按照您的要求翻译的中文版本,保留了原文结构、技术术语和代码块,并采用 Markdown 格式输出。


重新构想 AI 时代的鼠标指针

2026 年 5 月 12 日 · 研究 · 重新构想 AI 时代的鼠标指针 Adrien Baranes 和 Rob Marchant · 分享 · 复制链接

我们正在开发更流畅、更直观的方式与 AI 协作

鼠标指针一直是电脑屏幕上的忠实伙伴,出现在每一个网站、文档和工作流程中。尽管技术发生了巨大变化,但鼠标指针在半个多世纪以来几乎没有进化。我们一直在探索由 AI 驱动的新功能,帮助指针不仅理解它指向的是什么,还能理解它为什么对用户重要。

我们的目标是解决一个常见的痛点:由于典型的 AI 工具存在于自己的窗口中,用户需要将他们的世界拖拽进去。我们想要相反的效果:让直观的 AI 出现在用户使用的所有工具中,而不打断他们的工作流。例如,想象一下,指向一张建筑物的图片,然后说“给我导航”。当 AI 系统已经理解上下文时,无需更多操作。

今天,我们概述了指导我们思考未来用户界面的基本原则,并分享了由 Gemini 驱动的 AI 增强指针的实验性演示。例如,你可以访问 Google AI Studio,只需指向并说话,就能编辑图片或在地图上查找地点。

本视频展示了我们 AI 增强指针的实验环境。视频中的序列均经过缩短处理。

我们的交互原则

我们制定了四项原则,共同将传达上下文和意图的繁重工作从用户转移到计算机,用更简单、更直观的交互取代冗长的文本提示。以下是我们方法和原则的图示。

保持流畅

AI 功能应能跨所有应用工作,而不是强迫用户在应用之间走“AI 弯路”。我们的 AI 增强指针原型在用户工作的任何地方都可使用。例如,用户可以指向一个 PDF 并请求生成要点摘要,直接粘贴到电子邮件中;悬停在一个统计表格上并请求生成饼图版本;或者高亮一个食谱并请求将所有食材用量加倍。

您的浏览器不支持视频标签。 您的浏览器不支持视频标签。

展示与告知

当前的 AI 模型需要精确的指令。为了获得良好的回应,用户必须编写详细的提示。AI 增强指针将通过平滑地捕获指针周围的视觉和语义上下文来简化这一过程,让计算机“看到”并理解用户关注的重点。在我们的实验系统中,只需指向,AI 就能准确知道用户需要帮助的是哪个单词、段落、图片部分或代码块。

您的浏览器不支持视频标签。 您的浏览器不支持视频标签。

拥抱“这个”和“那个”的力量

在日常人际互动中,人类很少使用冗长、详细的段落。我们可能会说“修好这个”、“把这个移到那里”或“这是什么意思?”——同时依靠肢体动作和共享的上下文来填补理解上的空白。一个能够理解这种上下文、指向和语音组合的 AI 系统,将允许用户用自然的简略表达提出复杂请求,无需繁琐的提示。

您的浏览器不支持视频标签。 您的浏览器不支持视频标签。

将像素转化为可操作的实体

几十年来,计算机只追踪我们指向的位置。现在,AI 还能理解用户指向的是什么。这将像素转化为结构化的实体,例如地点、日期和对象,用户可以即时与之交互。一张潦草笔记的照片变成了一个可交互的待办事项列表;旅行视频中暂停的一帧变成了那家看起来很酷的餐厅的预订链接。

您的浏览器不支持视频标签。 您的浏览器不支持视频标签。

构建适应人类行为的技术——而不是强迫用户去适应技术——将带来一个与 AI 协作真正直观、流畅且无缝的未来。我们很高兴这些以人为本的概念正在被融入我们日常使用的产品中。

在我们的产品中应用这项工作

我们现在正在将这些原则整合到 Chrome 和我们的新 Googlebook 笔记本电脑体验中,以重新构想指向操作。从今天开始,你不再需要编写复杂的提示,而是可以使用指针在 Chrome 中向 Gemini 询问你关心的网页部分。例如,你可以选择页面上的几个产品并要求进行比较,或者指向你客厅中想要可视化新沙发的位置。

同样,我们很快将在 Googlebook 中推出 Magic Pointer,让用户能够随时调用 Gemini,获得更直观的体验。由于还有许多其他潜在的好应用,我们将继续在我们的各个平台上测试未来的概念,包括 Google Labs 的 Disco。

在 Google AI Studio 中尝试 AI 增强指针

📖 阅读原文 →