Doubao AI
Browser Extension

从 0 到 1 设计一个嵌入真实浏览器工作流的 AI 助手，让 AI 在「看内容、找内容、生产内容」的场景里自然发生，而不是停留在独立对话框里。

角色	设计 Owner · 0-1 整体体验
所属公司	ByteDance · 豆包
平台	浏览器插件
阶段	0-1 搭建框架 · 持续迭代至增长
类型	AI 产品场景分发插件体验

项目
定位

豆包浏览器插件的产品定位，不是「把豆包做成一个浏览器入口」，而是做一个真正嵌入用户浏览器场景的 AI 浏览器助手。

浏览器本身是一个天然高频、场景密集的空间，用户会在里面完成三类事情：

看内容：浏览网页、PDF、图片、视频
找内容：搜索、购物、信息查找
生产内容：写邮件、写作、处理文本内容

这也决定了插件和独立 App 最大的不同：它不是等用户主动来用，而是应该根据用户所处的具体场景，分发最合适的 AI 能力。

定义

AI 浏览器助手 —— 在用户真实浏览行为中提供理解、总结、搜索、辅助生产与后续整理能力，而不是一个孤立的聊天入口。

项目定位：浏览器内典型任务与产品边界梳理。

为什么
要做

第一层 — 浏览器是 AI 最容易进入真实工作流的入口

相比独立应用，浏览器天然覆盖信息消费、搜索决策和内容生产三类高频任务。用户不需要额外切换工具，很多真实需求本来就发生在网页里。插件能更贴近用户当下任务，而不是要求用户先离开当前页面，再进入一个新的 AI 产品。

第二层 — 当时大模型能力很强，但用户对 AI 的使用方式还没有共识

在 0-1 阶段，挑战不只是「模型能不能做」，而是「用户知不知道什么时候该用、为什么值得用」。当时普遍使用心智尚未稳定，我的判断是：先把价值讲清楚，比急于堆功能更关键。

第三层 — 插件不能照搬聊天产品，必须找到自己的交互形态

如果只是把一个聊天框塞进浏览器，很难真正成立。用户已经在某个上下文里做事，设计要回答：AI 在浏览器里如何被唤起、依附页面还是独立存在、如何既不打断又能高频露出价值、如何处理网页、搜索、视频等多种内容类型——这些要在初期先完成产品形态与交互框架判断。

为什么要做：入口价值、心智与形态三层判断的可视化整理。

设计
命题

命题

设计一个真正嵌入浏览器场景的 AI 助手，让用户在不改变原有浏览习惯的前提下，自然获得 AI 带来的效率增值。

该命题对设计提出四项约束：

价值清晰：用户可快速理解能力边界与收益
触发便捷：避免引入过高学习成本
框架简洁且可扩展：适配多类浏览场景
多类型信息兼容：网页、检索结果、视频与文本等

设计命题：四项约束与阶段推进节奏。

分阶段

这个项目不是做完一个版本就结束，而是沿着比较清晰的三阶段路径往前推进。

第一阶段：先搭建产品框架，快速传达价值

目标不是一次性把所有场景做满，而是先把产品架构搭起来，让用户快速理解「这是一个什么产品」。重点定义基础交互：划词、边栏、输入框、页面内嵌入口等。我更关注「产品怎么成立」，而不是「功能做多少」。

第二阶段：通过数据与分析，打磨核心场景体验

框架成立后，基于数据看用户到底在哪些场景里最常使用插件，再集中优化。用户分布上，搜索场景占比最高，其次是视频；功能渗透上，视频总结、搜索总结、网页翻译、网页总结最为突出——不能平均用力，要优先在搜索和视频形成体验优势。

第三阶段：找到增长关键点，提升活跃与留存

思考用户消费大量内容之后，如何继续留下来、回来用、形成持续工作流；从「单次使用工具」转向「长期内容整理与回访」，探索 AI 收藏夹等能力。

关键
判断

在 0-1 阶段，我用下面三条判断来对齐产品方向。

插件不是「缩小版聊天产品」，而是「场景分发型产品」

若把插件理解成迷你版豆包，价值会很弱；用户没必要为通用聊天框专门装插件。能力要按场景分发：搜索结果页总结、视频页摘要与时间线/双语字幕、网页内翻译与问答、想收藏时做 AI 归纳整理——价值来自「更贴近上下文」，而不是「更小」。

必须先把交互框架做轻，让用户几乎无门槛触达

当时与团队对齐的重点是：框架简洁、可扩展、高频露出、降低门槛、覆盖多样信息类型。落地上优先保证用户能快速看见 AI 能力、唤起成本低、不打断原始浏览任务，并能平滑承接更多内容类型。

交互结构要找到「页面内」和「页面旁」的平衡

Beside：工作流在左、AI 在右，多种输入与模型持续互动。Inside：主要输入循环发生在原页面内，通过嵌入按钮触发。本质是在问：AI 是伴随式助手，还是页内即时能力？阶段价值在于通过框架探索尽快找到适合浏览器的交互骨架，而不是立刻锁定唯一答案。

结构	核心做法	取舍
Beside	主任务与 AI 响应分置两侧，支持多模输入及与模型的持续交互，过程可见。	占用横向空间，需与深度阅读体验平衡；侧栏过重易干扰正文。
Inside	于页面内嵌入口，主要交互闭环发生于当前页。	入口发现与多页面类型适配成本较高。

关键判断：场景分发、轻框架与页面内/旁结构探索。

搜索

搜索是插件最值得优先做深的场景。

为什么先做搜索

从数据上看，搜索场景是用户分布最高的页面类型之一。更重要的是，搜索天生存在「找答案效率低」的问题：用户通常需要在结果页里不断点开链接、对比信息、再自己总结。行为又可拆成导航型、信息型与事务型搜索；其中信息型搜索在通用搜索中占很高比例，也是 AI 搜索最明显的机会。

设计机会点

相较于让用户自己在多个链接之间跳转，生成式搜索可以直接给出结构化答案。差异化方向包括：多样的总结展示结构（文字、脑图等）、整合搜索后的后续意图（收藏、下载、分享）、多模态整合能力，以及聚焦更有价值的垂直场景。

用户路径	设计回应
多链接对比与自行总结	搜索总结与结构化呈现，先输出结论与脉络，再决定是否深入阅读。
信息型查询占比高	AI 搜索链接预览、脑图、卡片分享、深入搜索等，降低「检索后大量新开标签页」的摩擦。

设计结果

围绕搜索结果页，逐步设计并上线了：搜索总结、AI 搜索链接预览、脑图、卡片分享、深入搜索等能力。

13.28%

搜索相关场景 · 30 日留存

60%

AI 搜索预览卡片渗透率

55%–60%

Tooltip 至结果展现渗透

2 万+

每日触达总结结果用户量级（约）

这部分工作的意义不止于「上线一个总结功能」，而是用数据验证：当 AI 能缩短用户从搜索到获取答案的路径时，插件形态是成立的。预览卡片高渗透、低关闭率也说明，该形态对主检索任务的打扰可控。

搜索场景：路径梳理、方案结构与语音唤起演示。

视频

视频是另一个高价值场景，而且相比网页内容，它更天然存在「理解门槛高、回看成本高」的问题。

为什么做视频

数据上，视频是仅次于搜索的重要场景；功能渗透上，视频总结甚至优于很多网页类功能——用户对「帮我更快理解内容」有非常强的真实需求。

设计重点

围绕视频场景，重点分析了竞品里视频 AI 的做法、总结后的问答形态、多样的展示结构，以及用户如何在「看视频」和「理解视频」之间切换。最终承接了：视频总结、时间线互动、双语字幕、脑图、笔记等能力。

18.85%

视频页 · 30 日留存

高于检索

留存高于搜索场景，属核心能力组合

浏览器插件的价值，不只是网页问答，而是对多种内容类型进行上下文理解和效率增强。视频页 30 日留存高于搜索，说明视频不是「可做可不做」的附加场景，而是极具粘性的核心场景之一。

视频场景：嵌入问答、脑图、时间线定位与笔记。

增长

当搜索和视频这些高频场景逐渐跑通后，产品进入第三阶段，开始思考更长期的问题：

命题

用户消费了大量内容之后，如何把有价值的内容收集起来，并且以后还能快速找到、快速理解？

这也是我们探索 AI 收藏夹等能力的背景：传统收藏夹越收越多、却难整理、难回看；我参与的方向是用 AI 辅助自动打标签与内容总结，帮助筛选与速读。能力仍在迭代，但产品叙事已从「单次提效工具」走向「长期内容管理助手」，这层对留存与活跃的意义比单点功能更深。

增长与回访：收藏引导与多类型内容整理。

方法

在这个 0-1 项目里，我的工作方式可以概括为：小步快跑、假设验证、快速迭代。

先快速搭骨架，而不是一开始做满功能

0-1 最重要的是让产品先成立，所以我优先定义交互框架和基础触点，而不是追求大而全。

用数据判断主战场，而不是平均分配资源

框架稳定后，再通过用户分布、功能渗透、留存等数据确认：哪些场景值得继续做深，哪些能力真正被用户使用。

在高频场景里持续打磨细节体验

例如在搜索场景里，通过文字提示展示当前步骤、提供视觉反馈、让操作更轻量化等，降低唤起成本。插件成败往往取决于「唤起是否足够顺手」。

原则

项目在真实场景里跑出一组可复用的 AI 设计原则，作为长期沉淀：

便捷的触发
可感知、可信赖
识别意图，主动工作
自然语言与图形界面相结合
借助记忆形成个性化体验
充分感知上下文
AI 即内容

我的
价值

完成了产品形态判断

推动团队把插件从「浏览器里的聊天工具」定义成「场景分发型 AI 助手」，决定后续产品能力的组织方式。

搭建了 0-1 的产品交互框架

在用户尚未形成稳定 AI 使用心智的阶段，主导定义最基础的交互骨架，让产品能快速传达价值并建立初始认知。

用数据驱动核心场景收敛

进入第二阶段后，不是平均优化所有能力，而是围绕搜索和视频等高价值场景打磨体验，并用渗透率与留存验证方向是否成立。

从单次功能走向增长思考

参与把产品从「即时工具」往「长期整理与回访助手」推进（如 AI 收藏夹），关注的不只是 feature 体验，而是产品如何形成持续使用价值。

一句话
总结

总结

对浏览器插件来说，AI 的价值不在于多一个入口，而在于它能否嵌入用户当下正在发生的真实任务，并用更低打扰、更高上下文感知的方式，把效率真正提上去。

Doubao AIBrowser Extension