从 0 到 1 设计一个嵌入真实浏览器工作流的 AI 助手,让 AI 在「看内容、找内容、生产内容」的场景里自然发生,而不是停留在独立对话框里。
| 角色 | 设计 Owner · 0-1 整体体验 |
| 所属公司 | ByteDance · 豆包 |
| 平台 | 浏览器插件 |
| 阶段 | 0-1 搭建框架 · 持续迭代至增长 |
| 类型 | AI 产品 场景分发 插件体验 |
豆包浏览器插件的产品定位,不是「把豆包做成一个浏览器入口」,而是做一个真正嵌入用户浏览器场景的 AI 浏览器助手。
浏览器本身是一个天然高频、场景密集的空间,用户会在里面完成三类事情:
这也决定了插件和独立 App 最大的不同:它不是等用户主动来用,而是应该根据用户所处的具体场景,分发最合适的 AI 能力。
AI 浏览器助手 —— 在用户真实浏览行为中提供理解、总结、搜索、辅助生产与后续整理能力,而不是一个孤立的聊天入口。
项目定位:浏览器内典型任务与产品边界梳理。
相比独立应用,浏览器天然覆盖信息消费、搜索决策和内容生产三类高频任务。用户不需要额外切换工具,很多真实需求本来就发生在网页里。插件能更贴近用户当下任务,而不是要求用户先离开当前页面,再进入一个新的 AI 产品。
在 0-1 阶段,挑战不只是「模型能不能做」,而是「用户知不知道什么时候该用、为什么值得用」。当时普遍使用心智尚未稳定,我的判断是:先把价值讲清楚,比急于堆功能更关键。
如果只是把一个聊天框塞进浏览器,很难真正成立。用户已经在某个上下文里做事,设计要回答:AI 在浏览器里如何被唤起、依附页面还是独立存在、如何既不打断又能高频露出价值、如何处理网页、搜索、视频等多种内容类型——这些要在初期先完成产品形态与交互框架判断。
为什么要做:入口价值、心智与形态三层判断的可视化整理。
设计一个真正嵌入浏览器场景的 AI 助手,让用户在不改变原有浏览习惯的前提下,自然获得 AI 带来的效率增值。
该命题对设计提出四项约束:
设计命题:四项约束与阶段推进节奏。
这个项目不是做完一个版本就结束,而是沿着比较清晰的三阶段路径往前推进。
目标不是一次性把所有场景做满,而是先把产品架构搭起来,让用户快速理解「这是一个什么产品」。重点定义基础交互:划词、边栏、输入框、页面内嵌入口等。我更关注「产品怎么成立」,而不是「功能做多少」。
框架成立后,基于数据看用户到底在哪些场景里最常使用插件,再集中优化。用户分布上,搜索场景占比最高,其次是视频;功能渗透上,视频总结、搜索总结、网页翻译、网页总结最为突出——不能平均用力,要优先在搜索和视频形成体验优势。
思考用户消费大量内容之后,如何继续留下来、回来用、形成持续工作流;从「单次使用工具」转向「长期内容整理与回访」,探索 AI 收藏夹等能力。
在 0-1 阶段,我用下面三条判断来对齐产品方向。
| 结构 | 核心做法 | 取舍 |
|---|---|---|
| Beside | 主任务与 AI 响应分置两侧,支持多模输入及与模型的持续交互,过程可见。 | 占用横向空间,需与深度阅读体验平衡;侧栏过重易干扰正文。 |
| Inside | 于页面内嵌入口,主要交互闭环发生于当前页。 | 入口发现与多页面类型适配成本较高。 |
关键判断:场景分发、轻框架与页面内/旁结构探索。
搜索是插件最值得优先做深的场景。
从数据上看,搜索场景是用户分布最高的页面类型之一。更重要的是,搜索天生存在「找答案效率低」的问题:用户通常需要在结果页里不断点开链接、对比信息、再自己总结。行为又可拆成导航型、信息型与事务型搜索;其中信息型搜索在通用搜索中占很高比例,也是 AI 搜索最明显的机会。
相较于让用户自己在多个链接之间跳转,生成式搜索可以直接给出结构化答案。差异化方向包括:多样的总结展示结构(文字、脑图等)、整合搜索后的后续意图(收藏、下载、分享)、多模态整合能力,以及聚焦更有价值的垂直场景。
| 用户路径 | 设计回应 |
|---|---|
| 多链接对比与自行总结 | 搜索总结与结构化呈现,先输出结论与脉络,再决定是否深入阅读。 |
| 信息型查询占比高 | AI 搜索链接预览、脑图、卡片分享、深入搜索等,降低「检索后大量新开标签页」的摩擦。 |
围绕搜索结果页,逐步设计并上线了:搜索总结、AI 搜索链接预览、脑图、卡片分享、深入搜索等能力。
这部分工作的意义不止于「上线一个总结功能」,而是用数据验证:当 AI 能缩短用户从搜索到获取答案的路径时,插件形态是成立的。预览卡片高渗透、低关闭率也说明,该形态对主检索任务的打扰可控。
搜索场景:路径梳理、方案结构与语音唤起演示。
视频是另一个高价值场景,而且相比网页内容,它更天然存在「理解门槛高、回看成本高」的问题。
数据上,视频是仅次于搜索的重要场景;功能渗透上,视频总结甚至优于很多网页类功能——用户对「帮我更快理解内容」有非常强的真实需求。
围绕视频场景,重点分析了竞品里视频 AI 的做法、总结后的问答形态、多样的展示结构,以及用户如何在「看视频」和「理解视频」之间切换。最终承接了:视频总结、时间线互动、双语字幕、脑图、笔记等能力。
浏览器插件的价值,不只是网页问答,而是对多种内容类型进行上下文理解和效率增强。视频页 30 日留存高于搜索,说明视频不是「可做可不做」的附加场景,而是极具粘性的核心场景之一。




视频场景:嵌入问答、脑图、时间线定位与笔记。
当搜索和视频这些高频场景逐渐跑通后,产品进入第三阶段,开始思考更长期的问题:
用户消费了大量内容之后,如何把有价值的内容收集起来,并且以后还能快速找到、快速理解?
这也是我们探索 AI 收藏夹等能力的背景:传统收藏夹越收越多、却难整理、难回看;我参与的方向是用 AI 辅助自动打标签与内容总结,帮助筛选与速读。能力仍在迭代,但产品叙事已从「单次提效工具」走向「长期内容管理助手」,这层对留存与活跃的意义比单点功能更深。
增长与回访:收藏引导与多类型内容整理。
在这个 0-1 项目里,我的工作方式可以概括为:小步快跑、假设验证、快速迭代。
0-1 最重要的是让产品先成立,所以我优先定义交互框架和基础触点,而不是追求大而全。
框架稳定后,再通过用户分布、功能渗透、留存等数据确认:哪些场景值得继续做深,哪些能力真正被用户使用。
例如在搜索场景里,通过文字提示展示当前步骤、提供视觉反馈、让操作更轻量化等,降低唤起成本。插件成败往往取决于「唤起是否足够顺手」。
项目在真实场景里跑出一组可复用的 AI 设计原则,作为长期沉淀:
对浏览器插件来说,AI 的价值不在于多一个入口,而在于它能否嵌入用户当下正在发生的真实任务,并用更低打扰、更高上下文感知的方式,把效率真正提上去。