当产品经理用 AI 拆解老系统：一份录屏到文档的完整设计方案

场景还原

我最近接了一个活：某个运行了七八年的内部后台系统要做迁移，但现存的文档几乎为零。唯一能找到的是几张残缺的 Visio 流程图，版本号还和线上对不上。

这种「人走了，文档没留下」的情况，在传统企业里太常见了。老系统的业务逻辑全写在代码里和运维的脑子里，新来的产品经理想搞清楚业务流程，只有一条路——找老人对着屏幕走一遍。

问题是：

老人时间有限，不可能陪你一页一页截图做标注
走完一遍你也记不住所有细节，回头翻笔记发现漏了大半
截图+文字描述的产出方式，开发看了头疼，你自己维护也崩溃

我当时想：能不能换个思路——录屏交给 AI 去拆？

最终跑通的方案是这样的：录屏 → 语音转文字 → 交给 AI 结构化 → 输出功能清单+页面描述→ 人工复核。下面拆开讲每一步。

第一步：录屏，但要有方法

不是随便拿个录屏软件录完就完事的。前期没规划好，后面 AI 处理的质量会差很多。

我的做法：

按模块分段录。比如「订单管理」录一段、「用户权限」录一段，每段控制在 5-10 分钟。太长的话 AI 处理 context 窗口会截断，而且老人操作时容易跑题聊别的。
操作者边点边说。讲清楚每一步在干什么——「这个下拉选了’已完成’，点查询，列表只显示状态为已完成的任务」——这是后面 AI 理解业务逻辑的核心素材。
录完立刻标记文件名。20260515-订单管理-已完结.mp4 这种格式，不要回头再猜哪段是哪段。

工具方面，OBS 免费够用，Windows 可以用 Xbox Game Bar，前提是输出 MP4 格式方便后续处理。

第二步：从视频到文本

视频本身 AI 不能直接处理，需要转成文本。两步走：

A. 提取音频 + 转文字

我用的是 OpenAI Whisper（本地部署），命令行一行搞定：

ffmpeg -i input.mp4 -vn -ar 16000 -ac 1 output.wav
whisper output.wav --model medium --language zh

输出是一段带时间戳的中文文本。老人的口述、系统反馈，全在里面了。

如果你不想本地部署，剪映的语音转文字也够用，导出字幕文件就行。关键是保留说话人——谁在操作、谁在提问，上下文越完整越好。

B. OCR 截图关键帧

光靠语音不够，系统界面本身包含大量信息：列表字段、按钮文案、弹窗提示。我用 ffmpeg 按固定间隔抽帧，然后用 OCR 提取画面文字：

ffmpeg -i input.mp4 -vf fps=1 frames/frame_%04d.png

配合 PaddleOCR 或 Tesseract 批量识别，得到每帧的界面文字内容。这部分主要用来补充语音里没覆盖到的 UI 细节。

第三步：AI 结构化输出

转写文本和 OCR 结果拿到后，最关键的一步来了——让 AI 把它们变成结构化的文档。

我用的 prompt 框架大概长这样：

你是一位资深产品经理。以下是一段系统操作录屏的转写文本，
包含操作者的口述和界面 OCR 文字。

请帮我输出：

1. **功能模块清单**：按界面层级列出所有功能点及入口路径
2. **业务流程描述**：核心业务流转的步骤与条件分支
3. **页面字段说明**：每个页面上出现的字段、操作按钮及其含义
4. **异常状态**：你观察到的报错信息、边界情况
5. **其他发现**：逻辑矛盾、重复操作、可优化的点

要求：
- 每个模块标注「确认度」——从语音/画面可直接确认的标高，需要推断的标中，不确定的标低
- 不要脑补没有出现的内容
- 输出格式为 Markdown

几次迭代下来发现两个关键点：

分段处理比一次全丢进去效果好得多。一个模块一个模块地问，AI 不会漏细节。
加上「确认度」标记非常有用。AI 有时候会猜一些看似合理但实际错误的逻辑，标记出来之后，人工复核时一眼就能定位需要验证的地方。

第四步：人工复核

这个步骤不能省。

AI 输出的初稿大概率有这些毛病：

把操作者随意说的一个特例当成了通用规则
漏掉了「默认情况」——老人操作得太熟练，跳过了正常流程里的某些步骤
界面上的某些按钮/字段 OCR 没识别到，导致模块信息不完整

我的复核流程：

打开录屏，对着 AI 输出的模块清单快速过一遍
每确认一个模块，在文档里标记 ✅
不确定的标记 ❓，找老人确认
把老人的补充口述再次丢给 AI，更新对应模块

四段录屏（约 40 分钟操作）的输出，人工复核时间大约是 2 小时。对比传统的逐页截图+手动写文档的方式（至少两天起步），效率提升很明显。

产出物长什么样

最终输出是一份 GitBook 格式的文档库：

legacy-system-docs/
├── 01-订单管理/
│   ├── 功能清单.md
│   ├── 业务流程.md
│   └── 页面字段说明.md
├── 02-用户权限/
│   ├── 功能清单.md
│   ├── 业务流程.md
│   └── 页面字段说明.md
└── 附录/
    ├── 异常状态汇总.md
    └── 待确认事项.md

每份文档都有「确认度」标记，团队里谁都能看清哪些信息是确定的、哪些需要进一步验证。

几个踩过的坑

别在录屏时引导操作者。你一打断，对方会跳到下一个功能去演示，导致这一段的业务流程断掉。所有问题录完集中问。
语音转文字的质量取决于录音环境。会议室比工位好太多。如果环境噪音大，后期 Whisper 的识别率会明显下降。
OCR 不是必需品，但有更好。如果系统 UI 以中文文本为主，OCR 输出的字段名+按钮名能大幅提升文档的完整度。
确认度标记不是偷懒，是风险提示。标注「低确认度」的内容，开发在看文档时会主动去验证，反而比一份看着很全但实际有错的文档更安全。

小结

这套流程的核心不是用 AI 替代产品经理的思考，而是把「看+记+写」这个体力活从人身上卸掉，让人把时间花在判断和追问上。

录屏 → 语音/文字提取 → AI 结构化 → 人工复核，这个四步模式不仅适用于老系统拆解，新人 onboarding、跨团队需求交接、甚至产品功能验收都可以复用。

目前我在把这套流程做成一个内部工具，下次可以聊聊怎么把 prompt 固化为可复用的工作流模板。