场景还原
我最近接了一个活:某个运行了七八年的内部后台系统要做迁移,但现存的文档几乎为零。唯一能找到的是几张残缺的 Visio 流程图,版本号还和线上对不上。
这种「人走了,文档没留下」的情况,在传统企业里太常见了。老系统的业务逻辑全写在代码里和运维的脑子里,新来的产品经理想搞清楚业务流程,只有一条路——找老人对着屏幕走一遍。
问题是:
- 老人时间有限,不可能陪你一页一页截图做标注
- 走完一遍你也记不住所有细节,回头翻笔记发现漏了大半
- 截图+文字描述的产出方式,开发看了头疼,你自己维护也崩溃
我当时想:能不能换个思路——录屏交给 AI 去拆?
最终跑通的方案是这样的:录屏 → 语音转文字 → 交给 AI 结构化 → 输出功能清单+页面描述→ 人工复核。下面拆开讲每一步。
第一步:录屏,但要有方法
不是随便拿个录屏软件录完就完事的。前期没规划好,后面 AI 处理的质量会差很多。
我的做法:
- 按模块分段录。比如「订单管理」录一段、「用户权限」录一段,每段控制在 5-10 分钟。太长的话 AI 处理 context 窗口会截断,而且老人操作时容易跑题聊别的。
- 操作者边点边说。讲清楚每一步在干什么——「这个下拉选了’已完成’,点查询,列表只显示状态为已完成的任务」——这是后面 AI 理解业务逻辑的核心素材。
- 录完立刻标记文件名。
20260515-订单管理-已完结.mp4这种格式,不要回头再猜哪段是哪段。
工具方面,OBS 免费够用,Windows 可以用 Xbox Game Bar,前提是输出 MP4 格式方便后续处理。
第二步:从视频到文本
视频本身 AI 不能直接处理,需要转成文本。两步走:
A. 提取音频 + 转文字
我用的是 OpenAI Whisper(本地部署),命令行一行搞定:
ffmpeg -i input.mp4 -vn -ar 16000 -ac 1 output.wav
whisper output.wav --model medium --language zh
输出是一段带时间戳的中文文本。老人的口述、系统反馈,全在里面了。
如果你不想本地部署,剪映的语音转文字也够用,导出字幕文件就行。关键是保留说话人——谁在操作、谁在提问,上下文越完整越好。
B. OCR 截图关键帧
光靠语音不够,系统界面本身包含大量信息:列表字段、按钮文案、弹窗提示。我用 ffmpeg 按固定间隔抽帧,然后用 OCR 提取画面文字:
ffmpeg -i input.mp4 -vf fps=1 frames/frame_%04d.png
配合 PaddleOCR 或 Tesseract 批量识别,得到每帧的界面文字内容。这部分主要用来补充语音里没覆盖到的 UI 细节。
第三步:AI 结构化输出
转写文本和 OCR 结果拿到后,最关键的一步来了——让 AI 把它们变成结构化的文档。
我用的 prompt 框架大概长这样:
你是一位资深产品经理。以下是一段系统操作录屏的转写文本,
包含操作者的口述和界面 OCR 文字。
请帮我输出:
1. **功能模块清单**:按界面层级列出所有功能点及入口路径
2. **业务流程描述**:核心业务流转的步骤与条件分支
3. **页面字段说明**:每个页面上出现的字段、操作按钮及其含义
4. **异常状态**:你观察到的报错信息、边界情况
5. **其他发现**:逻辑矛盾、重复操作、可优化的点
要求:
- 每个模块标注「确认度」——从语音/画面可直接确认的标高,需要推断的标中,不确定的标低
- 不要脑补没有出现的内容
- 输出格式为 Markdown
几次迭代下来发现两个关键点:
- 分段处理比一次全丢进去效果好得多。一个模块一个模块地问,AI 不会漏细节。
- 加上「确认度」标记非常有用。AI 有时候会猜一些看似合理但实际错误的逻辑,标记出来之后,人工复核时一眼就能定位需要验证的地方。
第四步:人工复核
这个步骤不能省。
AI 输出的初稿大概率有这些毛病:
- 把操作者随意说的一个特例当成了通用规则
- 漏掉了「默认情况」——老人操作得太熟练,跳过了正常流程里的某些步骤
- 界面上的某些按钮/字段 OCR 没识别到,导致模块信息不完整
我的复核流程:
- 打开录屏,对着 AI 输出的模块清单快速过一遍
- 每确认一个模块,在文档里标记 ✅
- 不确定的标记 ❓,找老人确认
- 把老人的补充口述再次丢给 AI,更新对应模块
四段录屏(约 40 分钟操作)的输出,人工复核时间大约是 2 小时。对比传统的逐页截图+手动写文档的方式(至少两天起步),效率提升很明显。
产出物长什么样
最终输出是一份 GitBook 格式的文档库:
legacy-system-docs/
├── 01-订单管理/
│ ├── 功能清单.md
│ ├── 业务流程.md
│ └── 页面字段说明.md
├── 02-用户权限/
│ ├── 功能清单.md
│ ├── 业务流程.md
│ └── 页面字段说明.md
└── 附录/
├── 异常状态汇总.md
└── 待确认事项.md
每份文档都有「确认度」标记,团队里谁都能看清哪些信息是确定的、哪些需要进一步验证。
几个踩过的坑
- 别在录屏时引导操作者。你一打断,对方会跳到下一个功能去演示,导致这一段的业务流程断掉。所有问题录完集中问。
- 语音转文字的质量取决于录音环境。会议室比工位好太多。如果环境噪音大,后期 Whisper 的识别率会明显下降。
- OCR 不是必需品,但有更好。如果系统 UI 以中文文本为主,OCR 输出的字段名+按钮名能大幅提升文档的完整度。
- 确认度标记不是偷懒,是风险提示。标注「低确认度」的内容,开发在看文档时会主动去验证,反而比一份看着很全但实际有错的文档更安全。
小结
这套流程的核心不是用 AI 替代产品经理的思考,而是把「看+记+写」这个体力活从人身上卸掉,让人把时间花在判断和追问上。
录屏 → 语音/文字提取 → AI 结构化 → 人工复核,这个四步模式不仅适用于老系统拆解,新人 onboarding、跨团队需求交接、甚至产品功能验收都可以复用。
目前我在把这套流程做成一个内部工具,下次可以聊聊怎么把 prompt 固化为可复用的工作流模板。