我们团队 AI 赋能需求迭代的落地情况
最近一段时间,AI 在团队里的存在感越来越强。
不管是评审、写代码,还是写文档、补用例,几乎都能看到它的身影。
网上也陆续出现了很多分享:
AI 如何重构流程、如何提升效率、如何改变研发模式。
但这篇文章还是和我之前的风格一样——
不谈那些高大上的名词,不讲“AI 驱动组织变革”,就单纯聊聊我们团队现在是怎么用 AI 的,以及它真实解决了什么问题,又没解决什么问题。
一、产品经理:想用,但还没形成“用法”
先说说产品经理。
他们其实挺羡慕开发和测试的:
评审会上,经常能看到开发和测试拿着 AI 生成的文档、用例、方案在讨论,甚至代码本身都是 AI 写的。
产品同学自然也会想:那需求是不是也能直接用 AI 来生成?
但根据我和他们的交流,目前主要卡在两点:
- 技术门槛:
产品经理大多不太愿意(也不太擅长)去折腾复杂的提示词、结构化输入、上下游链路。
- 公司基建还没到位:
没有成熟的需求模版、历史需求知识库、上下游自动联动能力。
所以现在的实际情况是:
AI 更多是一个“灵感提供者”,而不是“需求生成器”。
常见用法包括:
-
帮忙补充思路、拆分功能点
-
提供一些方案方向或边界提醒
-
偶尔改改措辞
但很少直接生成一整份可用的 PRD。
二、开发团队:中小需求几乎都会用 AI 写代码
再说开发团队。
目前我们看到的是:
中小规模需求,基本都会引入 AI 参与编码。
我在代码仓库里经常能看到一些 `spec` 文件,里面通常包含:
-
需求背景
-
实现约束
-
技术方案方向
-
一些编码规则
作为测试,我并没有深入研究他们的具体写法,但从结果来看,这套方式已经相当成熟。
大致流程是:
-
AI 生成技术方案文档 + API 文档
-
人工 review、微调
-
AI 生成代码
-
人工 review、修改
-
AI 生成单测并执行
从开发同学那边了解到:
-
人工改动的代码量通常不到 10%
-
技术方案和 API 文档的可靠度都很高
当然,进测之后我们还是会发现不少 bug——
这一点后面再说。
三、测试团队:用得最广,用得最“土”
重点说说我们测试团队。
不只是我们小团队,其实公司里:
-
基建团队
-
我们大团队下的其他测试团队
几乎都在做 AI 辅助测试的工具或流程。
不同团队:
-
用的模型不一样
-
提示词不一样
-
流程设计不一样
效果自然也会有差距。
1. 测试用例生成:已经是“标配”
在我们团队这边,不管需求大小,都会用 AI 生成测试用例。
我的实际做法是:
-
以自己团队的工具输出为主
-
参考其他工具的结果
-
再进行人工合并和补充
整体下来人工补充通常不超过 20%,时间节省是非常明显的。
2. 接口自动化:能跑的先跑
基于需求点、测试用例、技术方案、接口文档,我会让 AI 按我指定的规则生成一批接口自动化用例。
这里说实话,并不“完美”:
-
有些 UI 场景,本身就不适合做接口自动化
-
AI 有时也会“强行生成”一些并不合理的接口用例
但我暂时并不打算优化这里,因为我对这件事的心态是:
先生成,执行时人工判断即可。
目前的真实效果是:
-
大约40% 的用例可以直接跑通
-
剩下的:
-
有些本来就不该跑
-
有些需要人工调整参数(AI 并不知道你的测试数据)
3. 进测后:AI 再帮忙“扫一遍”
在需求进入测试阶段后,我们还会做一件事:
让 AI 对代码和逻辑再做一次分析。
主要目标是:
-
技术类 bug
-
明显的业务逻辑问题
这一步不能代替测试,但确实能提前拦下一部分问题。
四、一个现实但重要的事实:大量 PPT 还没真正落地
这里也必须说点没那么好听的现实。
虽然大家都在谈 AI 赋能、效率提升,但客观来说,有不少看起来很美的能力,目前还停留在 PPT 或设想阶段。
1. 需求文档质量分析:重要,但还没真正跑起来
需求文档质量分析这件事,我们并不是没意识到它的重要性。
目前这块主要由项管团队在推进,但一直还没有形成可用的结果,我们作为测试也不太方便“僭越”。
但问题是客观存在的:
-
不同产品经理之间,需求文档质量差异非常大
-
有的需求结构清晰、约束明确
-
有的需求描述松散、边界模糊
而这件事会被 AI 明确放大 ——
需求文档写得不好,后续的代码生成、用例生成质量一定会受影响。
在缺少统一质量评估和约束的情况下,我们只能通过:
-
人工补充理解
-
人工兜底测试
来弥补前置环节的不足。
2. 运行态能力:日志分析、报警分析基本还没落地
日志分析、报警分析这类偏运维 / 运行态的 AI 能力,目前在我们团队几乎没有真正落地。
原因其实非常现实,也很“工程化”:
-
日志格式不统一
-
历史日志数据质量一般
-
报警规则本身就不够成熟
在这样的基础之上,直接引入 AI,
效果往往并不会比人工排查好多少,甚至可能更混乱。
所以目前的真实状态是:
-
日志问题更多还是靠人工定位
-
报警更多是“先响了,再去看为什么响”
至少在我们团队,AI 的主要使用场景仍然集中在「需求 → 开发 → 测试」这条链路上,
还远没有自然延伸到运行态和稳定性治理阶段。
3. AI 执行测试用例:尝试过,但适用面非常有限
现在市面上已经有不少方案在尝试让 AI 直接执行测试用例,
包括:
-
基于页面结构树(DOM / 控件树)的
-
直接基于视觉识别操作浏览器或手机的
我自己也实际尝试过其中一些方案,但结论比较明确:
至少在我们团队的场景下,这类方案目前并不好用。
主要问题集中在几个方面。
第一,单步执行成本太高。
对人来说点一下按钮是瞬间完成的事,
但 AI 往往需要进行较长时间的分析和推理,
一步操作可能就要消耗几秒甚至更久。
第二,测试链路长,对测试数据依赖极重。
我们很多场景需要复杂造数、依赖上下游状态。
AI 并不真正理解业务上下文,经常卡在数据准备阶段,
反而需要测试频繁人工介入。
第三,整体成功率不稳定。
页面微小变动、加载慢一点、弹窗顺序变化,
都可能导致执行失败。
如果要花大量精力去调优成功率,投入产出比会迅速失衡。
综合来看,如果要把 AI 执行测试这件事真正做到可用:
-
需要持续的工程投入
-
需要针对业务场景深度定制
-
维护成本并不低
而这些投入,往往还不如直接人工测试来得高效可靠。
所以我的判断是:
-
长期稳定、核心链路功能:更适合人工设计并维护传统 UI 自动化
-
快速迭代、变化频繁的功能:AI 执行得慢,成功率又不高,反而拖慢节奏
至少在现阶段,AI 更适合“帮我们生成”和“帮我们分析”,而不是直接替我们跑完整测试流程。
五、一些测试视角下的真实感受
站在测试的角度,我对 AI 的看法其实挺简单的:
-
它不是银弹
-
但它确实是一个稳定的效率放大器
它最有价值的地方,不是“全自动”,而是:
-
帮你把80分的基础工作快速完成
-
让人把时间花在真正需要判断和经验的地方
很多看起来“很低端”的用法:
-
生成用例
-
扫一遍代码
-
补接口自动化骨架
在实际工作中,反而是最有用、最容易落地的。
至于那些听起来很炫的:AI 自动分析日志、预测故障、全链路自愈
至少在我们团队,目前还停留在 PPT 和分享阶段。
欢迎大家私信或者评论交流~
下一篇文章我想分享一下AI在写代码、写用例中容易出现的问题以及我们是如何去“vibe testing”的。