目录

如果只是一次性使用 AI,那它永远写不好用例

当前,AI已经很自然地融入研测流程了:写代码、写用例、补文档,先让 AI 跑一版,再由人来修正。但在测试工作中,我越来越强烈地感受到:

我们一直在“一次性使用 AI”。

因此,我想提出一种不同的思维方式,但不讨论成本,也不讨论效率,供各位参考。

一、意识到问题的那一刻

有一次,我在看一组 AI 生成的测试用例。

覆盖点不少,结构清晰,主流程完整,异常场景也“好像都考虑了”。

如果只看形式,它甚至比不少新人写得好。

但我下意识冒出一个念头:

“如果这组用例出了线上问题,我会意外吗?”

答案是:

不会意外,但我也说不清哪里一定有问题。

那一刻我意识到一件事:

我们并不是在真正使用 AI,

而是在一次性消耗它。

二、什么叫“一次性使用 AI”

“一次性使用 AI”,在测试场景下非常常见:

  • 让 AI 生成一版用例

  • 人工快速 review

  • 发现问题,自己补

  • 最终交付的是“人改后的版本”

而 AI 呢?

它对这些修改一无所知。

下一次同样的需求、类似的业务,

它依然会犯几乎一样的问题。

久而久之,大家会得出一个结论:

“AI 写用例也就这样了。”

但真的是 AI 不行吗?

三、一个真实的类比

我意识到,这种使用方式,和带实习生几乎一模一样。

假设你在带一个实习生干活:

  • 他干到了 80%的程度

  • 剩下 20% 不太对,不知道怎么干

你有两种选择。

第一种:帮他干完剩下的 20%。

快、稳、省事,对当前项目最友好。

但结果是:

  • 他不知道哪里错了

  • 下次还会错在同样的地方

  • 你永远都在兜底

第二种:花时间告诉他为什么不对,应该怎么干。

他肯定还是有不会干的活,但慢慢地,你只需要帮他兜最后那 1% 了。

短期看,慢一点。

长期看,他会成长。

而我们现在对 AI 做的事情是:永远选择第一种。

然后转头抱怨一句:“这实习生怎么一直不进步?”

四、问题不在 AI,而在我们的思维方式

我们默认的工作哲学是:人是主体,AI 是工具。

于是我们习惯:

  • AI 负责快速产出

  • 人负责兜底修正

  • 结果对了就行,过程不重要

这套逻辑在“工具时代”是成立的,但在 AI 时代,也许不是最好的选择,因为我们在无形中做了一件事:

我们要求 AI 反馈越来越好的结果,却从不给它任何进化路径。

五、为什么 AI “永远写不好用例”

很多人会吐槽:

  • AI 不懂业务

  • AI 不理解真实用户

  • AI 用例太理想化

但我们回头看一下自己的使用方式:

  • 提示词是一次性的

  • 上下文是临时拼的

  • 历史问题没有输入

  • 修改结果不做反馈

在这种前提下,我们却期待:“它下一次能写得更好。”

这本身就是一个悖论。

我们把 AI 当成一次性用品,却期待它具备长期记忆和成长能力。

六、怎样“不一次性使用 AI”

看到这里,很多人也许会想:“我们公司也做知识库,也会把人工修改后的用例做召回,这不算一次性使用 AI 吧?”

诚然,随着方法论的成熟,AI 工具本身正在变得越来越完善。但我想强调的是:如果人的思维方式不变,工具再先进,本质上依然是在“一次性使用 AI”。

我们也许需要刻意改变自己的工作方式——

不再把 AI 当成“生成一次就结束”的工具,

而是把它当成一个需要被指导、被校准、被长期塑造的对象

1.用例有问题,不再只改结果

这是我认为很多人不会去做的。

以前是:

用例不行 → 人工补 → 提交

如果时间允许,不妨试试:

(用例不行 → 人工分析哪里不行 → 反向写进提示词和上下文提交)(多次循环)→ 提交

把补充剩余20%用例的时间用来写提示词、调工作流,循环到只需补充1%用例时再收手,长此以往,也许能让AI更贴合某一类具体业务,第一次生成的采纳率,从80%到85%,再到90%。


2.用例不是生成一次,而是小跑式迭代

不要追求一次生成一套完美用例,

而是接受:

  • 第一版跑主流程

  • 第二版补异常

  • 第三版补状态、并发、回滚

AI 每多跑一次,不是在“多干活”,而是在被校准方向。


3.认真给 AI“喂经验”

建设有用的知识库,不是把所有文档一股脑分chunk向量化。

它需要分类,也需要设计好查询方式。这是一个难度很高的课题,甚至可能投入很多精力,效果依然不完美。

但如果不把这些告诉 AI:

  • 历史线上事故

  • 曾经踩过的坑

  • 真实的用户操作路径

那它永远只能写出“标准答案”。

七、不一次性使用 AI,释放了人的价值

有一个非常明显的变化,当我不再把精力放在“帮 AI 改作业”上,而是放在:

  • 定义什么是风险

  • 判断并描述哪里不合理

  • 设计 AI 的工作方式

反而感觉:

人变轻了,判断变重了。

测试不再是“补漏的人”,而是:

  • 决定什么值得测

  • 决定 AI 应该学什么

  • 决定质量边界在哪里