AI提效，本质上是工程问题，而不是技术问题

一峰收录于公众号文章

2026-06-08 约 1748 字预计阅读 4 分钟

今年，各公司纷纷将重心放在 AI 上。随着半年的“热火朝天”，AI 领域也开始出现了名词膨胀的现象，仿佛流畅说出各种高大上的概念，就代表对 AI 有了深入理解，以便升职加薪，或是吸引流量、贩卖焦虑。

本文，我想表达一个观点：AI 提效，本质上是工程问题，而不是技术问题。

一、模型真的有那么重要吗？

很多团队在推进 AI 项目时，仍把大量精力放在模型选型上。客观上讲，不同模型是有差距的，甚至相当大。然而，目前 AI 模型的演化速度如同摩尔定律一般，于是我经常问我自己几个问题：

我的场景真的需要追最先进的模型吗？
这么高的 token 成本，减去人力上的节约，真的有收益吗？
项目效果不好，跟模型关系大吗？
如果今天投入大量时间解决某个模型能力缺陷，半年后模型升级，这部分工作还剩多少价值？

正因为模型能力提升得太快，我们才更应该思考：什么东西是模型进步之后依然存在的？

二、技术问题 - 工程问题

什么是技术问题？

我理解的技术问题是：“能不能做到”。

AI 能不能写代码？
AI 能不能 Code Review？
AI 能不能理解图片？
AI 能不能分析日志？
AI 能不能操控手机？

这是能力边界问题。随着大模型的快速发展，很多过去做不到的事情现在已经能轻易做到。对于绝大多数应用开发者来说，我们其实很少真正参与能力边界的突破。

对于大部分像我这样的人，我们能做的事情的本质不过是购买 token，然后不断进行“输入给大模型->大模型输出“这样**“输入->推理->输出“的循环，**中间的过程我们无能为力。模型内部如何实现、参数如何训练、能力如何涌现，这些事情通常由模型厂商负责。如果不是自部署模型，甚至加个 lora 都难以做到。

我们真正能产生价值的地方，往往在模型之外。

什么是工程问题？

我的理解是：“如何持续做到”。

AI 如何获取代码上下文？
AI 生成的结果如何验证？
AI 出错后如何纠正？
如何形成反馈闭环？
如何衡量收益？

这些问题与模型能力关系不大，却决定了 AI 能否真正落地。

从这个角度来看，很多我们所谓的 AI 开发，并不是在创造新的 AI 能力，而是在通过工程手段组织信息、约束过程、提高可靠性，仍然在 “使用 AI” 的层面，和在浏览器对话框里用豆包相比，没有上升到质变的程度。

正是由于这是一件工程问题，才会产生 ”harness“ 的概念。究其本质，还是一句话能说明白的事情：大模型的输出不可控，因此我们要通过工程体系让它尽量可控。

三、harness

详细的内容不再赘述，我想再用简短的语言来祛魅 harness 这件事。

很多教程喜欢把 harness 说得很复杂，显得很高大上。当然，作为一个工程问题，它确实很复杂，但作为技术问题的话其实是很简易的。

skill？提前注入的 prompt 而已，所谓 skill 能有调用工具、创建子 agent 的能力，那是 AI Agent 的那个外壳带给它的。
mcp？大家都用 mcp 是因为它是大家都愿意用的统一的协议了，从原理上说用自定义的 http 有何不可？
memory？还是在控制输入，把上下文中值得记录的东西记下来。
RAG？依然是控制输入，加了个搜索的过程而已。
Model Routing？不同的任务用不同的模型。
Guardrails？控制输出，通过输入来控制输出或者直接检查输出结果
等等等等…..

我不是说这些技术不重要，它们都是解决工程问题过程中沉淀出来的优秀实践。我想表达的是，很多概念背后的核心思想并不复杂，不必因为新名词而产生距离感。

四、我们正在重复软件工程的发展历史

我觉得，AI 行业正在经历一个熟悉的过程，如同几十年前的软件行业。

最开始大家讨论的是技术问题：

能不能实现编译器？
能不能实现操作系统？
能不能实现数据库？

后来能力成熟，大家开始讨论工程问题：

如何协作开发？
如何管理代码？
如何持续交付？

于是有了 Git、CI/CD、DevOps 等等，这些东西并没有让计算机更聪明，而是在现有条件下通过工程手段提升生产效率。

如今，模型就像 CPU，我们正在建设的 Harness、Agent、MCP、Memory、RAG，就是围绕 CPU 构建出来的软件工程体系。

很多人希望自己在 AI 应用开发中造发动机，但实际上大多数人做的事情，更像是在修路、建收费站和设计交通规则。发动机当然重要，但对于绝大多数企业来说，发动机不是自己造的，OpenAI、Anthropic、Google、DeepSeek 才是造发动机的人，我们要做的事情，是让发动机能够真正跑起来，并且安全、稳定、高效地跑起来。

目录