尝试强化学习训练卡牌对战 AI 的失败尝试

一峰 — Sun, 30 Nov 2025 22:01:52 +0800

一、为什么想做这件事

当前线上跑着的机器人有不同等级，最弱的是从左到右费用够就出牌的固定规则模式，最强的是设定了一些收益参数，每次出牌会选择收益最高的牌的模式，还人工加入了 combo 组合的检测和连续打出。