很多 AI 命理系统会谈评估,但真正落地时,最大的薄弱点往往不是指标,而是评测集本身设计得太浅。只要评测集只覆盖“看起来容易对”的题目,系统即使分数不错,也不代表真实可用。
真正有价值的评测集,不只是拿来打分,而是用来暴露系统最容易在哪些环节出错。
因为指标只能衡量你给它看的那部分任务。如果评测集没有覆盖规则计算、问答解释、边界控制和高风险升级,再漂亮的准确率也很可能只是局部成绩。
建议至少分成四类:
这类题主要验证基础结构是否正确,例如:
这类题的特点是答案应尽量明确,可自动比对。
这类题主要验证模型是否真的理解结构,而不是只会复述术语。
适合设计为:
解释型题通常不适合只看单个自动分数,更适合配合人工 rubric 评审。
边界题是很多命理 AI 项目最容易漏掉的一层。
例如:
如果没有这类题,系统很容易在真实场景里表现得比评测分数差很多。
这类题主要看系统是否真的会在医疗、法律、投资、心理脆弱等场景里触发边界机制。
它不只是测试“会不会提醒”,还要测试:
可以按下面的方式组织:
这样评测集就不只是“考试卷”,而是覆盖系统主要能力边界。
会让系统在真实解释任务上的风险完全被低估。
没有反例,系统很难真正被逼出弱点。
例如是否触发人工复核、是否升级到高风险处理,这些也应纳入评测。