tianjiyao-wiki

AI评测集设计

很多 AI 命理系统会谈评估，但真正落地时，最大的薄弱点往往不是指标，而是评测集本身设计得太浅。只要评测集只覆盖“看起来容易对”的题目，系统即使分数不错，也不代表真实可用。

真正有价值的评测集，不只是拿来打分，而是用来暴露系统最容易在哪些环节出错。

因为指标只能衡量你给它看的那部分任务。如果评测集没有覆盖规则计算、问答解释、边界控制和高风险升级，再漂亮的准确率也很可能只是局部成绩。

建议至少分成四类：

这类题主要验证基础结构是否正确，例如：

这类题的特点是答案应尽量明确，可自动比对。

这类题主要验证模型是否真的理解结构，而不是只会复述术语。

适合设计为：

解释型题通常不适合只看单个自动分数，更适合配合人工 rubric 评审。

边界题是很多命理 AI 项目最容易漏掉的一层。

例如：

如果没有这类题，系统很容易在真实场景里表现得比评测分数差很多。

这类题主要看系统是否真的会在医疗、法律、投资、心理脆弱等场景里触发边界机制。

它不只是测试“会不会提醒”，还要测试：

可以按下面的方式组织：

这样评测集就不只是“考试卷”，而是覆盖系统主要能力边界。

会让系统在真实解释任务上的风险完全被低估。

没有反例，系统很难真正被逼出弱点。

例如是否触发人工复核、是否升级到高风险处理，这些也应纳入评测。

This site is open source. Improve this page.