tianjiyao-wiki

AI命理效果评估

AI 模块最容易被问到的问题之一,不是模型怎么做,而是它到底有没有效果。很多 AI 命理产品会直接展示结果,却很少认真说明:它评估的是什么、数据从哪里来、准确性是什么意思、哪些结果可以验证、哪些只能做结构辅助。

如果没有评估框架,所谓“AI 命理很准”往往只是一句营销话术。这页专门讨论 AI 命理该如何做效果验证。

一、为什么 AI 命理必须谈评估

因为 AI 命理并不是单一任务。它至少包含几类不同能力:

  1. 排盘和规则计算是否正确
  2. 术语、结构和古籍文本是否理解正确
  3. 输出解释是否符合传统逻辑
  4. 对现实问题的建议是否稳定、清晰、可复核

这些能力不能只用一个“准不准”来概括。

二、先分清 AI 命理在评估什么

1. 规则型任务

例如:排盘、干支换算、十神识别、宫位定位。这类任务更适合做明确正确率评估。

2. 分类型任务

例如:格局判断、主题归类、古籍句段分类。这类任务适合用准确率、召回率、F1 分数等指标。

3. 解释型任务

例如:命盘解读、问题回答、生成报告。这类任务不能只靠自动分数,更需要人工评审与知识约束检查。

三、AI 命理评估最常见的四层指标

1. 计算正确率

基础排盘和结构换算必须先正确,否则后面所有输出都失去意义。

2. 知识一致性

输出的结论是否符合训练时设定的规则、术语与经典框架。

3. 解释稳定性

面对类似输入,系统是否会给出大幅自相矛盾的结论。

4. 用户可用性

输出是否清晰、有边界、能帮助用户理解,而不是制造神秘感和依赖感。

四、数据集从哪里来

做 AI 命理评估,数据通常来自三类来源:

  1. 规则生成数据:适合验证排盘、干支、宫位和基础计算
  2. 经典文本数据:适合验证术语理解、文本解析和知识抽取
  3. 人工标注案例:适合验证解释质量、分类结果和问答能力

真正难的地方往往在第三类,因为命理任务里的高质量标注成本很高。

五、为什么“准确率”常常不够用

因为很多命理问题不是标准选择题,而是多层次解释任务。

例如同一个问题里,系统可能:

  1. 排盘正确
  2. 术语解释基本对
  3. 但现实建议过于绝对

这时候如果只看技术指标,会漏掉真正的使用风险。

六、更稳的评估方式是什么

1. 自动评测 + 人工复核

规则型部分交给自动评测,解释型部分加入人工评审。

2. 分任务评估

不要把排盘、问答、文本总结、风险提示混成一个总分。

3. 场景化测试

例如分别测试:

  1. 八字结构问答
  2. 紫微宫位解释
  3. 六爻短期事件问答
  4. 跨体系综合问答

4. 边界测试

专门测试模型在不确定、信息不足或高风险问题下,是否会过度肯定地输出。

七、AI 命理最值得监控的风险指标

  1. 过度自信输出
  2. 编造概念或断语
  3. 把不确定问题说成确定结论
  4. 忽略医疗、法律、财务等现实边界

八、如果想做更可信的 AI 命理系统

建议至少做到:

  1. 规则计算可回归测试
  2. 核心术语和知识图谱有统一约束
  3. 高风险回答加边界提示
  4. 关键输出可人工抽检和复核

九、配套阅读建议

  1. AI 命理与传统玄学概论
  2. 大语言模型在传统预测中的应用
  3. AI命理伦理与边界:风险、责任与理性使用
  4. 命理的科学性与边界

相关阅读