← 返回首页

如何构建和评估测试点

让我们先讲一个 38 年前的故事

1987 年 2 月 23 日,世界标准时 7 时 35 分。

日本地下深处的神冈中微子探测器,在 13 秒之内,记录到了 11 个中微子事件。

仅仅 6 秒之后,美国伊利湖边盐矿地下 600 米的 IMB 探测器,记录到了 8 个中微子事件。

苏联高加索山下的巴克桑探测器,也在同一时段记录到了 5 个中微子事件。

三个探测器,三个不同国家——在同一分钟之内,各自独立地看到了同一阵中微子爆发。

几个小时之后,智利天文台的天文学家在底片上看到了大麦哲伦星云里出现了一颗“凭空而至”的明亮新星。它在 16.8 万光年之外。

中微子比可见光早了大约两到三个小时到达——它从恒星核心直接穿出,而光要等爆发的冲击波传到恒星表面才能逃逸。两种本质完全不同的信使,各自带着不同层面的信息,在地球上汇合。

这一刻被许多教科书和天文馆视为多信使天文学的开端——人类第一次用多个本质不同的独立通道,交叉验证同一件事。

出题这件事,也需要多信使

老办法只有一个信使:出题人凭经验造数据。这一个信使非常容易被骗——出题人没有上帝视角,他不知道自己漏掉了什么。

而用 AI 来出题,情况更危险。如果让 AI 写代码、又让 AI 自己来判数据强不强,等于让一个会幻觉的人当自己的裁判。AI 的盲区会被自己背书,一个信使都没有。

每一道孩子在 GESP.AI 上看到的题,都需要通过多个完全独立的通道交叉验证,才算“够格”放进题库。

这些独立通道里,有的是经过 15 年工业验证的开源工具,有的是不同公司的 AI 模型互相印证,有的是真实的判题沙箱——它们用完全不同的机制,共同回答同一个问题:这道题数据够强吗?

任何一个通道单独说“数据强”都不算数。但当多个独立通道全部说“数据强”,这件事就变成了一个能被证明的事实,而不再是出题人的口头担保。

测试点不是越多越好,是越“可证”越好。

GESP.AI 想做的事很简单——让家长在我们的平台上看到的每一个“通过”,都是真的通过。

孩子练的每一道题,都是真的在练。

三道关

一道题怎么算“够格”?
三个独立维度全过才算

下面是 GESP.AI 给一道题判定“够格”的三个独立维度,以及最终落档到三档评级的方式。

一道题“够格”的三个维度

三个独立可验证的维度——任一维度不过,整道题就停在评级门外。

维度 1

准确性

这道题的标准答案,真的对吗?

让 Anthropic 和 OpenAI 两家公司的 AI 各写一份独立解答,在 1000 组随机/边界/极值数据上比对。任一组答案不一致,就说明至少一个错了——这道题直接淘汰。

维度 2

覆盖率

题目声明的数据范围,真的都测到了吗?

题面说 n 最大可以到 20 万,那就必须真的有测试点跑到 20 万附近,而不是全卡在 1000 凑数。每个测试点都用 testlib 校验器(Codeforces 同款工业标准)双侧严格校验合法性,确保不混进越界数据。

维度 3

区分度

这套数据能把“真懂”和“骗分”分开吗?

让 AI 故意写 3 份典型错解,每份带一个“预期会错在哪”的标签。把它们和测试数据真打一遍——如果错解都能蒙混过关,说明数据太弱。

三档评级

三个维度的检验结果,最终汇成一道题的等级。仅 Tier 2 的题才会进入孩子能看到的题库。

Tier 0

准确性未通过——标准答案本身有问题。

✗ 不进入题库

Tier 1

准确性通过,覆盖率或区分度任一未通过。

✗ 不进入题库

Tier 2

三个维度全部通过。

✓ 进入题库

想看看一道“够格”的题长什么样?

免费体验一道真题