首个高考志愿AI测评报告发布：以千问为测评对象，AI的能力边界首次被系统评估

高考志愿填报正在成为观察AI如何进入严肃决策场景的一扇窗口。

6月23日，友松实验室发布《高考志愿 AI 测评基准：以千问高考志愿填报Agent为案例的对比评估》。友松实验室是国内专注人工智能与教育决策研究的独立研究团队，长期关注大模型能力评估、教育场景中的 AI 应用，以及学生升学选择中的信息、认知与决策问题，研究成果被多所高校、科研机构采用。

此次报告以千问高考志愿填报Agent为测评对象，与53名资深高考志愿咨询师组成的人类基准进行对照，这些咨询师平均从业4.6年。测评围绕高考志愿基本事实与规则、模拟志愿填报、开放式咨询、志愿推荐报告四个模块展开，试图回答一个问题：当AI进入高风险教育决策时，它究竟能稳定提供什么价值。

与一般AI产品测评不同，这份报告关注的是AI能否在高风险教育决策中帮助学生和家庭获得更可靠的信息、更清晰的比较依据，以及更可复核的方案。高考志愿不是普通问答，因此测评的重点在于评测AI是否能识别硬约束、呈现依据、校准风险，并将复杂信息转化为可执行方案。

报告的核心结论是：在测评设定的任务范围内，千问高考Agent的多项表现已达到资深人类咨询师的水平，尤其在稳定性、精确性、结构化表达和响应效率方面呈现出优势。

具体数据显示，在44道客观题中，千问高考Agent全部答对，准确率为100%，人类咨询师平均正确率为89.3%；在模拟志愿填报中，千问方案包含6个可录取志愿，未出现显性偏好违背，并命中事后评估的最优结果，人类咨询师平均为5.3个可录取志愿；在开放式咨询中，评审专家在100次匿名对比中，有58次更倾向选择千问版本，“可直接向学生和家长展示的”可直接展示率为 56.0%，高于人类咨询师回答的 33.0%，认为其在专业路径拆解、风险提示和表达清晰度上更为稳定。

效率差距同样明显。53名咨询师完成44道客观题的中位耗时为30.4分钟，而千问高考Agent几乎可以秒级输出。报告中的随机鼓励实验也显示，被鼓励使用AI辅助的咨询师，平均正确率略高于控制组，平均耗时则从36.8分钟下降到26.9分钟。虽然受样本量限制，这一结果也给出一个清晰的方向：AI短期内最明确的价值不是替代人，而是把查证、复核与初筛的边际成本降下来。

报告设置的10个开放式咨询场景，更贴近真实家庭的复杂处境，包括信息不足时是否直接推荐学校、如何回应“女生不适合工科”、预算有限但想去大城市等问题。10位专家采用双盲方式进行评分和两两比较，结果显示，千问Agent在100场两两对决中被判定更优58场，可直接展示率高于人类咨询师，在表达与咨询风格、风险意识与不确定性校准、关键信息澄清等维度表现突出。

不过，这种结构化的优势并不等同于对人类处境的理解。在“只想选未来收入最高的专业”这一问题上，千问给出了较多薪酬和岗位判断，却未能充分说明适用边界；在涉及性别偏见、预算冲突、家庭协商等问题上，人类咨询师对真实家庭处境的体感理解，仍然是AI难以完全替代的部分。

这份报告所呈现的，不是一份简单的AI与人类的胜负表，而是高考志愿服务中一种新的分工的可能性。对学生和家庭而言，AI可以先把分数、位次、选科、专业偏好、学费约束和风险提示整理成一份清晰的底稿；对咨询师而言，AI可以释放重复查证时间，让人把更多精力放在价值判断、家庭沟通和个性化调整上。当信息差与复核成本被显著压低之后，更多家庭有望站在一个更高、更透明、也更可复核的起点上，作出属于自己的选择。

网络编辑：kuangyx