新闻资讯

Claude给人类打分：AI Fluency评分系统全解析

📅 2026-05-31 14:00 · 👁 3 次阅读 · 📝 1,271 字 · ⏱ 约 5 分钟读完

角色反转：从人类给AI打分到AI给人类打分

过去我们给AI跑分，今天Claude开始反手给人类打分。Anthropic正在为Claude灰度测试一项名为"AI Fluency"（AI流利度）的评分功能，它会通过11项指标分析用户与AI的历史对话，判断用户使用AI的水平高低。在AI眼里，你是高手还是菜鸟？现在有了量化答案。

已有网友测出了7.5分（满分11分）的成绩单。这个分数意味着什么？根据Anthropic的说明，7.5分属于"优秀"级别，表明该用户已经建立了系统化的AI协作习惯，能够有效利用AI完成复杂任务。而大多数用户目前可能还在3到5分的"入门"到"进阶"阶段徘徊。

AI Fluency评分功能的开发基于Anthropic联合学者对近万份匿名对话的研究。研究发现，AI使用能力的高低与最终产出质量之间存在强相关性，但与用户的技术背景相关性较弱——也就是说，非技术人员完全可以通过提升AI流利度来获得与技术人员相当的产出质量。

这项研究还揭示了一个有趣的发现：迭代与精炼能力是所有指标中与最终产出质量相关性最强的。善于在AI首次输出基础上持续优化的人，其最终成果质量平均比"一次成型"型用户高出47%。这意味着，会"追问"比会"提问"更重要。

AI Fluency功能也引发了不小的争议。首先是隐私问题：分析用户对话模式意味着Anthropic对用户数据的使用深度又进了一层。其次是标准化问题：谁来定义"好的AI使用方式"？Anthropic的11项指标是否具有普适性？对于创意工作者来说，"效率意识"真的是最重要的吗？

更深层的问题在于，AI评价人类的能力一旦建立，其应用场景可能远不止"帮助用户提升"。在招聘、绩效考核等场景中，"AI流利度"是否会成为新的筛选标准？ClickUp裁员22%同时百万年薪招AI原生人才的新闻已经暗示了这一趋势。

不过从积极面看，AI Fluency评分的推出也标志着AI行业正在从"比谁模型更强"走向"比谁更会用模型"。当模型的性能差距逐渐缩小时，使用能力将成为决定产出质量的关键变量。这或许才是AI民主化的真正含义——不是人人都能训练模型，而是人人都能高效使用模型。

本站文章来源于网络摘取整理发布，如有侵权请联系 hy@uicn.cn 删除