评估AI的智能水平已不再仅仅依赖于其排行榜成绩,因为AI的“情商”也成为一个重要的考量维度。在实际应用中,人们希望AI不仅具备高智商,更要能“懂人心”,“解人意”。
针对这一需求,腾讯混元AI数字人团队开发了一个全新的自动化评估框架——SAGE(Sentient Agent as a Judge),来深入评价AI的共情力和是否可以作为我们的知心伴侣。
SAGE的核心在于它不仅仅看模型回答问题的准确性,而是构建一个模拟人类心理的感知智能体,让AI像人一样参与多轮对话、模拟情绪变化并生成内心独白。通过这个智能体,我们可以评估AI是否真正理解人的情绪,洞察潜台词,并在人们脆弱时给予真正的关心。
在SAGE框架下,最新版GPT-4o表现最佳,GPT-4.1和Gemini-2.5系列也有出色的表现。SAGE不仅评估AI的逻辑推理能力,更重视其情感理解和共情能力。
SAGE的每个感知智能体都是“有血有肉”的角色,拥有年龄、性格、职业等人物设定,以及从“成绩不好怎么办”到“怎么优雅分手”等对话主题。在评估过程中,感知智能体会和大模型进行多轮对话,并进行严谨的多轮推理,模拟人类的内心小剧场。这些智能体记录内心想法和感受、更新情绪值并决定下一步如何回应。最终,大模型是否真正懂人,便可通过智能体的情绪轨迹和内心独白体现出来。聊天后的情绪值可以作为感知智能体对评估大模型最直观、最全面的数值评估。
为了验证SAGE情感评分的真实性,研究者进行了实验分析,将感知智能体的心理活动映经典心理学工具Barrett–Lennard Relationship Inventory (RI)量表上。实验发现,SAGE给出的情绪值变化与RI各项维度的评分高度正相关。这说明SAGE模拟出来的用户心情确实能真实反映AI互动的共情质量。SAGE还从对话的自然流畅性、专注度和情感共鸣等维度来衡量不同模型的对话质量。研究者还评测了模型的Token效率,发现一些高情商的模型在精准把握情感的同时并不一定要“话痨”。最后研究者还通过构建模型的二维风格坐标图来描绘不同模型的人格画像。通过这个坐标图可以清晰地看到不同模型在互动方式和回复导向上的差异。SAGE提供了一个全面而深入的评估框架来评价AI的共情力和是否可以作为知心伴侣。这一框架不仅考虑了模型的逻辑推理能力还注重情感理解和共情能力为我们更好地了解和使用AI提供了有力工具。论文地址和Github链接已附在文中方便大家进一步了解和学习相关内容本文来自微信公众号“量子位”。