人类与多模态大语言模型对拼接面孔情绪识别的能力差异(AI时代的脑与认知科学专刊)

doi:10.3724/SP.J.1041.2026.025

• •

人类与多模态大语言模型对拼接面孔情绪识别的能力差异(AI时代的脑与认知科学专刊)

赵琳, 李婧婷, 刘烨, 马骏驰, 王甦菁

中国科学院心理研究所,
江苏科技大学, 江苏中国

收稿日期:2025-11-24 修回日期:2026-03-22 接受日期:2026-03-27

Differences in Emotion Recognition Capabilities Between Humans and Multimodal Large Language Models for Spliced Faces

, ,
, , China

Received:2025-11-24 Revised:2026-03-22 Accepted:2026-03-27

摘要/Abstract

摘要： 面孔是人类最重要的社会信息来源之一，其中包含了性别、情绪等信息。研究表明，人类能在极短时间内对基本情绪进行快速识别，这依赖视觉特征提取、整体与局部特征加工等多层次的认知加工机制。相较之下，多模态大语言模型（Multimodal Large Language Models, MLLMs）的面部情绪识别虽整合了视觉编码组件与语言推理机制，但仍与人类存在显著差异。因此，对比人类与MLLM的情绪识别能力，有助于理解两者在情绪感知与推理机制上的差异。同时，研究表明提示词会影响MLLM的输出，但其在面孔情绪识别情境中的作用缺乏系统检验。基于上述原因，本研究旨在探讨面孔情绪识别中的整体与局部特征加工优势，并考察该加工模式在人类与MLLM之间是否具有一致性。研究包含两个实验：实验一比较人类与MLLM在识别拼接面孔时的判断模式。结果显示，MLLM倾向将拼接面孔判断为互斥，且协调比率显著低于人类。实验二考察提示词对MLLM情绪识别的影响，结果表明，提示词的细节化与示例图片会显著改变模型的判断倾向。综上，本研究揭示了在面孔情绪识别中的局部特征加工优势，并指出MLLM在情绪识别过程中与人类不同的加工偏向。研究结果加深了对人类与人工智能在情绪理解路径上的差异的认识，并为人工智能在情绪识别与人机交互领域的应用提供了新的参考。

关键词: 互斥性, 情绪识别, 多模态大语言模型, 人机交互, 协调比率, 面部动作单元

Key words: null, null, null, null, null, null

赵琳, 李婧婷, 刘烨, 马骏驰, 王甦菁. 人类与多模态大语言模型对拼接面孔情绪识别的能力差异(AI时代的脑与认知科学专刊). , doi: 10.3724/SP.J.1041.2026.025.

[1]	戴逸清, 马歆茗, 伍珍. 大语言模型放大共情性别刻板印象：对专业与职业推荐的影响[J]. 心理学报, 2026, 58(3): 399-415.
[2]	周子森, 黄琪, 谭泽宏, 刘睿, 曹子亨, 母芳蔓, 樊亚春, 秦绍正. 多模态大语言模型动态社会互动情景下的情感能力测评[J]. 心理学报, 2025, 57(11): 1988-2000.
[3]	王伟晗, 曹斐臻, 余林伟, 曾珂, 杨鑫超, 徐强. 群体信息对面部表情识别的影响[J]. 心理学报, 2024, 56(3): 268-280.
[4]	王晨, 陈为聪, 黄亮, 侯苏豫, 王益文. 机器人遵从伦理促进人机信任?决策类型反转效应与人机投射假说[J]. 心理学报, 2024, 56(2): 194-209.
[5]	滕玥, 张昊天, 赵偲琪, 彭凯平, 胡晓檬. 多元文化经历提升人类对机器人的利他行为及心智知觉的中介作用[J]. 心理学报, 2024, 56(2): 146-160.
[6]	黄昕杰, 张弛, 万华根, 张灵聪. 情绪效价可预测性对时间捆绑效应的影响[J]. 心理学报, 2023, 55(1): 36-44.
[7]	邓成龙, 耿鹏, 蒯曙光. 三维虚拟空间中转头选中远离和靠近运动目标的操作特性差异[J]. 心理学报, 2023, 55(1): 9-21.
[8]	杨集梅, 柴洁余, 邱天龙, 全小山, 郑茂平. 共情与中国民族音乐情绪识别的关系：来自ERP的证据[J]. 心理学报, 2022, 54(10): 1181-1192.
[9]	黄辛隐,张,琰,陈延伟,河林弥志,徐爱兵. 交互进化计算对焦虑测量的适用性探析[J]. 心理学报, 2010, 42(05): 625-632.
[10]	李金波,许百华,田学红. 人机交互中认知负荷变化预测模型的构建[J]. 心理学报, 2010, 42(05): 559-568.
[11]	李金波,许百华. 人机交互过程中认知负荷的综合测评方法[J]. 心理学报, 2009, 41(01): 35-43.