ISSN 0439-755X
CN 11-1911/B
主办:中国心理学会
   中国科学院心理研究所
出版:科学出版社

• •    

人类与多模态大语言模型对拼接面孔情绪识别的能力差异(AI时代的脑与认知科学专刊)

赵琳, 李婧婷, 刘烨, 马骏驰, 王甦菁   

  1. 中国科学院心理研究所,
    江苏科技大学, 江苏 中国
  • 收稿日期:2025-11-24 修回日期:2026-03-22 接受日期:2026-03-27

Differences in Emotion Recognition Capabilities Between Humans and Multimodal Large Language Models for Spliced Faces

  1. , ,
    , , China
  • Received:2025-11-24 Revised:2026-03-22 Accepted:2026-03-27

摘要: 面孔是人类最重要的社会信息来源之一,其中包含了性别、情绪等信息。研究表明,人类能在极短时间内对基本情绪进行快速识别,这依赖视觉特征提取、整体与局部特征加工等多层次的认知加工机制。相较之下,多模态大语言模型(Multimodal Large Language Models, MLLMs)的面部情绪识别虽整合了视觉编码组件与语言推理机制,但仍与人类存在显著差异。因此,对比人类与MLLM的情绪识别能力,有助于理解两者在情绪感知与推理机制上的差异。同时,研究表明提示词会影响MLLM的输出,但其在面孔情绪识别情境中的作用缺乏系统检验。基于上述原因,本研究旨在探讨面孔情绪识别中的整体与局部特征加工优势,并考察该加工模式在人类与MLLM之间是否具有一致性。研究包含两个实验:实验一比较人类与MLLM在识别拼接面孔时的判断模式。结果显示,MLLM倾向将拼接面孔判断为互斥,且协调比率显著低于人类。实验二考察提示词对MLLM情绪识别的影响,结果表明,提示词的细节化与示例图片会显著改变模型的判断倾向。综上,本研究揭示了在面孔情绪识别中的局部特征加工优势,并指出MLLM在情绪识别过程中与人类不同的加工偏向。研究结果加深了对人类与人工智能在情绪理解路径上的差异的认识,并为人工智能在情绪识别与人机交互领域的应用提供了新的参考。

关键词: 互斥性, 情绪识别, 多模态大语言模型, 人机交互, 协调比率, 面部动作单元

Key words: null, null, null, null, null, null