微表情和心理特征一致性融合的测谎模型研究

一句话:就是做一个“看脸+听声音+看说话内容”的多模态测谎模型,核心不是简单把特征拼在一起,而是专门抓“微表情”和“心理特征”之间的不一致,把“言不由衷”“认知超载”这种心理机制用算法形式表达出来。

一、在整个课题中的位置

  • 研究内容一:解决“有啥数据”的问题(数据集分析与构建)。
  • 研究内容二:解决“怎么判断谎言”的核心算法问题
  • 研究内容三:把算法做成一个可用的平台系统。

所以,研究内容二就是:基于微表情和心理特征一致性融合的测谎模型研究——是整篇论文里最“算法”和“创新点”集中的部分。

二、这个模型整体在做什么?

从流程上看,可以概括成三层:

  1. 原始输入
    • 视频:包含被试脸部的连续帧(微表情信号)
    • 音频:说话的声音(语速、停顿、音高等)
    • 文本:把说话内容转成文字(语义、情感、复杂度等)
  2. 中间特征层
    • 视觉通道 → 提取微表情时空特征
    • 语音/文本通道 → 计算认知负荷分数序列情绪矛盾分数序列等“心理学特征”,再编码成一个心理特征向量(+基本声学与文本特征)
  3. 决策层
    • 通过一个一致性融合模块(交叉注意力 + 不一致性加权)
    • 把“微表情(情绪真相)”和“心理特征(受控表现)”进行对比、融合
    • 再用 Transformer 做时序建模,最后输出:这一段话是“真实”还是“欺骗”的概率

三、输入输出:从“说话一段视频”到“欺骗概率”

1. 输入

以一次问答或陈述为单位,一段数据包括:

  • 一段同步采集的面部视频
    • 分辨率约 1080p,帧率 ≥60 fps
    • 记录了从提问开始到回答结束的表情变化
  • 一段对应的音频
    • 包含声学信息(音高、能量、停顿等)
  • 从音频里通过 ASR 得到的文本转录
    • 某人说了什么,句子内容

2. 输出

  • 一个二分类结果:
    • 标签:真实 / 欺骗
    • 同时给出一个概率值 p(欺骗)
  • 在可解释性分析阶段,还会输出:
    • 哪些时刻/特征(例如某个 AU 的激活、某个时间点的语音停顿、某一段话的情感矛盾)对“欺骗”判断贡献最大

四、第一层:特征提取 & 心理特征计算

4.1 视觉通道:微表情时空特征

  1. 视频预处理

    • 人脸检测 + 关键点定位(如 MTCNN、MediaPipe)
    • 对齐、裁剪 ROI,保证不同帧的脸位置统一
  2. I3D 或类似 3D-CNN / ViT 模型

    • 把一段视频切成若干短 clip 输入 I3D
    • 3D 卷积提取时空特征:既看“哪里动”(空间),也看“动得多快、多突然”(时间)
    • 重点捕捉:微弱、短暂、局部的表情变化(微表情)
  3. 输出

    • 一个时间序列的特征表示:
      $$
      \mathbf{F}^{me} = [f^{me}_1, f^{me}_2, \dots, f^{me}_T]
      $$

    • 这个序列就是后面“一致性融合模块”里的Query(Q)

4.2 语音 + 文本通道:隐式心理特征计算

目标:不用让被试填量表,而是从声学、语言自动计算出心理学构念:

  • 认知负荷(Cognitive Load)
  • 情绪矛盾(Emotional Incongruity)

(1)语音特征

提取如:

  • 基频 F0(高低抖动反映紧张/唤醒)
  • 能量(说话用力程度)
  • HNR、抖动度等(声音质量变化)
  • 语速、停顿次数/时长(认知负荷上来时,通常停顿变多、语速不稳定

(2)文本特征

ASR 转录后做 NLP 分析:

  • 语言复杂度(句子长短、嵌套深度)
  • 信息密度(具体细节 vs 模糊表达)
  • 自我指涉频率(“我”“我们”等)
  • 情感倾向:利用 LIWC 等情绪词典统计
    • 正负面情绪词比例
    • 与情境预期的一致性/偏离程度

(3)认知负荷分数序列

  • 设计一个小型回归网络 / MLP:

    • 输入:语速变化、停顿特征、语言复杂度等

    • 输出:每个时间段的认知负荷分数
      $$
      \mathbf{c} = [c_1, c_2, …, c_T]
      $$

(4)情绪矛盾分数序列

  • 比如:当前语境应该是“被指控”,客观上容易引发紧张、愤怒等情绪

  • 但文本表现“特别轻松、积极”

  • 通过对比语境/内容情绪“合理预期情绪”,算一个“矛盾度”:
    $$
    \mathbf{e} = [e_1, e_2, …, e_T]
    $$

(5)心理特征编码器

  • 把上述:

    • 语音低阶特征(F0、能量…)
    • 认知负荷序列 c
    • 情绪矛盾序列 e
      一起输入一个心理特征编码器(1D-CNN 或 Transformer)
  • 输出一个与时间对齐的心理特征序列:
    $$
    \mathbf{F}^{psy} = [f^{psy}_1, f^{psy}_2, …, f^{psy}_T]
    $$

  • 这就是后面一致性融合模块里的 Key(K)和 Value(V)

五、第二层:微表情–心理特征一致性融合模块(核心创新)

这里是研究内容二最核心的算法创新点

5.1 思路

  • 微表情:更接近真实情绪,难以伪装
  • 心理特征(语音+文本):是受控的表现,容易被伪装、调整

核心理念:“谎言 = 情绪泄露(微表情) 与 受控表达(语音/语言) 不一致” 的概率变高。

所以我们不用简单地拼接 [F_me; F_psy],而是要设计一种机制,专门放大“不一致”的时刻

5.2 交叉注意力结构

  • 设:

    • Q = 微表情特征 (\mathbf{F}^{me})
    • K, V = 心理特征 (\mathbf{F}^{psy})
  • 标准缩放点积注意力:
    $$
    \text{Attn}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V
    $$

  • 你的报告里在此基础上加入了一个不一致性项,计算“微表情和心理特征平均状态的差异”,用欧氏距离表示,并乘上一个可学习参数 λ,融合进注意力权重里。
    这样一来:

    • 当微表情和心理特征“很一致” → 不一致性项小 → 权重偏正常
    • 当它们“很不一致” → 不一致性项大 → 注意力会更加聚焦这些时间点

换句话说:模型在训练中被鼓励去“盯着”那些表情和心理特征打架的瞬间。

5.3 时序建模与分类

  • 一致性融合后的特征序列送入 Transformer 编码器
    • 多头自注意力 + FFN
    • 捕获长程时序依赖(整段话的动态变化)
  • 再做:
    • 全局平均池化(把 T 个时间步压成一个全局向量)
    • 全连接层 + Sigmoid 输出欺骗概率

六、第三层:损失函数与可解释性

6.1 损失函数:加权 Focal Loss

  • 现实中:真实样本往往远多于欺骗样本 → 类别不平衡
  • 你采用的是加权 Focal Loss
    • 用 α 调整正负样本的权重
    • 用 γ 减小“容易分类样本”的损失,让模型更关注“难样本”
  • 好处:
    • 更好地学习“少数类”(欺骗)的特征
    • 避免只学会“老实人很多,所以都判成真实”

6.2 可解释性:SHAP 等

  • 训练好模型之后,用 SHAP 来做特征归因:
    • 可以回答:
      • “模型是因为哪个 AU、哪一段停顿、哪一段情绪矛盾而判定为‘说谎’?”
  • 这部分一方面服务于论文:
    • 验证模型是否真的在利用“心理学上合理的线索”
    • 例如确实在关键“微表情 + 高认知负荷 + 情绪矛盾”时刻权重很高
  • 另一方面,也提高系统在司法/安防场景中的可解释性与可信度

七、这一部分到底解决了什么问题?有什么创新?

7.1 要解决的问题

  1. 单一微表情或单一心理指标不可靠
    • 只看表情:可能是个性、习惯问题
    • 只看语音/文本:对高情商/反侦察者不敏感
  2. 传统多模态往往是“简单拼接”,没有突出心理机制
  3. 缺乏可解释、心理学驱动的融合方式

7.2 本研究的创新点

  1. 心理特征“无感计算”
    • 不靠问卷,而是从语音+文本自动估计认知负荷情绪矛盾等心理构念
    • 更接近真实场景(审讯、安检中不会给你先发量表)
  2. 一致性/不一致性导向的融合方式
    • 微表情 = 情绪真相通道
    • 心理特征 = 认知控制通道
    • 利用交叉注意力 + 不一致性加权,专门强调“不一致”的证据
      → 把心理学里的“言不由衷”“情绪泄漏”做成了一个可计算的机制
  3. 强可解释性
    • 用 SHAP 等方法,把模型的“注意点”映射回:
      • 哪个 AU
      • 哪段停顿、哪句矛盾的话
    • 既符合心理学理论,又方便在论文和平台中展示

八、如果你要在脑子里有一张“简图”,可以这样记:

  1. 输入:视频 + 音频 → (视频→微表情;音频→语音特征;ASR→文本→情绪&复杂度)
  2. 心理特征模块:算出“认知负荷曲线 + 情绪矛盾曲线”
  3. 两条通道编码
    • 视觉编码器:得到微表情时序特征
    • 心理编码器:得到心理特征时序向量
  4. 一致性融合模块
    • 微表情做 Q
    • 心理特征做 K,V
    • 注意力里加“微表情 vs 心理特征的不一致性”
  5. Transformer + 分类器:输出欺骗概率
  6. Focal Loss + SHAP:解决样本不平衡 + 提高可解释性

整个研究流程的通俗解释

这个研究就是要造一个更准的“测谎仪”,它不光看你的“面部微表情”,还结合你的“心理状态”,让机器像一位既懂察言观色又懂心理学的侦探一样,综合判断你是否在说谎。

1. 输入(喂给机器什么数据?)

我们给机器看两种信息:

  • 你的脸: 一段高清视频,记录你回答问题时的面部变化。
  • 你的“心”:
    • 问卷答案: 让你填一些关于“紧不紧张”、“费不费脑”的表格。
    • 你的声音: 录下你回答问题的声音。

好比侦探的线索: 面部视频是“视觉线索”,问卷和声音是“心理线索”。

2. 特征提取(机器如何看懂这些数据?)

机器需要从原始数据中提炼出有用的“信号”。

  • 从脸上提取“微表情”信号:

    • 技术: 使用一种叫深度学习模型(如3D-CNN) 的“放大镜”和“慢放镜”,来捕捉脸上极其快速、细微的肌肉抽动(比如瞬间的皱眉、嘴角一撇)。
    • 得到: 一系列微表情事件的描述,例如:“第5秒,眉毛轻微上扬0.2秒”。
  • 文本和声音中提取“心理”信号:

    • 技术:音频分析工具分析声音的颤抖、语速快慢。
    • 得到: 一组心理状态数值,例如:“紧张度:75分”、“认知负荷:80分”。

好比侦探分析线索: 从视频里找到“嫌疑人眼神闪烁”的瞬间;从问询中感觉到“嫌疑人声音发抖,逻辑混乱”。

3. 核心创新:一致性融合(机器如何当侦探做推理?)

这是最关键的一步!机器不是简单地把两个结果平均一下,而是进行智能融合。

  • 技术: 采用一种叫注意力机制的“大脑”。这个大脑会动态思考:
    • 场景A: 如果机器检测到“否认”的微表情(比如嘴角下压),但同时发现你的“紧张度”数值极高。这时大脑会想:“表情上装作镇定,但身体很诚实,非常紧张,这种‘不一致’很可疑!” 于是会给这个组合打高分,倾向于判断为“说谎”。
    • 场景B: 如果机器没有检测到明显的微表情,同时你的“认知负荷”数值也很低。大脑会想:“表情自然,回答问题也不费劲,状态很松弛。” 于是倾向于判断为“真实”。

好比侦探的推理: 将“视觉线索”和“心理线索”联系起来,发现其中的矛盾或一致之处,从而做出更可靠的判断。

4. 得到什么结果?(流水线的产品是什么?)

  • 直接产品: 一个训练好的测谎算法模型。你输入一个人的视频和声音,它能输出一个概率值,比如 “说谎概率:92%”
  • 验证结果: 通过大量实验证明,我们这个 “微表情+心理特征”融合的模型,其准确率(如F1分数) 比只用微表情的模型或只用心理特征的模型都要

5. 最终目的是什么?(我们为什么要做这个?)

  1. 理论目的: 探索并验证“微表情”和“心理状态”在说谎时是如何相互作用的,建立起一套新的、更强大的测谎理论。
  2. 应用目的: 为开发下一代高精度、自动化的测谎系统打下核心基础,未来可以应用于司法审讯辅助、安全筛查、商业谈判等重要领域。

总结流程图

输入 (视频 + 问卷 + 音频)
  ↓
特征提取 (深度学习模型抓微表情 + 统计分析算心理分数)
  ↓
一致性融合 (“注意力机制”大脑分析微表情与心理是否一致)
  ↓
结果 (一个更准确的测谎概率值)
  ↓
最终目的 (打造一个更聪明的AI侦探,推动测谎技术发展)