微表情和心理特征一致性融合的测谎模型研究

一句话：就是做一个“看脸+听声音+看说话内容”的多模态测谎模型，核心不是简单把特征拼在一起，而是专门抓“微表情”和“心理特征”之间的不一致，把“言不由衷”“认知超载”这种心理机制用算法形式表达出来。

一、在整个课题中的位置

研究内容一：解决“有啥数据”的问题（数据集分析与构建）。
研究内容二：解决“怎么判断谎言”的核心算法问题。
研究内容三：把算法做成一个可用的平台系统。

所以，研究内容二就是：基于微表情和心理特征一致性融合的测谎模型研究——是整篇论文里最“算法”和“创新点”集中的部分。

二、这个模型整体在做什么？

从流程上看，可以概括成三层：

原始输入：
- 视频：包含被试脸部的连续帧（微表情信号）
- 音频：说话的声音（语速、停顿、音高等）
- 文本：把说话内容转成文字（语义、情感、复杂度等）
中间特征层：
- 视觉通道 → 提取微表情时空特征
- 语音/文本通道 → 计算认知负荷分数序列、情绪矛盾分数序列等“心理学特征”，再编码成一个心理特征向量（+基本声学与文本特征）
决策层：
- 通过一个一致性融合模块（交叉注意力 + 不一致性加权）
- 把“微表情（情绪真相）”和“心理特征（受控表现）”进行对比、融合
- 再用 Transformer 做时序建模，最后输出：这一段话是“真实”还是“欺骗”的概率

三、输入输出：从“说话一段视频”到“欺骗概率”

1. 输入

以一次问答或陈述为单位，一段数据包括：

一段同步采集的面部视频：
- 分辨率约 1080p，帧率 ≥60 fps
- 记录了从提问开始到回答结束的表情变化
一段对应的音频：
- 包含声学信息（音高、能量、停顿等）
从音频里通过 ASR 得到的文本转录：
- 某人说了什么，句子内容

2. 输出

一个二分类结果：
- 标签：真实 / 欺骗
- 同时给出一个概率值 p(欺骗)
在可解释性分析阶段，还会输出：
- 哪些时刻/特征（例如某个 AU 的激活、某个时间点的语音停顿、某一段话的情感矛盾）对“欺骗”判断贡献最大

四、第一层：特征提取 & 心理特征计算

4.1 视觉通道：微表情时空特征

视频预处理
- 人脸检测 + 关键点定位（如 MTCNN、MediaPipe）
- 对齐、裁剪 ROI，保证不同帧的脸位置统一
I3D 或类似 3D-CNN / ViT 模型
- 把一段视频切成若干短 clip 输入 I3D
- 3D 卷积提取时空特征：既看“哪里动”（空间），也看“动得多快、多突然”（时间）
- 重点捕捉：微弱、短暂、局部的表情变化（微表情）
输出
- 一个时间序列的特征表示：
  $$
  \mathbf{F}^{me} = [f^{me}_1, f^{me}_2, \dots, f^{me}_T]
  $$
- 这个序列就是后面“一致性融合模块”里的Query（Q）

4.2 语音 + 文本通道：隐式心理特征计算

目标：不用让被试填量表，而是从声学、语言自动计算出心理学构念：

认知负荷（Cognitive Load）
情绪矛盾（Emotional Incongruity）

（1）语音特征

提取如：

基频 F0（高低抖动反映紧张/唤醒）
能量（说话用力程度）
HNR、抖动度等（声音质量变化）
语速、停顿次数/时长（认知负荷上来时，通常停顿变多、语速不稳定）

（2）文本特征

ASR 转录后做 NLP 分析：

语言复杂度（句子长短、嵌套深度）
信息密度（具体细节 vs 模糊表达）
自我指涉频率（“我”“我们”等）
情感倾向：利用 LIWC 等情绪词典统计
- 正负面情绪词比例
- 与情境预期的一致性/偏离程度

（3）认知负荷分数序列

设计一个小型回归网络 / MLP：
- 输入：语速变化、停顿特征、语言复杂度等
- 输出：每个时间段的认知负荷分数：
  $$
  \mathbf{c} = [c_1, c_2, …, c_T]
  $$

（4）情绪矛盾分数序列

比如：当前语境应该是“被指控”，客观上容易引发紧张、愤怒等情绪
但文本表现“特别轻松、积极”
通过对比语境/内容情绪和“合理预期情绪”，算一个“矛盾度”：
$$
\mathbf{e} = [e_1, e_2, …, e_T]
$$

（5）心理特征编码器

把上述：
- 语音低阶特征（F0、能量…）
- 认知负荷序列 c
- 情绪矛盾序列 e
  一起输入一个心理特征编码器（1D-CNN 或 Transformer）
输出一个与时间对齐的心理特征序列：
$$
\mathbf{F}^{psy} = [f^{psy}_1, f^{psy}_2, …, f^{psy}_T]
$$
这就是后面一致性融合模块里的 Key（K）和 Value（V）

五、第二层：微表情–心理特征一致性融合模块（核心创新）

这里是研究内容二最核心的算法创新点。

5.1 思路

微表情：更接近真实情绪，难以伪装
心理特征（语音+文本）：是受控的表现，容易被伪装、调整

核心理念：“谎言 = 情绪泄露（微表情）与受控表达（语音/语言）不一致” 的概率变高。

所以我们不用简单地拼接 [F_me; F_psy]，而是要设计一种机制，专门放大“不一致”的时刻。

5.2 交叉注意力结构

设：
- Q = 微表情特征 (\mathbf{F}^{me})
- K, V = 心理特征 (\mathbf{F}^{psy})
标准缩放点积注意力：
$$
\text{Attn}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V
$$
你的报告里在此基础上加入了一个不一致性项，计算“微表情和心理特征平均状态的差异”，用欧氏距离表示，并乘上一个可学习参数 λ，融合进注意力权重里。
这样一来：
- 当微表情和心理特征“很一致” → 不一致性项小 → 权重偏正常
- 当它们“很不一致” → 不一致性项大 → 注意力会更加聚焦这些时间点

换句话说：模型在训练中被鼓励去“盯着”那些表情和心理特征打架的瞬间。

5.3 时序建模与分类

一致性融合后的特征序列送入 Transformer 编码器：
- 多头自注意力 + FFN
- 捕获长程时序依赖（整段话的动态变化）
再做：
- 全局平均池化（把 T 个时间步压成一个全局向量）
- 全连接层 + Sigmoid 输出欺骗概率

六、第三层：损失函数与可解释性

6.1 损失函数：加权 Focal Loss

现实中：真实样本往往远多于欺骗样本 → 类别不平衡
你采用的是加权 Focal Loss：
- 用 α 调整正负样本的权重
- 用 γ 减小“容易分类样本”的损失，让模型更关注“难样本”
好处：
- 更好地学习“少数类”（欺骗）的特征
- 避免只学会“老实人很多，所以都判成真实”

6.2 可解释性：SHAP 等

训练好模型之后，用 SHAP 来做特征归因：
- 可以回答：
  - “模型是因为哪个 AU、哪一段停顿、哪一段情绪矛盾而判定为‘说谎’？”
这部分一方面服务于论文：
- 验证模型是否真的在利用“心理学上合理的线索”
- 例如确实在关键“微表情 + 高认知负荷 + 情绪矛盾”时刻权重很高
另一方面，也提高系统在司法/安防场景中的可解释性与可信度

七、这一部分到底解决了什么问题？有什么创新？

7.1 要解决的问题

单一微表情或单一心理指标不可靠
- 只看表情：可能是个性、习惯问题
- 只看语音/文本：对高情商/反侦察者不敏感
传统多模态往往是“简单拼接”，没有突出心理机制
缺乏可解释、心理学驱动的融合方式

7.2 本研究的创新点

心理特征“无感计算”
- 不靠问卷，而是从语音+文本自动估计认知负荷、情绪矛盾等心理构念
- 更接近真实场景（审讯、安检中不会给你先发量表）
一致性/不一致性导向的融合方式
- 微表情 = 情绪真相通道
- 心理特征 = 认知控制通道
- 利用交叉注意力 + 不一致性加权，专门强调“不一致”的证据
  → 把心理学里的“言不由衷”“情绪泄漏”做成了一个可计算的机制
强可解释性
- 用 SHAP 等方法，把模型的“注意点”映射回：
  - 哪个 AU
  - 哪段停顿、哪句矛盾的话
- 既符合心理学理论，又方便在论文和平台中展示

八、如果你要在脑子里有一张“简图”，可以这样记：

输入：视频 + 音频 → （视频→微表情；音频→语音特征；ASR→文本→情绪&复杂度）
心理特征模块：算出“认知负荷曲线 + 情绪矛盾曲线”
两条通道编码：
- 视觉编码器：得到微表情时序特征
- 心理编码器：得到心理特征时序向量
一致性融合模块：
- 微表情做 Q
- 心理特征做 K,V
- 注意力里加“微表情 vs 心理特征的不一致性”
Transformer + 分类器：输出欺骗概率
Focal Loss + SHAP：解决样本不平衡 + 提高可解释性

整个研究流程的通俗解释

这个研究就是要造一个更准的“测谎仪”，它不光看你的“面部微表情”，还结合你的“心理状态”，让机器像一位既懂察言观色又懂心理学的侦探一样，综合判断你是否在说谎。

1. 输入（喂给机器什么数据？）

我们给机器看两种信息：

你的脸： 一段高清视频，记录你回答问题时的面部变化。
你的“心”：
- 问卷答案： 让你填一些关于“紧不紧张”、“费不费脑”的表格。
- 你的声音： 录下你回答问题的声音。

好比侦探的线索： 面部视频是“视觉线索”，问卷和声音是“心理线索”。

2. 特征提取（机器如何看懂这些数据？）

机器需要从原始数据中提炼出有用的“信号”。

从脸上提取“微表情”信号：
- 技术： 使用一种叫深度学习模型（如3D-CNN） 的“放大镜”和“慢放镜”，来捕捉脸上极其快速、细微的肌肉抽动（比如瞬间的皱眉、嘴角一撇）。
- 得到： 一系列微表情事件的描述，例如：“第5秒，眉毛轻微上扬0.2秒”。
文本和声音中提取“心理”信号：
- 技术： 用音频分析工具分析声音的颤抖、语速快慢。
- 得到： 一组心理状态数值，例如：“紧张度：75分”、“认知负荷：80分”。

好比侦探分析线索： 从视频里找到“嫌疑人眼神闪烁”的瞬间；从问询中感觉到“嫌疑人声音发抖，逻辑混乱”。

3. 核心创新：一致性融合（机器如何当侦探做推理？）

这是最关键的一步！机器不是简单地把两个结果平均一下，而是进行智能融合。

技术： 采用一种叫注意力机制的“大脑”。这个大脑会动态思考：
- 场景A： 如果机器检测到“否认”的微表情（比如嘴角下压），但同时发现你的“紧张度”数值极高。这时大脑会想：“表情上装作镇定，但身体很诚实，非常紧张，这种‘不一致’很可疑！” 于是会给这个组合打高分，倾向于判断为“说谎”。
- 场景B： 如果机器没有检测到明显的微表情，同时你的“认知负荷”数值也很低。大脑会想：“表情自然，回答问题也不费劲，状态很松弛。” 于是倾向于判断为“真实”。

好比侦探的推理： 将“视觉线索”和“心理线索”联系起来，发现其中的矛盾或一致之处，从而做出更可靠的判断。

4. 得到什么结果？（流水线的产品是什么？）

直接产品： 一个训练好的测谎算法模型。你输入一个人的视频和声音，它能输出一个概率值，比如 “说谎概率：92%”。
验证结果： 通过大量实验证明，我们这个 “微表情+心理特征”融合的模型，其准确率（如F1分数） 比只用微表情的模型或只用心理特征的模型都要高。

5. 最终目的是什么？（我们为什么要做这个？）

理论目的： 探索并验证“微表情”和“心理状态”在说谎时是如何相互作用的，建立起一套新的、更强大的测谎理论。
应用目的： 为开发下一代高精度、自动化的测谎系统打下核心基础，未来可以应用于司法审讯辅助、安全筛查、商业谈判等重要领域。

总结流程图

输入（视频 + 问卷 + 音频）
　　↓
特征提取 （深度学习模型抓微表情 + 统计分析算心理分数）
　　↓
一致性融合 （“注意力机制”大脑分析微表情与心理是否一致）
　　↓
结果（一个更准确的测谎概率值）
　　↓
最终目的 （打造一个更聪明的AI侦探，推动测谎技术发展）