微表情和心理特征一致性融合的测谎模型研究
微表情和心理特征一致性融合的测谎模型研究
一句话:就是做一个“看脸+听声音+看说话内容”的多模态测谎模型,核心不是简单把特征拼在一起,而是专门抓“微表情”和“心理特征”之间的不一致,把“言不由衷”“认知超载”这种心理机制用算法形式表达出来。
一、在整个课题中的位置
- 研究内容一:解决“有啥数据”的问题(数据集分析与构建)。
- 研究内容二:解决“怎么判断谎言”的核心算法问题。
- 研究内容三:把算法做成一个可用的平台系统。
所以,研究内容二就是:基于微表情和心理特征一致性融合的测谎模型研究——是整篇论文里最“算法”和“创新点”集中的部分。
二、这个模型整体在做什么?
从流程上看,可以概括成三层:
- 原始输入:
- 视频:包含被试脸部的连续帧(微表情信号)
- 音频:说话的声音(语速、停顿、音高等)
- 文本:把说话内容转成文字(语义、情感、复杂度等)
- 中间特征层:
- 视觉通道 → 提取微表情时空特征
- 语音/文本通道 → 计算认知负荷分数序列、情绪矛盾分数序列等“心理学特征”,再编码成一个心理特征向量(+基本声学与文本特征)
- 决策层:
- 通过一个一致性融合模块(交叉注意力 + 不一致性加权)
- 把“微表情(情绪真相)”和“心理特征(受控表现)”进行对比、融合
- 再用 Transformer 做时序建模,最后输出:这一段话是“真实”还是“欺骗”的概率
三、输入输出:从“说话一段视频”到“欺骗概率”
1. 输入
以一次问答或陈述为单位,一段数据包括:
- 一段同步采集的面部视频:
- 分辨率约 1080p,帧率 ≥60 fps
- 记录了从提问开始到回答结束的表情变化
- 一段对应的音频:
- 包含声学信息(音高、能量、停顿等)
- 从音频里通过 ASR 得到的文本转录:
- 某人说了什么,句子内容
2. 输出
- 一个二分类结果:
- 标签:真实 / 欺骗
- 同时给出一个概率值 p(欺骗)
- 在可解释性分析阶段,还会输出:
- 哪些时刻/特征(例如某个 AU 的激活、某个时间点的语音停顿、某一段话的情感矛盾)对“欺骗”判断贡献最大
四、第一层:特征提取 & 心理特征计算
4.1 视觉通道:微表情时空特征
视频预处理
- 人脸检测 + 关键点定位(如 MTCNN、MediaPipe)
- 对齐、裁剪 ROI,保证不同帧的脸位置统一
I3D 或类似 3D-CNN / ViT 模型
- 把一段视频切成若干短 clip 输入 I3D
- 3D 卷积提取时空特征:既看“哪里动”(空间),也看“动得多快、多突然”(时间)
- 重点捕捉:微弱、短暂、局部的表情变化(微表情)
输出
一个时间序列的特征表示:
$$
\mathbf{F}^{me} = [f^{me}_1, f^{me}_2, \dots, f^{me}_T]
$$这个序列就是后面“一致性融合模块”里的Query(Q)
4.2 语音 + 文本通道:隐式心理特征计算
目标:不用让被试填量表,而是从声学、语言自动计算出心理学构念:
- 认知负荷(Cognitive Load)
- 情绪矛盾(Emotional Incongruity)
(1)语音特征
提取如:
- 基频 F0(高低抖动反映紧张/唤醒)
- 能量(说话用力程度)
- HNR、抖动度等(声音质量变化)
- 语速、停顿次数/时长(认知负荷上来时,通常停顿变多、语速不稳定)
(2)文本特征
ASR 转录后做 NLP 分析:
- 语言复杂度(句子长短、嵌套深度)
- 信息密度(具体细节 vs 模糊表达)
- 自我指涉频率(“我”“我们”等)
- 情感倾向:利用 LIWC 等情绪词典统计
- 正负面情绪词比例
- 与情境预期的一致性/偏离程度
(3)认知负荷分数序列
设计一个小型回归网络 / MLP:
输入:语速变化、停顿特征、语言复杂度等
输出:每个时间段的认知负荷分数:
$$
\mathbf{c} = [c_1, c_2, …, c_T]
$$
(4)情绪矛盾分数序列
比如:当前语境应该是“被指控”,客观上容易引发紧张、愤怒等情绪
但文本表现“特别轻松、积极”
通过对比语境/内容情绪和“合理预期情绪”,算一个“矛盾度”:
$$
\mathbf{e} = [e_1, e_2, …, e_T]
$$
(5)心理特征编码器
把上述:
- 语音低阶特征(F0、能量…)
- 认知负荷序列 c
- 情绪矛盾序列 e
一起输入一个心理特征编码器(1D-CNN 或 Transformer)
输出一个与时间对齐的心理特征序列:
$$
\mathbf{F}^{psy} = [f^{psy}_1, f^{psy}_2, …, f^{psy}_T]
$$这就是后面一致性融合模块里的 Key(K)和 Value(V)
五、第二层:微表情–心理特征一致性融合模块(核心创新)
这里是研究内容二最核心的算法创新点。
5.1 思路
- 微表情:更接近真实情绪,难以伪装
- 心理特征(语音+文本):是受控的表现,容易被伪装、调整
核心理念:“谎言 = 情绪泄露(微表情) 与 受控表达(语音/语言) 不一致” 的概率变高。
所以我们不用简单地拼接 [F_me; F_psy],而是要设计一种机制,专门放大“不一致”的时刻。
5.2 交叉注意力结构
设:
- Q = 微表情特征 (\mathbf{F}^{me})
- K, V = 心理特征 (\mathbf{F}^{psy})
标准缩放点积注意力:
$$
\text{Attn}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V
$$你的报告里在此基础上加入了一个不一致性项,计算“微表情和心理特征平均状态的差异”,用欧氏距离表示,并乘上一个可学习参数 λ,融合进注意力权重里。
这样一来:- 当微表情和心理特征“很一致” → 不一致性项小 → 权重偏正常
- 当它们“很不一致” → 不一致性项大 → 注意力会更加聚焦这些时间点
换句话说:模型在训练中被鼓励去“盯着”那些表情和心理特征打架的瞬间。
5.3 时序建模与分类
- 一致性融合后的特征序列送入 Transformer 编码器:
- 多头自注意力 + FFN
- 捕获长程时序依赖(整段话的动态变化)
- 再做:
- 全局平均池化(把 T 个时间步压成一个全局向量)
- 全连接层 + Sigmoid 输出欺骗概率
六、第三层:损失函数与可解释性
6.1 损失函数:加权 Focal Loss
- 现实中:真实样本往往远多于欺骗样本 → 类别不平衡
- 你采用的是加权 Focal Loss:
- 用 α 调整正负样本的权重
- 用 γ 减小“容易分类样本”的损失,让模型更关注“难样本”
- 好处:
- 更好地学习“少数类”(欺骗)的特征
- 避免只学会“老实人很多,所以都判成真实”
6.2 可解释性:SHAP 等
- 训练好模型之后,用 SHAP 来做特征归因:
- 可以回答:
- “模型是因为哪个 AU、哪一段停顿、哪一段情绪矛盾而判定为‘说谎’?”
- 可以回答:
- 这部分一方面服务于论文:
- 验证模型是否真的在利用“心理学上合理的线索”
- 例如确实在关键“微表情 + 高认知负荷 + 情绪矛盾”时刻权重很高
- 另一方面,也提高系统在司法/安防场景中的可解释性与可信度
七、这一部分到底解决了什么问题?有什么创新?
7.1 要解决的问题
- 单一微表情或单一心理指标不可靠
- 只看表情:可能是个性、习惯问题
- 只看语音/文本:对高情商/反侦察者不敏感
- 传统多模态往往是“简单拼接”,没有突出心理机制
- 缺乏可解释、心理学驱动的融合方式
7.2 本研究的创新点
- 心理特征“无感计算”
- 不靠问卷,而是从语音+文本自动估计认知负荷、情绪矛盾等心理构念
- 更接近真实场景(审讯、安检中不会给你先发量表)
- 一致性/不一致性导向的融合方式
- 微表情 = 情绪真相通道
- 心理特征 = 认知控制通道
- 利用交叉注意力 + 不一致性加权,专门强调“不一致”的证据
→ 把心理学里的“言不由衷”“情绪泄漏”做成了一个可计算的机制
- 强可解释性
- 用 SHAP 等方法,把模型的“注意点”映射回:
- 哪个 AU
- 哪段停顿、哪句矛盾的话
- 既符合心理学理论,又方便在论文和平台中展示
- 用 SHAP 等方法,把模型的“注意点”映射回:
八、如果你要在脑子里有一张“简图”,可以这样记:
- 输入:视频 + 音频 → (视频→微表情;音频→语音特征;ASR→文本→情绪&复杂度)
- 心理特征模块:算出“认知负荷曲线 + 情绪矛盾曲线”
- 两条通道编码:
- 视觉编码器:得到微表情时序特征
- 心理编码器:得到心理特征时序向量
- 一致性融合模块:
- 微表情做 Q
- 心理特征做 K,V
- 注意力里加“微表情 vs 心理特征的不一致性”
- Transformer + 分类器:输出欺骗概率
- Focal Loss + SHAP:解决样本不平衡 + 提高可解释性
整个研究流程的通俗解释
这个研究就是要造一个更准的“测谎仪”,它不光看你的“面部微表情”,还结合你的“心理状态”,让机器像一位既懂察言观色又懂心理学的侦探一样,综合判断你是否在说谎。
1. 输入(喂给机器什么数据?)
我们给机器看两种信息:
- 你的脸: 一段高清视频,记录你回答问题时的面部变化。
- 你的“心”:
- 问卷答案: 让你填一些关于“紧不紧张”、“费不费脑”的表格。
- 你的声音: 录下你回答问题的声音。
好比侦探的线索: 面部视频是“视觉线索”,问卷和声音是“心理线索”。
2. 特征提取(机器如何看懂这些数据?)
机器需要从原始数据中提炼出有用的“信号”。
从脸上提取“微表情”信号:
- 技术: 使用一种叫深度学习模型(如3D-CNN) 的“放大镜”和“慢放镜”,来捕捉脸上极其快速、细微的肌肉抽动(比如瞬间的皱眉、嘴角一撇)。
- 得到: 一系列微表情事件的描述,例如:“第5秒,眉毛轻微上扬0.2秒”。
文本和声音中提取“心理”信号:
- 技术: 用音频分析工具分析声音的颤抖、语速快慢。
- 得到: 一组心理状态数值,例如:“紧张度:75分”、“认知负荷:80分”。
好比侦探分析线索: 从视频里找到“嫌疑人眼神闪烁”的瞬间;从问询中感觉到“嫌疑人声音发抖,逻辑混乱”。
3. 核心创新:一致性融合(机器如何当侦探做推理?)
这是最关键的一步!机器不是简单地把两个结果平均一下,而是进行智能融合。
- 技术: 采用一种叫注意力机制的“大脑”。这个大脑会动态思考:
- 场景A: 如果机器检测到“否认”的微表情(比如嘴角下压),但同时发现你的“紧张度”数值极高。这时大脑会想:“表情上装作镇定,但身体很诚实,非常紧张,这种‘不一致’很可疑!” 于是会给这个组合打高分,倾向于判断为“说谎”。
- 场景B: 如果机器没有检测到明显的微表情,同时你的“认知负荷”数值也很低。大脑会想:“表情自然,回答问题也不费劲,状态很松弛。” 于是倾向于判断为“真实”。
好比侦探的推理: 将“视觉线索”和“心理线索”联系起来,发现其中的矛盾或一致之处,从而做出更可靠的判断。
4. 得到什么结果?(流水线的产品是什么?)
- 直接产品: 一个训练好的测谎算法模型。你输入一个人的视频和声音,它能输出一个概率值,比如 “说谎概率:92%”。
- 验证结果: 通过大量实验证明,我们这个 “微表情+心理特征”融合的模型,其准确率(如F1分数) 比只用微表情的模型或只用心理特征的模型都要高。
5. 最终目的是什么?(我们为什么要做这个?)
- 理论目的: 探索并验证“微表情”和“心理状态”在说谎时是如何相互作用的,建立起一套新的、更强大的测谎理论。
- 应用目的: 为开发下一代高精度、自动化的测谎系统打下核心基础,未来可以应用于司法审讯辅助、安全筛查、商业谈判等重要领域。
总结流程图
输入 (视频 + 问卷 + 音频)
↓
特征提取 (深度学习模型抓微表情 + 统计分析算心理分数)
↓
一致性融合 (“注意力机制”大脑分析微表情与心理是否一致)
↓
结果 (一个更准确的测谎概率值)
↓
最终目的 (打造一个更聪明的AI侦探,推动测谎技术发展)