发明 一种基于受约束的多模态多级注意力融合模型的情感视频内容分析方法及系统 【特价15】
视频处理 电影分析 情感识别 图像视觉分析 模式识别 人工智能 人机交互 语音 音视频 1人
G06V20/40 G06V10/42 G06V10/44 G06V10/764 G06V10/766 G06V10/80 G06V10/82 G06N3/0442 G06N3/045 G06N3/084
摘要:本发明为一种基于受约束的多模态多级注意力融合模型的情感视频内容分析方法及系统,首先将每个模态的全局和局部特征结合起来,帮助模型提取视频整体的基调和视频局部的细节。接着,该方法使用交叉注意力模块来组合来自三种模态的数据以进一步在多模态范围内提取情感丰富的特征,然后使用自我注意力模块来整合来自每个模态的数据。申请人提出了一种具有约束的基于标准自注意力机制和交叉注意力机制的多模态多级Tranformer衍生方法,包括一种多模态情感内分析模型,通过多层级逐步融合特征。还首次使用了损失函数来约束了Tranformer中Token的学习,并且取得了不错的效果。在分类和回归实验中,取得了比先前技术更好的结果。