IEEE TIP 2024 | 创新奇智提出元学习策略解决模态缺失下的细粒度识别问题

创新奇智 2024年07月23日

日前,全球图像处理领域的顶级期刊 IEEE Transactions on Image Processing(简称TIP)公布了2024年新一批论文的接收结果。创新奇智等单位提交的论文《MECOM: A Meta-Completion Network for Fine-Grained Recognition with Incomplete Multi-Modalities》成功被TIP 2024接收。


TIP由IEEE信号处理学会主办,是图像处理及计算机视觉领域公认的顶级期刊,侧重图像处理的前沿理论与方法,在图像处理算法与理论领域具有重要和广泛的影响。期刊讨论的内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。TIP的发表门槛相对较高,通常需要较为严格的审稿和筛选过程。


论文概述

20240723152031.png

模态缺失下的细粒度识别致力于在部分模态数据不可用的情况下,对多模态细粒度数据进行有效识别,解决由多模态和细粒度特性所引发的挑战,这在众多应用场景中都极具实际价值。为了应对这些挑战,我们提出了一种名为MECOM的方法,采用元学习策略来解决模态缺失带来的问题。我们的网络架构主要包括三个模块:多模态数据预处理、跨模态注意力、解耦重构模块。

创新背景


在多模态数据预处理模块中,MECOM采用多种特征提取网络对输入的多模态数据进行初步处理,确保不同模态数据特征的一致性和兼容性,为后续的模态融合提供了坚实基础。跨模态注意力模块通过注意力机制强化了不同模态之间的交互,促进了信息的有效整合。在解耦重构模块中,我们采用解耦方法对缺失的模态数据进行重建,填补了缺失的模态信息,同时引入了专门设计的约束损失函数,以减少模态缺失情况下特征的偏差。


细粒度分类是计算机视觉领域一个关键的研究方向,它要求系统能够识别并区分属于同一超类别(如动物、车型或植物种类)下的不同子类别。与传统的图像识别相比,细粒度分类需要处理的类别间差异较小,常常只在细微的视觉特征上有所区别,如动物的羽毛纹理或汽车的设计细节。因此,这种分类任务不仅要求模型具有高度的敏感性和精确性,还要求能够理解和处理多种类型的数据输入,如图像、文本描述和音频信息等。


随着技术的进步,多模态学习逐渐成为提高细粒度识别性能的有效方法。通过结合来自不同模态(如视觉、听觉和文本)的信息,多模态学习能够提供更为丰富和全面的数据表示,从而帮助模型捕捉到单一模态难以观察到的细节特征。然而,多模态数据在实际应用中常常面临不完整性的问题,即某些模态的数据可能会缺失。针对模态缺失对细粒度分类带来的巨大挑战,我们利用元学习的方法训练模型,以获得一个在任意模态发生缺失情况下表现依然良好的模型,同时设计了特征融合和解耦模块来获得更好的特征进行分类。

主要贡献

本文的主要贡献如下:

1.我们是首个利用元学习策略来处理模态缺失下细粒度识别问题。该策略不仅可以使模型在模态缺失任务上快速收敛,同时可以提升模型在各种模态缺失任务上的泛化性。


2.我们提出了一种针对模态缺失下细粒度识别问题的方法MECOM,包括三个关键模块,即多模态数据预处理模块、跨模态注意力模块以及解耦重构模块。


3.我们在三个常用的数据集上进行了全面的实验来验证所提方法及其模块的有效性,定量和定性的结果均证明了我们方法的优越性


下图为提出的方法MECOM的流程图。我们提出的MECOM主要由三部分组成,即多模态数据预处理模块、跨模态注意力模块以及解耦重构模块。

20240723152031.png

元学习:在利用元学习策略来处理模态缺失下细粒度识别问题时,我们在细粒度多模态数据完备的数据集20240723152031.png上采样,得到多个含模态数据缺失的元任务2024072315203.png在每个任务上对模型进行训练;以第2024072315203.png个任务举例,有训练集20240723152031.png和测试集20240723152031.png模型初始参数为20240723163230.png,计算模型在训练集上的损失并通过梯度下降来更新模型参数,得到训练过后的模型参数20240723163248.png:

20240723163305.png


其中20240723152031.png代表模型在第2024072315203.png个元任务的训练集上的梯度,20240723163429.png为元任务内的学习率;得到更新后的模型参数后,根据20240723163248.png在第2024072315203.png个任务的测试集上的梯度更新模型初始参数20240723163230.png目标函数可写为:20240723163527.png

其中20240723163527.png为在包含众多元任务的20240723152031.png中取第2024072315203.png个元任务,20240723163843.png为第2024072315203.png个任务上训练得到的模型在第2024072315203.png个测试集上的输出结果。多模态数据预处理:在多模态数据预处理模块,MECOM利用卷积神经网络ResNet50提取图片和音频数据的特征,利用LSTM提取文本的特征,利用TSN提取视频模态的特征。同时为了更好的捕捉到细粒度特征,预处理阶段还引入了空间注意力机制。以图片模态举例,在得到池化层前的图片特征20240723163527.png后,我们利用多层感知机对特征的14 x 14个区域计算其重要程度20240723163843.png多层感知机的结构为20240723163527.png. 随后我们将特征20240723163843.png与对应的重要程度得分矩阵20240723163527.png进行点乘,并与图片原始特征20240723163843.png。这种空间注意力能够突出显示图像或其他模态中较为关键的信息区域,从而为后续的模态融合和重建提供了更加丰富和精确的特征表示。通过这种方式,模型能够忽略不相关的信息,专注于对分类任务至关重要的细节。相加,得到带空间注意力的图片特征。

跨模态注意力:在跨模态注意力模块中,MECOM采用了一种创新的跨模态特征融合方式,该方法首先利用注意力机制将模态特征两两融合,如图片特征20240723163527.png和音频特征20240723163843.png。随后再将融合的特征按模态进一步融合,最终得到所有模态融合后的特征。这种分阶段的融合方式在融合特征时可以避免多个模态导致的特征空间的不一致的问题,同时充分的融合不同模态的特征。除此之外,为了更好的捕捉细粒度特征,跨模态注意力模块分为全局特征融合和局部特征融合两个分支,全局分支旨在融合不同模态的整体特征,而局部分支则是利用Gumbel Softmax方法提取有辨别行的局部特征并融合,最终将全局特征和局部特征拼接进行分类。以全局特征融合方式举例:

20240723163527.png

其中20240723163843.png代表图片模态和音频模态特征的关系系数。按照相同的方式,得到图片模态特征和其他模态特征的融合特征,将所有融合特征相加,得到图片模态特征和其他所有模态特征的融合特征20240723163527.png

20240723163843.png

对于剩余模态,按相似的方式得到融合特征,最终将所有特征加和,得到全局的融合特征:

20240723163527.png

其中20240723163843.png分别为音频、文本、视频模态特征和其他所有模态特征的融合特征。

解耦重构: 在解耦重构模块中,MECOM实现了两种重构方式:模态重构和统一重构。模态重构通过解耦的方式利用融合特征20240723163429.png来单独重建每个模态的特征,而统一重构则试图在重建过程中考虑所有可用模态的联合信息。

20240723163527.png

其中20240723163429.png为解耦网络,20240723163527.png是解耦出来的图片特征,损失函数的目标是使解耦出来的特征和图片模态原特征的20240723163843.png距离尽可能小:

20240723163429.png

而对于统一重构,损失函数的目标是使每个模态融合的特征和全局融合特征的距离尽可能小:

20240723163843.png

这两个损失函数不仅考虑了重建误差,还包括了跨模态一致性损失,以确保重建的数据在语义上与原始数据保持一致。这种复合重构策略极大地增强了模型在面对不同模态缺失情况时的灵活性和鲁棒性。

不同模块的作用如表 1所示,可以看到,每个模块都对结果有一定的提升,当按照论文提出的方法结合在一起时,达到最佳的效果。

20240723163843.png

行业应用

细粒度视觉识别在生产生活中具有丰富的应用需求。以制造业举例,细粒度视觉识别能够检测产品细微的缺陷,如微小划痕、颜色偏差、尺寸差异等,确保生产线上产品的质量一致性。这对于提高生产效率和减少不良品率至关重要。

创新奇智CTO张发恩表示:“大模型技术的运用,将极大地提升多模态细粒度视觉识别的精确性与检测速度,实现更细腻、高效的图像解析能力。我们将最新的科研成果融合至我们的AInnoGC工业大模型技术平台中,致力于为用户带来最前沿的人工智能应用体验,赋能产业升级。”



返回动态列表

IEEE TIP 2024 | 创新奇智提出元学习策略解决模态缺失下的细粒度识别问题

创新奇智 2024年07月23日

日前,全球图像处理领域的顶级期刊 IEEE Transactions on Image Processing(简称TIP)公布了2024年新一批论文的接收结果。创新奇智等单位提交的论文《MECOM: A Meta-Completion Network for Fine-Grained Recognition with Incomplete Multi-Modalities》成功被TIP 2024接收。


TIP由IEEE信号处理学会主办,是图像处理及计算机视觉领域公认的顶级期刊,侧重图像处理的前沿理论与方法,在图像处理算法与理论领域具有重要和广泛的影响。期刊讨论的内容包含深度学习、计算机视觉、大规模机器学习、学习理论、优化、稀疏理论等众多细分领域。TIP的发表门槛相对较高,通常需要较为严格的审稿和筛选过程。


论文概述

20240723152031.png

模态缺失下的细粒度识别致力于在部分模态数据不可用的情况下,对多模态细粒度数据进行有效识别,解决由多模态和细粒度特性所引发的挑战,这在众多应用场景中都极具实际价值。为了应对这些挑战,我们提出了一种名为MECOM的方法,采用元学习策略来解决模态缺失带来的问题。我们的网络架构主要包括三个模块:多模态数据预处理、跨模态注意力、解耦重构模块。

创新背景


在多模态数据预处理模块中,MECOM采用多种特征提取网络对输入的多模态数据进行初步处理,确保不同模态数据特征的一致性和兼容性,为后续的模态融合提供了坚实基础。跨模态注意力模块通过注意力机制强化了不同模态之间的交互,促进了信息的有效整合。在解耦重构模块中,我们采用解耦方法对缺失的模态数据进行重建,填补了缺失的模态信息,同时引入了专门设计的约束损失函数,以减少模态缺失情况下特征的偏差。


细粒度分类是计算机视觉领域一个关键的研究方向,它要求系统能够识别并区分属于同一超类别(如动物、车型或植物种类)下的不同子类别。与传统的图像识别相比,细粒度分类需要处理的类别间差异较小,常常只在细微的视觉特征上有所区别,如动物的羽毛纹理或汽车的设计细节。因此,这种分类任务不仅要求模型具有高度的敏感性和精确性,还要求能够理解和处理多种类型的数据输入,如图像、文本描述和音频信息等。


随着技术的进步,多模态学习逐渐成为提高细粒度识别性能的有效方法。通过结合来自不同模态(如视觉、听觉和文本)的信息,多模态学习能够提供更为丰富和全面的数据表示,从而帮助模型捕捉到单一模态难以观察到的细节特征。然而,多模态数据在实际应用中常常面临不完整性的问题,即某些模态的数据可能会缺失。针对模态缺失对细粒度分类带来的巨大挑战,我们利用元学习的方法训练模型,以获得一个在任意模态发生缺失情况下表现依然良好的模型,同时设计了特征融合和解耦模块来获得更好的特征进行分类。

主要贡献

本文的主要贡献如下:

1.我们是首个利用元学习策略来处理模态缺失下细粒度识别问题。该策略不仅可以使模型在模态缺失任务上快速收敛,同时可以提升模型在各种模态缺失任务上的泛化性。


2.我们提出了一种针对模态缺失下细粒度识别问题的方法MECOM,包括三个关键模块,即多模态数据预处理模块、跨模态注意力模块以及解耦重构模块。


3.我们在三个常用的数据集上进行了全面的实验来验证所提方法及其模块的有效性,定量和定性的结果均证明了我们方法的优越性


下图为提出的方法MECOM的流程图。我们提出的MECOM主要由三部分组成,即多模态数据预处理模块、跨模态注意力模块以及解耦重构模块。

20240723152031.png

元学习:在利用元学习策略来处理模态缺失下细粒度识别问题时,我们在细粒度多模态数据完备的数据集20240723152031.png上采样,得到多个含模态数据缺失的元任务2024072315203.png在每个任务上对模型进行训练;以第2024072315203.png个任务举例,有训练集20240723152031.png和测试集20240723152031.png模型初始参数为20240723163230.png,计算模型在训练集上的损失并通过梯度下降来更新模型参数,得到训练过后的模型参数20240723163248.png:

20240723163305.png


其中20240723152031.png代表模型在第2024072315203.png个元任务的训练集上的梯度,20240723163429.png为元任务内的学习率;得到更新后的模型参数后,根据20240723163248.png在第2024072315203.png个任务的测试集上的梯度更新模型初始参数20240723163230.png目标函数可写为:20240723163527.png

其中20240723163527.png为在包含众多元任务的20240723152031.png中取第2024072315203.png个元任务,20240723163843.png为第2024072315203.png个任务上训练得到的模型在第2024072315203.png个测试集上的输出结果。多模态数据预处理:在多模态数据预处理模块,MECOM利用卷积神经网络ResNet50提取图片和音频数据的特征,利用LSTM提取文本的特征,利用TSN提取视频模态的特征。同时为了更好的捕捉到细粒度特征,预处理阶段还引入了空间注意力机制。以图片模态举例,在得到池化层前的图片特征20240723163527.png后,我们利用多层感知机对特征的14 x 14个区域计算其重要程度20240723163843.png多层感知机的结构为20240723163527.png. 随后我们将特征20240723163843.png与对应的重要程度得分矩阵20240723163527.png进行点乘,并与图片原始特征20240723163843.png。这种空间注意力能够突出显示图像或其他模态中较为关键的信息区域,从而为后续的模态融合和重建提供了更加丰富和精确的特征表示。通过这种方式,模型能够忽略不相关的信息,专注于对分类任务至关重要的细节。相加,得到带空间注意力的图片特征。

跨模态注意力:在跨模态注意力模块中,MECOM采用了一种创新的跨模态特征融合方式,该方法首先利用注意力机制将模态特征两两融合,如图片特征20240723163527.png和音频特征20240723163843.png。随后再将融合的特征按模态进一步融合,最终得到所有模态融合后的特征。这种分阶段的融合方式在融合特征时可以避免多个模态导致的特征空间的不一致的问题,同时充分的融合不同模态的特征。除此之外,为了更好的捕捉细粒度特征,跨模态注意力模块分为全局特征融合和局部特征融合两个分支,全局分支旨在融合不同模态的整体特征,而局部分支则是利用Gumbel Softmax方法提取有辨别行的局部特征并融合,最终将全局特征和局部特征拼接进行分类。以全局特征融合方式举例:

20240723163527.png

其中20240723163843.png代表图片模态和音频模态特征的关系系数。按照相同的方式,得到图片模态特征和其他模态特征的融合特征,将所有融合特征相加,得到图片模态特征和其他所有模态特征的融合特征20240723163527.png

20240723163843.png

对于剩余模态,按相似的方式得到融合特征,最终将所有特征加和,得到全局的融合特征:

20240723163527.png

其中20240723163843.png分别为音频、文本、视频模态特征和其他所有模态特征的融合特征。

解耦重构: 在解耦重构模块中,MECOM实现了两种重构方式:模态重构和统一重构。模态重构通过解耦的方式利用融合特征20240723163429.png来单独重建每个模态的特征,而统一重构则试图在重建过程中考虑所有可用模态的联合信息。

20240723163527.png

其中20240723163429.png为解耦网络,20240723163527.png是解耦出来的图片特征,损失函数的目标是使解耦出来的特征和图片模态原特征的20240723163843.png距离尽可能小:

20240723163429.png

而对于统一重构,损失函数的目标是使每个模态融合的特征和全局融合特征的距离尽可能小:

20240723163843.png

这两个损失函数不仅考虑了重建误差,还包括了跨模态一致性损失,以确保重建的数据在语义上与原始数据保持一致。这种复合重构策略极大地增强了模型在面对不同模态缺失情况时的灵活性和鲁棒性。

不同模块的作用如表 1所示,可以看到,每个模块都对结果有一定的提升,当按照论文提出的方法结合在一起时,达到最佳的效果。

20240723163843.png

行业应用

细粒度视觉识别在生产生活中具有丰富的应用需求。以制造业举例,细粒度视觉识别能够检测产品细微的缺陷,如微小划痕、颜色偏差、尺寸差异等,确保生产线上产品的质量一致性。这对于提高生产效率和减少不良品率至关重要。

创新奇智CTO张发恩表示:“大模型技术的运用,将极大地提升多模态细粒度视觉识别的精确性与检测速度,实现更细腻、高效的图像解析能力。我们将最新的科研成果融合至我们的AInnoGC工业大模型技术平台中,致力于为用户带来最前沿的人工智能应用体验,赋能产业升级。”



返回动态列表