ai科研灵感吧 关注:1贴子:2
  • 0回复贴,共1

错过就后悔的顶会风口:YOLO-Mamba!12个好中idea,拿走不谢!

只看楼主收藏回复

2025深度学习发论文&模型涨点之——YOLO-Mamba
YOLO + Mamba 是一种将 YOLO 系列目标检测算法与 Mamba 状态空间模型(State Space Model, SSM)相结合的方法,旨在提高目标检测的效率和准确性。
YOLO + Mamba 的结合在多个领域展示了显著的性能提升,特别是在处理低分辨率图像和开放词汇目标检测方面。
这些研究不仅提高了检测的准确性,还显著降低了计算复杂度,使其更适合实时应用。未来的研究可能会进一步探索 Mamba 在其他视觉任务中的应用潜力。
小编整理了一些YOLO-Mamba【论文】合集,以下放出部分,全部论文PDF版皆可领取。
需要的同学
回复“111”即可全部领取论文精选论文1:FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space基于选择性状态空间的面部表情检测与分类的FER-YOLO-Mamba方法
FER-YOLO-VSS双分支模块:提出了一种FER-YOLO-VSS双分支模块,将卷积层提取局部特征的能力与状态空间模型(SSMs)揭示长距离依赖的能力相结合。
注意力机制:设计了一个包含多层感知器(MLP)的注意力块(ABMLP),通过全局平均池化、MLP和逐元素乘法技术实现输入特征图的空间注意力机制。
状态空间模型(SSMs):利用SSMs的全局感受野和线性计算复杂度,通过选择性扫描机制提取面部表情图像的长距离依赖特征。
创新点
FER-YOLO-VSS双分支模块:该模块结合了局部和全局信息,通过特征细化模块(FRM)和全向状态空间(OSS)分支,提高了模型对关键信息的处理能力,提升了面部表情检测的精度。例如,在RAF-DB数据集上,FER-YOLO-Mamba模型的mAP得分达到了80.31%,相比YOLOvX模型提高了1.91%。
注意力机制:ABMLP模块通过选择性地突出关键信息区域,抑制无关或次要区域的影响,增强了模型的判别能力。例如,在SFEW数据集上,FER-YOLO-Mamba模型的“Sad”情绪类别的AP得分达到了71.78%,相比其他方法有显著提升。
状态空间模型(SSMs):通过选择性扫描机制,SSMs能够动态调整系统矩阵B和D,有效提取面部表情图像的长距离依赖特征,提高了检测和分类的准确性。例如,在RAF-DB数据集上,FER-YOLO-Mamba模型的“Surprise”情绪类别的AP得分达到了91.44%,表现优异。
论文2:
Mamba YOLO: A Simple Baseline for Object Detection with State Space ModelMamba YOLO:一种基于状态空间模型的简单目标检测基线方法
ODMamba骨干网络:提出了一种基于状态空间模型(SSM)的ODMamba骨干网络,通过线性复杂度的SSM解决自注意力机制的二次复杂度问题。
RG Block:设计了RG Block,采用多分支结构建模通道维度,解决了SSM在序列建模中的感受野不足和图像定位能力弱的问题。
简单的Stem层:采用简化的Stem层,通过两个步幅为2、核大小为3的卷积操作,替代传统的非重叠补丁划分方法。
创新点
ODMamba骨干网络:通过引入SSM,ODMamba骨干网络在保持线性内存复杂度的同时,无需在大规模数据集上进行预训练,建立了YOLO在目标检测中的新基线。例如,在COCO数据集上,Mamba YOLO-T模型的AP值达到了44.5%,相比YOLOv8-S模型提高了4.6%。
RG Block:RG Block通过门控聚合机制和深度卷积残差连接,使模型能够传播重要的特征信息,提高了模型的表达能力。例如,在COCO数据集上,Mamba YOLO-B模型的AP值达到了49.1%,相比Gold-YOLO-M模型提高了3.7%。
简化的Stem层:简化的Stem层通过两个卷积操作,提高了模型的性能和效率。例如,在COCO数据集上,Mamba YOLO-L模型的AP值达到了52.1%,相比DINO-R50模型提高了1.3%。
论文3:
Mamba-YOLO-World: Marrying YOLO-World with Mamba for Open-Vocabulary DetectionMamba-YOLO-World:将YOLO-World与Mamba结合用于开放词汇检测方法
MambaFusion-PAN:提出了一种基于状态空间模型(SSM)的特征融合机制MambaFusion-PAN,用于替代YOLO中的路径聚合特征金字塔网络。
平行引导选择性扫描(PGSS):引入了PGSS算法,通过并行地将压缩的文本信息注入Mamba参数中,实现对图像特征的全局引导。
串行引导选择性扫描(SGSS):提出了SGSS算法,通过串行地调整Mamba参数,利用压缩的视觉信息指导文本特征的提取。
创新点
MambaFusion-PAN:通过引入SSM,MambaFusion-PAN在保持线性复杂度的同时,提供了全局引导的感受野,提高了开放词汇检测的性能。例如,在COCO数据集上,Mamba-YOLO-World模型的AP值相比YOLO-World模型提高了0.4%至1.3%。
PGSS算法:PGSS算法通过并行地将文本信息注入Mamba参数中,实现了对图像特征的全局引导,提高了特征融合的效果。例如,在LVIS数据集上,Mamba-YOLO-World模型的AP值相比YOLO-World模型提高了1.5%。
SGSS算法:SGSS算法通过串行地调整Mamba参数,利用压缩的视觉信息指导文本特征的提取,增强了模型对文本描述中上下文信息的利用。例如,在COCO数据集上,Mamba-YOLO-World模型的AP值相比YOLO-World模型提高了0.4%至1.3%。
论文4:
YOLO-Mamba: object detection method for infrared aerial imagesYOLO-Mamba:一种用于红外航拍图像的目标检测方法方法
Mamba块注意力模块(MBAM):提出了一种基于Mamba的注意力模块MBAM,包括Mamba空间注意力模块(MSAM)和Mamba通道注意力模块(MCAM),分别从空间和通道维度计算图像的注意力。
YOLO-Mamba模型:将MBAM模块集成到YOLOv8n模型中,通过替换C2f模块,增强了网络提取长距离语义信息的能力。
选择性状态空间模型(Mamba):利用Mamba的选择性扫描机制,提取图像特征的全局上下文信息,提高了算法对图像关键区域的关注度。
创新点
MBAM模块:MBAM模块通过从空间和通道维度计算注意力,有效地提取了长距离语义信息,提高了目标检测的精度。例如,在红外航拍图像数据集上,MBAM模块相比CBAM和SE模块,mAP50分别提高了0.8%和1.3%。
YOLO-Mamba模型:将MBAM模块集成到YOLOv8n模型中,仅增加了0.1 M的参数量,但mAP50指标提高了1.1%,mAP50-95指标提高了0.8%。
Mamba的选择性扫描机制:通过选择性扫描机制,Mamba能够有效地提取图像特征的全局上下文信息,提高了算法对关键区域的关注度。例如,在红外航拍图像数据集上,YOLO-Mamba模型的mAP50指标相比YOLOv8n模型提高了1.1%。


IP属地:安徽1楼2025-02-26 17:40回复