超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former
极市导读
本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效,称为 Conv2Former。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。>>加入极市CV技术交流群,走在计算机视觉的最前沿
本文目录1 Conv2Former:Transformer 风格的卷积网络视觉基线模型1 Conv2Former:Transformer 风格的卷积网络视觉基线模型(来自南开大学,字节跳动)1.1 Conv2Former 论文解读1.1.1 背景和动机1.1.2 卷积调制模块1.1.3 Conv2Former 整体架构1.1.4 实验结果
(资料图片)
论文名称:Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
论文地址:https://arxiv.org/pdf/2211.11943.pdf
1.1.1 背景和动机以 VGGNet、Inception 系列和 ResNet 系列为代表的 2010-2020 年代的卷积神经网络 (ConvNets) 在多种视觉任务中取得了巨大的进展,它们的共同特点是顺序堆叠多个基本模块 (Basic Building Block),并采用金字塔结构 (pyramid network architecture),但是却忽略了显式建模全局上下文信息的重要性。SENet 模块系列模型突破了传统的 CNN 设计思路,将注意力机制引入到 CNN 中以捕获远程依赖,获得了更好的性能。
自从 2020 年以来,视觉 Transformer (ViTs) 进一步促进了视觉识别模型的发展,在 ImageNet 图像分类和下游任务上表现出比最先进的 ConvNets 更好的结果。这是因为与只进行局部建模的卷积操作相比,Transformer 中的自注意力机制能够对全局的成对依赖进行建模,提供了一种更有效的空间信息编码方法。然而,在处理高分辨率图像时,自注意力机制导致的计算成本是相当大的。
为了解决这个问题,一些 2022 年经典的工作试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型?
比如 ConvNeXt[1]:将标准 ResNet 架构现代化,并使用与 Transformer 相似的设计和训练策略,ConvNeXt 可以比一些 Transformer 表现得更好。
从原理和代码详解FAIR去年的惊艳之作:全新的纯卷积模型ConvNeXt
再比如 HorNet[2]:通过建模高阶的相互作用,使得纯卷积模型可以做到像 Transformer 一样的二阶甚至更高的相互作用。
精度超越ConvNeXt的新CNN!HorNet:通过递归门控卷积实现高效高阶的空间信息交互
再比如 RepLKNet[3],SLaK[4]:通过 31×31 或者 51×51 的超大 Kernel 的卷积,使得纯卷积模型可以建模更远的距离。
又对ConvNets下手了!详解SLaK:从稀疏性的角度将卷积核扩展到 51×51
到目前为止,如何更有效地利用卷积来构建强大的 ConvNet 体系结构仍然是一个热门的研究课题。
1.1.2 卷积调制模块本文的关键就是本小节介绍的卷积调制模块。如下图1所示, 对于传统的 Self-attention, 给定一个序列长度为
式中,
为了简单起见,这里省略了 scale factor,自注意模块的计算复杂度随着序列长度N的增加呈二次增长,带来了更高的计算代价。
在卷积调制模块中, 不通过2式计算相似度得分矩阵
式中,
优势: 卷积调制模块利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。
ConvNeXt 表明,将 ConvNets 的核大小从3扩大到7可以提高分类性能。然而,进一步增加 Kernel 的大小几乎不会带来性能上的提升,反而会在没有重新参数化的情况下增加计算负担。但作者认为,使 ConvNeXt 从大于 7×7的 Kernel Size 中获益很少的原因是使用空间卷积的方式。对于 Conv2Former,当 Kernel Size 从 5×5 增加到 21×21 时,可以观察到一致的性能提升。这种现象不仅发生在 Conv2Former-T (82.8→83.4) 上,也发生在参数为80M+ 的 Conv2Former-B (84.1→84.5) 上。考虑到模型效率,默认的 Kernel Size 大小可以设置为 11×11。
权重策略的优化: 注意这里作者直接将深度卷积的输出作为权重,对线性投影后的特征进行调制。Hadamard 积之前既没有使用激活层,也没有使用归一化层 (例如 Sigmoid 或 LN 层),如果像 SE 模块那样加一个 Sigmoid 函数,会使性能降低 0.5% 以上。
1.1.3 Conv2Former 整体架构如下图3所示,与ConvNeXt 和 Swin Transformer 相似,作者的 Conv2Former 也采用了金字塔架构。总共有4个 Stage,每个 Stage 的特征分辨率依次递减。根据模型大小尺寸,一共设计了5个变体:Conv2Former-N,Conv2Former-T, Conv2Former-S, Conv2Former-B,Conv2Former-L。
当可学习参数数量固定时,如何安排网络的宽度和深度对模型性能有影响。原始的 ResNet-50 将每个 Stage 的块数设置为 (3,4,6,3)。ConvNeXt-T 按照 Swin-T 的模式将 Block 数之比更改为 (3,3,9,3),并对较大的模型将 Block 数之比更改为 (1,1,9,1)。Conv2Former 的设置如下图4所示。可以观察到,对于一个小模型 (参数小于30M),更深的网络表现更好。
1.1.4 实验结果ImageNet-1K 实验分为两种,一种是直接在 ImageNet-1K 上面训练和验证,另一种是先在 ImageNet-22K 上预训练,再在 ImageNet-1K 上微调和验证。
ImageNet-1K 实验设置
数据集:ImageNet-1K 训练 300 Epochs,ImageNet-1K 验证。
优化器: AdamW, lr
ImageNet-22K 实验设置
数据集:ImageNet-22K 预训练 90 Epochs,ImageNet-1K 微调 30 Epochs,ImageNet-1K 验证。
如下图5所示是 ImageNet-1K 实验结果。对于小型模型 (< 30M),与 ConvNeXt-T 和 Swin-T 相比,Conv2Former 分别有 1.1% 和 1.7% 的性能提升。即使 Conv2Former-N 只有 15M 参数和 2.2G FLOPs,其性能也与具有 28M 参数和 4.5G FLOPs 的 SwinT-T 相同。对于其他流行的模型,Conv2Former 也比类似模型尺寸的模型表现更好。Conv2Former-B 甚至比 EfficientNetB7 表现得更好 (84.4% vs . 84.3%),后者的计算量是 Conv2Former 的两倍 (37G vs. 15G)。
如下图6所示是 ImageNet-22K 的实验结果。作者遵循 ConvNeXt 中使用的设置来训练和微调模型。与 ConvNeXt 的不同变体相比,当模型尺寸相似时,Conv2Former 都表现得更好。此外,我们可以看到,当在更大的分辨率384×384 上进行微调时,Conv2Former-L 获得了比混合模型 (如 CoAtNet 和 MOAT) 更好的结果,Conv2Former-L 达到了 87.7% 的最佳结果。
如下图8所示是关于卷积核大小的消融实验结果。在 大小增加到 21 × 21 之前,性能增益似乎已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel 不会带来明显的性能提升。
消融实验1:卷积核大小
如下图8所示是关于卷积核大小的消融实验结果。在 Kernel Size 增加到 21 × 21 之前,性能增益已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel Size 不会带来明显的性能提升。这表明 Conv2Former 的做法能比传统方式更有效地利用大 Kernel 的优势。
消融实验2:不同融合策略的影响
如下图8, 9所示是关于不同融合策略影响的消融实验结果。除了上述两种融合策略外, 作者还尝试使用其他方法来融合特征映射, 包括在
直筒架构实验结果
遵循 ConvNeXt 的做法,作者也训练了 Conv2Former 的直筒架构 (Isotropic Models) 版本,结果如下图9所示。作者将 Conv2Former-IS 和 Conv2Former-IB 的块数设置为18,并调整通道数以匹配模型大小。字母 "I" 表示直筒架构,可以看到,对于 22M 参数左右的小型模型,Conv2Former-IS 比 DeiT-S 的表现要好得多。当将模型尺寸放大到 80M+ 时,Conv2Former-IB 达到了 82.7% 的 Top-1 Accuracy,这也比 ConvNeXt-IB 高 0.7%,比 DeiT-B 高0.9%。
目标检测实验结果
如下图10所示是不同骨干网络,以 Mask R-CNN 为检测头和 Cascade Mask R-CNN 为实例分割头在 COCO 数据集的实验结果。训练策略遵循 ConvNeXt。对于小模型,使用 Mask R-CNN 框架时,Conv2Former-T 比 SwinT-T 和 ConvNeXt-T 获得了约 2% AP 的改进。
语义分割实验结果
如下图11所示是不同骨干网络,以 UperNet 为分割头在 ADE20k 上的实验结果。对于不同尺度的模型,我们的Conv2Former可以优于Swin Transformer和ConvNeXt。
总结本文试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型。本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。最终的模型称为 Conv2Former,它通过只使用卷积和 Hadamard 积,简化了注意力机制。卷积调制操作是一种利用大核卷积的更有效的方法。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。
参考
^A ConvNet for the 2020s^HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions^Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs^More ConvNets in the 2020s: Scaling up Kernels Beyond 51 × 51 using Sparsity公众号后台回复“CNN100”,获取100 篇 CNN 必读的经典论文资源下载
极市干货
技术干货:数据可视化必须注意的30个小技巧总结|如何高效实现矩阵乘?万文长字带你从CUDA初学者的角度入门实操教程:Nvidia Jetson TX2使用TensorRT部署yolov5s模型|基于YOLOV5的数据集标注&训练,Windows/Linux/Jetson Nano多平台部署全流程#极市平台签约作者#
科技猛兽
知乎:科技猛兽
清华大学自动化系19级硕士
研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。
作品精选
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了用Pytorch轻松实现28个视觉Transformer,开源库 timm 了解一下!(附代码解读)轻量高效!清华智能计算实验室开源基于PyTorch的视频 (图片) 去模糊框架SimDeblur投稿方式:添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿△长按添加极市平台小编觉得有用麻烦给个在看啦~标签:
-
2022-09-15 14:23:06
杨莉娜租借加盟巴黎圣日耳曼 与姆巴佩梅西拉莫斯一起共事<
北京时间9月13日下午,法甲女足俱乐部巴黎圣日耳曼正式官宣中国女足国脚杨莉娜完成租借加盟,合同期至2023年6月。杨莉娜成为目前国家队中第
-
2022-02-07 14:57:45
奇迹!绝杀!女足亚洲杯逆转夺冠!<
刚刚,中国女足上演逆转绝杀奇迹!她们在亚洲杯决赛中3:2力克韩国队,时隔16年再夺亚洲杯冠军!
-
2022-02-07 14:57:45
中国政府与阿根廷共和国政府签署共建“一带一路”谅解备忘录<
新华社北京2月6日电(记者安蓓)国家发展改革委6日称,国家发展改革委主任何立峰与阿根廷外交、国际贸易和宗教事
-
2022-02-07 14:57:43
中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明(全文)<
新华社北京2月6日电中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明一、应中方邀请,阿根廷
-
2022-02-07 14:57:40
春节假期国内旅游出游2.51亿人次<
春节遇冬奥,旅游年味浓。根据文化和旅游部数据中心测算,2022年春节假期7天,全国国内旅游出游2 51亿人次,同比
-
2022-12-29 10:25:54
超越ConvNeXt!Transformer 风格的卷积网络视觉基线模型Conv2Former
↑点击蓝字关注极市平台作者丨科技猛兽编辑丨极市平台极市导读本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率
-
2022-12-28 17:59:23
极市直播预告丨NeurIPS 2022 Oral-张博航:如何从模型层面获得对抗鲁棒性保证?
↑点击蓝字关注极市平台|极市线上分享第107期|一直以来,为让大家更好地了解学界业界优秀的论文和工作,极市已邀请了超过100位技术大咖嘉宾,
-
2022-12-28 15:18:35
*ST御银(002177)12月28日主力资金净卖出819.83万元
截至2022年12月28日收盘,*ST御银(002177)报收于2 93元,下跌4 25%,换手率2 12%,成交量16 12万手,成交额4774 33万元。1
-
2022-12-28 10:57:30
环球快报:佛山高明领骏住房租赁6231万元竞得佛山高明西江产业新城商用地
观点网讯:12月28日,佛山市高明区领骏住房租赁有限公司以底价6230 78万元斩获佛山高明西江产业新城泰华路以西、平山大道以南的商地。观点新媒
-
2022-12-28 07:59:41
【全球热闻】多次对簿公堂后和解 李子柒距离回归还有多远?
中新网12月28日电(中新财经左雨晴)沉寂了一年半之久,李子柒与微念之间的“柴米油盐酱醋茶”终于尘埃落定。27日,微念发布公告称,微念与李...
-
2022-12-27 20:15:12
蔚来-SW(09866)发布SUV EC7和全新ES8
智通财经APP讯,蔚来-SW公布,公司于2022年12月24日在中国合肥举行NIODay2022,发布智能电动旗舰轿跑SUVEC7和全场景智能电动旗舰SUV全新ES8。
-
2022-12-27 16:06:17
行政诉讼法修正草案优化中级人民法院一审管辖规定-观天下
行政诉讼法修正草案27日提请十三届全国人大常委会第三十八次会议初次审议。草案优化中级人民法院一审管辖规定,完善行政申请再审管辖规定。最
-
2022-12-27 11:15:02
渤钻四公司BHDC-34队哈法亚进尺率先上2万米
中国石油网消息(记者黄延兵通讯员尚萍甘文杰)12月18日,渤海钻探钻井四公司伊拉克哈法亚市场BHDC-34钻井队承钻的HF0546-K0546H2井顺利钻进至
-
2022-12-27 05:40:58
裕兴股份拟募资7亿扩充产能补充流动资金
功能性聚酯薄膜制造商裕兴股份拟加码主业,扩充产能。12月26日晚间,裕兴股份公告,拟定增募资不超过7亿元,用于扩建年产25万吨功能聚酯薄膜项
-
2022-12-26 17:28:14
天天看热讯:会通股份: 中信证券股份有限公司关于会通新材料股份有限公司使用银行承兑汇票支付募投项目所需资金并以募集资金等额置换的核查意见
中信证券股份有限公司 关于会通新材料股份有限公司 使用银行承兑汇票支付募投项目所需资金
-
2022-12-26 12:22:30
每日视讯:布克因腹股沟伤病退出今日比赛 仅出战了首节前4分钟
今日进行的NBA圣诞大战,太阳客场对阵掘金的比赛正在进行中。
-
2022-12-26 06:38:14
先看看状元归属再说?名记:若未与76人续约 哈登认真考虑重返火箭 消息
北京时间12月26日,据名记Woj报道,消息人士透露,哈登会认真考虑休赛期重返火箭。
-
2022-12-25 13:46:31
多地增绩效工资发补助关爱一线抗疫医护人员
为进一步加强对一线医务人员的关爱,近期,包括浙江、新疆、江苏南京等多地出台了一系列加强对一线医务人员关心关爱的政策。
-
2022-12-24 15:13:56
小袋鼠贷款逾期8个月不还会影响征信吗 全球速看料
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后上报给征信机构,因为有些借贷机构可
-
2022-12-23 21:42:59
全球即时看!*ST顺利: 独立董事对第九届董事会2022年第六次临时会议相关事项的独立意见
*ST顺利:独立董事对第九届董事会2022年第六次临时会议相关事项的独立意见
-
2022-12-23 15:56:47
资讯推荐:华鑫股份(600621.SH):拟定增募资不超40亿元 控股股东方面参与认购
格隆汇12月23日丨华鑫股份(600621)(600621 SH)披露2022年度非公开发行A股股票预案,发行对象为包括控股股东仪电集团及其全资子公司华鑫置业在
-
2022-12-23 10:08:31
新时代新征程新伟业·党的二十大精神在基层丨产业带动农民增收“数字”点亮乡村生活
“今年我家养了2000多只鸡,能卖20来万块。联通帮我们找到了一个增收的好门路。”最近,河北省张家口市赤城县卧龙海村迎来一件“大事儿”—...
-
2022-12-22 22:42:40
天天速讯:博彩公司遭黑客攻击,67000账户被窃,损失超30万!公司称登录信息由第三方泄露
大数据文摘出品作者:Caleb12月19日,卡塔尔世界杯落幕,总决赛可以说是让观众一直紧绷神经。梅西带领的阿根廷队与卫冕冠军法国队战成三比三平
-
2022-12-22 22:26:45
拉卡拉净利骤降52%市值蒸发284亿 核心支付业务毛利率连续三年半下滑
作为A股第三方支付第一股,拉卡拉(300773 SZ)光环不再。截至12月2日收盘,拉卡拉二级市场股价15 23元 股,较其上市初期最高点累计下跌85%,
-
2022-12-22 15:46:12
晨光新材(605399.SH):持股5.18%股东皓景博瑞拟减持不超0.75%股份
格隆汇12月22日丨晨光新材公布,持股5 18%的股东皓景博瑞拟自该公告披露之日起3个交易日后的6个月内,通过大宗交易方式减持公司股份不超过不超
-
2022-12-22 10:29:05
金鹰重工董秘回复:我公司是国铁集团旗下唯一轨道工程装备制造企业,长期致力于铁路工程机械的研究和开发
金鹰重工(301048)12月22日在投资者关系平台上答复了投资者关心的问题。投资者:请问公司今年已完成交付的高铁项目有哪些?截止目前订单情况如何
-
2022-12-21 20:17:40
事关婴幼儿照护、居家养老……11部门联合发文部署这件事_天天微速讯
近日,国家发展改革委等11部门印发《关于推动家政进社区的指导意见》。看要点梳理↓发展目标到2023年底,促进家政服务业提质扩容“领跑者”...
-
2022-12-07 19:03:21
华熙生物: 华熙生物第二届监事会第四次会议决议公告
证券代码:688363 证券简称:华熙生物 公告编号:2022-041 华熙生物科技股
-
2022-12-06 17:30:26
合力泰董秘回复:兴泰公司主要生产、销售电子纸模组
合力泰(002217)12月06日在投资者关系平台上答复了投资者关心的问题。投资者:公司下面的兴泰有做指纹模组吗?量产出货给客户了吗合力泰董秘:
-
2022-09-15 14:23:06
杨莉娜租借加盟巴黎圣日耳曼 与姆巴佩梅西拉莫斯一起共事
北京时间9月13日下午,法甲女足俱乐部巴黎圣日耳曼正式官宣中国女足国脚杨莉娜完成租借加盟,合同期至2023年6月。杨莉娜成为目前国家队中第
-
2022-08-08 11:02:27
天津建高质量培训体系 全面提高劳动者素质
日前,市人社局再次就《天津市职业技能培训规定》草案召开意见征求和专家论证座谈会,汇聚社会各界智慧,划出公众参与的同心圆,来自不同领
-
2022-07-08 17:14:31
奥比中光被称为“3D视觉第一股” 南山辖区上市企业数量达到了195家
聚焦3D感知芯片研发的奥比中光科技集团股份有限公司7月7日登陆科创板,该公司研发了中国第一颗3D感知芯片,被称为3D视觉第一股。至此,南山
-
2022-05-20 16:38:46
A股指数表现波澜不惊 光伏逆变器指数累计涨幅已达11.37%
近日,A股指数表现波澜不惊,板块个股却是精彩纷呈。作为热门赛道的一个分支,光伏板块近日持续反弹,吸金不少。本周四个交易日,光伏逆变
-
2022-05-20 16:38:09
以数字化、智能化服务提升客户体验 信泰保险高质量转型再出发
2022年5月18日,信泰保险公司创立15周年之际,信泰保险全面升级品牌标识。本次升级后,信泰保险将以新的品牌形象和品牌理念,迈上下一个15
-
2022-05-20 16:37:01
四部门推动中小学竞赛“双减” 保证竞赛的科学性和权威性
竞赛给学生带来的过重负担如何减除?3月15日,教育部、中央编办、民政部和市场监管总局联合印发了新版《面向中小学生的全国性竞赛活动管理办