【重磅整理】ECCV2020亮点摘要

2020年欧洲计算机视觉会议(ECCV)于8月23日至28日在线举行。本次会议共接收1360篇论文,包括104场orals,160场spotlights以及1096篇posters,共进行有45场workshops和16场tutorials。就像其他ML和CV会议一样,大量论文无法完全了解。因此就本次会议,进行了类似CVPR2020 post 的总结,以便读者可以从中了解会议总体趋势。因此,本文会对这次会议进行概括,并列出一些我觉得有趣、重要的论文。

首先,会议相关的链接包括:

目标是用有限对图像与说明文字来学习视觉表达,那么如何制定训练目标,来使得图像和它们的说明文字之间产生有效的联系呢?参考 BERT 模型随机掩盖 15% 的输入字符,让模型根据 transformer 模型的编码器输出重建整个句子,该方法也随机对图像的文字说明进行掩码操作。其提出的方法称作 image-conditioned masked language modeling (ICMLM),其中图像信息用于重建被掩码的字符以及对应的说明文字。为了达到这个目的,作者们提出了两个多模结构,(1) ICMLM tfm,使用一个卷积神经网络对原始图像进行编码得到图像特征,接着,经过BERT处理的被掩码的图像说明、原始图像说明以及图像特征被级联起来并通过一个 transformer 编码器,最终输出一个多模嵌入特征用于预估被掩码的字符。(2) ICMLM att+fc,先计算图像说明与图像之间的相似度,接着经过一个成对注意力模块来整合图像与文字说明之间的信息。得到的特征会经过池化后再过一个全连接层来预测被掩码的字符。

这篇论文则借助于不同尺寸的网络与输入图像,以寻求准确度与计算效率的平衡。如上图所示,在一次训练迭代过程中,会采样四个子网络,其中一个是完整的网络,还有三个具有不同宽度的子网络。完整的网络使用原始大小的图像数据与标签进行交叉熵损失训练,其余三个则随机输入不同尺度的图像(原始图像或是尺度下采样后的图像),并使用他们的输出与完整网络的输出之间的KL散度进行监督训练(也就是蒸馏损失)。这样一来,每个子网络就能够学会适应不同网络尺寸与输入大小的多尺度表达。在部署过程中,对于一个给定的资源约束场景,即可选择最优的网络尺寸与输入大小组合用于推理。

通过将数据增广视作一种填充原始数据缺失点的方法,该算法的目标是利用对抗学习来最小化增广数据的和原始数据之间的分布距离。为了能够学习最优的增广策略,数据增广流程需要对增广参数可微。对于使用给定增广方法的概率,作者们使用一个由伯努利分布采样得到的随机变量来表示,并使用 Gumbel trick 进行优化,增广的强度通过直接估计来近似,增广方法的组合则使用one-hot向量的组合来学习。

(译者注:有关 Flow-based Models ,可以参看李宏毅的讲解视频,非常有趣。)

卷积神经网络(CNN)成功的一个关键因素就在于其学习语义目标各个部件判别性特征表达的能力。然而,CNN仍旧缺乏处理不同空间变换的能力,例如尺度、视点以及类内变化。近期的一些方法,例如 spatial transformer networks (STNs) 试图通过先对空间分布不同的特征图变形,使其变为标准形式来抑制图像的空间变换,接着,再对这些标准化后的特征做分类。但是这样的方法对所有的特征通道做相同的变形操作,却没有考虑到各个特征通道会表征不同的语义组件,将其变换为标准形式也就需要不同的空间变换操作。

现有的图像分类方法往往基于闭集假设,也就是说,训练集中涵盖了测试阶段可能出现的所有类别。但是这种假设很明显不现实,哪怕是像ImageNet这样拥有1000类物品的大规模数据集,也不可能包含现实世界中所有可能的类别。如此一来,自然地出现了开集分类,其试图通过假设测试阶段包含见过的以及没有见过的类别来解决这个问题。

使用有界p范式球攻击方式,即对于一个给定输入样本,在给定半径的p范式球内找到对抗扰动。接着,将计算得到的总损失变化视作网络的脆弱度。作者们展示了双任务训练下网络鲁棒性的提升(两个任务可从以下任务中随机选择:分割、深度估计、法向量估计、reshading、输入重建、2D或3D关键点预测等等)。在单任务攻击(即根据其中一个输出计算的扰动)以及多任务攻击(即根据所有输出计算的对应扰动中的最大扰动)下可以看到网络的鲁棒性提升。作者同时在理论上证明了这样的多任务鲁棒性仅在多个任务具有相关性的情况下可以达到。

深度度量学习旨在优化一个嵌入函数,使得经过该函数映射后语义相似的图像会处在高维空间中相对较近的位置,而语义不相似的图像则使其映射后的距离较远。一种较为常用的学习该映射的方法是根据图像的三元组定义一个损失函数,这个三元组包含一张锚图像,一张与锚图像同一类别的正样本图像,以及一张与锚图像不同类别的负样本图像。接着,在优化过程中,模型会在锚图像与负样本图像的距离小于锚图像与正样本图像的距离时给予惩罚。然而,在优化期间,大多数候选三元组都已然达到了标准,即锚图像与正样本的距离小于其与负样本的距离,这也就使得这些三元组对训练几乎起不到太大作用,很冗余。另一方面,使用最困难的负样本进行优化又会导致在训练初期陷入局部最优。这是由于在这种情况下,根据余弦相似度(即归一化特征向量的点积结果)计算得到的锚-负样本的相似度比锚-正样本的相似度大很多。

本节中提供的统计数据摘自官方的Opening&Awards演示文稿。

免责声明:本文仅代表个人观点,并不代表ECCV 2020论文及主题。欢迎任何反馈!

在预训练(上游)阶段,BiT 包含以下几点:

识别,检测,分割以及姿态估计

分组卷积首次出现还要追溯到AlexNet,当时分组的目的是为了加速训练,之后,这一技术被应用于轻量级CNN网络设计中,如 MobileNet和 ShuffleNet 。分组卷积将卷积层的输入和输出沿着通道维等量切分为多个部分(或者说是组),接着对每个组单独做卷积操作。因此,若是切分为 G 组,那么运算量也就减少了 G 倍。然而,该篇论文的作者们指出现有的分组卷积有两个主要缺陷:(1) 现有分组卷积稀疏化了神经网络的连接,致使卷积操作的特征提取于表达能力明显弱化;(2) 现有分组卷积对输入通道做固定的分组操作,忽视了各个输入之间的相关性。

DETR 是基于编码-解码的 Transformer 结构构造的。整个模型包含三大组件:卷积神经网络特征提取器,编码器,以及解码器。一张给定图像会先经过特征提取器以获取图像特征。接着,使用不同频率的sin函数生成的位置编码信息会加到图像特征上以维护图像的二维结构信息。得到的新特征会经过 Transformer 的编码器来整合特征信息并将不同的目标分开来。到了解码阶段,目标查询向量会与编码向量一同经过解码器并产生最终的输出特征向量。这些查询向量是一组固定的可学习的嵌入向量(embedding),刚开始随机初始化,在训练过程中进行优化,评测阶段则保持不变,而查询向量的数量也决定了该检测器能够检测的目标数量上界。最终,输出的特征向量会经过一个共享的全连接层来预测每个查询对应的类别与边界框。为了计算损失并训练该模型,作者使用了 匈牙利算法 将输出与标注一一匹配。

为了解决这个问题,论文作者们提出了使用一个温度参数控制的sigmoid函数来代替海维赛德阶跃函数,使得排序可微,并可作为损失函数来端到端地优化网络模型。相较于三元组损失函数,smooth-AP 损失函数优化的是一个排序损失,而三元组损失则是在间接地进行优化。

在本篇论文中,作者们提出了使用语义分割网络中的 FCN 来进行实例分割。为了进行有效的实例分割,FCN 需要两种信息,一是表观信息用于目标分类,二是位置信息用于区分同一类别的不同目标。该论文提出的网络结构名为 CondInst (用于实例分割的条件卷积),是基于 CondConv 以及 HyperNetworks 构建而成的。对于每个实例,一个子网络会根绝每个实例所在的中心区域生成掩膜 FCN 头网络的权重,用于预估给定实例的掩膜。具体来收,如上图所示,该网络中,在特征图的多个不同尺度下包含多个掩膜头。每个头网络在预定义的位置处预测给定实例的类别,并生成掩膜 FCN 头网络的权重。接着,就由各个头网络使用对应的参数进行掩膜预估。

在本篇论文中,作者们试图进一步解析 non-local 模块,发现其局限性,并提出了一个升级版本。首先,作者们将像素 i (也就是所谓的 key 像素)与像素 j (也就是所谓的 query 像素)之间的相似度计算为两项之和,其中一项是成对项,形式上就是一个白化后的点积结果,描述了 query 像素与 key 像素之间的关系,另一项则是一个一元项,表征了给定的 key 像素对哪个 query 像素影响最大。接着,为了搞清楚每一项的作用,他们分别只用其中一项进行训练,并发现成对项负责类别信息,一元项负责边界信息。然而,通过对 non-local 模块的梯度进行分析,作者们发现当上述两项结合起来应用于注意力操作时,他们的梯度相乘了。这也就导致,如果其中一项的梯度为0,那么另一个项不为0的梯度对网络的训练也起不到作用了。为了解决这个问题,作者们提出了一个 non-local 模块的分解版,使得这两项能够分开来优化。

对于非常庞大的数据集,由于 Batch Normalization (BN) 含有训练集的统计数据,使得测试阶段存在训练/测试不一致的问题,训练损失虽然被正确回传并优化,然而验证损失则很不稳定。同时,BN 对批量大小很敏感。为了解决这个问题,BiT 转而使用 Group Norm 以及  Weight Norm。 像 ResNet50 这样的小模型并不会从大规模数据集上获益,因此模型需要与数据集的大小匹配。

在这篇论文中,作者们使用流模型来解决这个开集分类问题。流方法通过最大似然估计,以一种无监督训练的方式拟合训练样本的概率分布。因此,流模型可以用于估计每个样本的概率密度。当输入样本的概率密度很大的时候,那么其很有可能是一个已知样本,而离群点的概率密度则较小。之前的研究方法都是基于流模型搭建一个分类器,而该论文的作者们让分类器和流模型学习一个联合嵌入向量,因为仅仅由流模型学到的嵌入向量很可能不具有充足的判别特征,使得分类效果很差。如上图所示,在训练期间,图像会由一个编码器网络映射为一个隐特征,接着这个编码特征会同时被送入分类器与流模型中,分类器端使用交叉熵损失进行监督,流模型端则负责概率密度估计。整个网络架构是可端到端训练的。在测试阶段,每张图像的 logP(x) 都会由前传得到,并与训练集样本的最低 logP(x) 进行比较。如果其值大于该阈值,则送入分类器判断其具体类别,否则就视为未见过的样本。

在神经网络优化过程中使用类似于均值与方差这样的二阶统计数据来对网络激活值或是权重做形式标准化已然成为神经网络训练过程中极为重要的一环,例如常用的 BatchNorm 和 weight norm。相较于使用额外的归一化模块作用于激活值或是权重,梯度中心化(Gradient Centralization,简称GC)直接作用于梯度,使得梯度向量的均值为0,该操作可以平滑并加速神经网络的训练过程,甚至提升模型的泛化性能。

近期在自监督图像表征学习领域的进步在下游任务中展现出了令人印象深刻的效果。尽管视频的多模表征学习多有发展,然而不使用其他任何类似于文本与语音的模态信息,仅仅使用视频流进行自监督学习还未有所发展。尽管视频的时域信息为自监督地训练一个根据过去帧预测未来帧的模型提供了充足的监督信号,这个任务仍旧颇具难度,因为真正的未来是不确定的,给定一个时间步长,未来的状态是有多种可能的(举个例子,当现在的动作是“打高尔夫”,那么下一帧所在的位置可能是手,也有可能是高尔夫俱乐部)。

为了适应性地选择最相关的输入通道构成组并保持原始网络的完整结构,作者们提出了动态组卷积(DGC)。DGC包含两个头网络,每个头网络根据输入为每个通道生成一个显著性分数。分数较低的通道会被移除。接着,对余下的特征层进行普通卷积并得到输出。最后,各个头网络的输出会在通道为级联起来并随机调换通道位置。

实例分割仍旧是计算机视觉领域颇具挑战性的任务之一,它需要对给定图像中每个可见目标打上一个逐像素的掩膜(mask)以及一个类别标签。主流方法就是大名鼎鼎的 Mask R-CNN ,它包含两个步骤,第一步是用目标检测器 Faster R-CNN 来生成每个实例的边界框,接着,对于每个检测到的实例,使用 ROI Align 将感兴趣区域从输出特征图中裁剪出来并缩放为同一分辨率大小,接着,将其送入一个掩膜头网络(mask head),该网络是一个小型全卷积网络,用以预测分割掩膜。然而,本论文作者指出了该架构的以下缺陷:(1) ROI Align 很可能会引入不相关的特征信息,如背景或是其他实例;(2) 缩放操作限制了实例分割的分辨率;(3) 掩膜头网络需要堆叠多个 3×3 卷积来产生足够大的感受野以生成掩膜,这极大得增加了掩膜头的计算量。

可以看到,与2018年会议相比,论文提交量增加了超过一倍,与CVPR 2020的论文数量相当。随之相应,审稿人数和涉及领域也相应增加。

不出所料,大多数接受论文集中于深度学习、识别、检测和理解相关主题。同时可以发现,研究人员对诸如无监督学习的标签有效方法和低视野等领域的兴趣显著增加,同样的结果在CVPR2020中也有所体现。

在本篇论文中, 作者们回顾了迁移学习的简单范式:首先在一个大规模标记数据集(例如 JFT-300M 以及 ImageNet-21k)上进行预训练,接着在目标任务上精调预训练权重,从而减少目标任务的数据需求量以及优化时间。作者们提出的迁移学习框架称为 BiT (Big Transfer),并且包含大量构建有效模型的必需组件,使其能够借助于大规模数据集学习到通用的、可迁移的特征表达。

在大规模标注数据集上训练深度模型不仅能够让手头的任务获得优良表现,也能使得模型学到对于下游任务非常有用的特征表达。然而,我们是否可以在不使用如此昂贵且细粒度的标注数据的情况下获得类似的特征表达能力呢?本篇论文研究了使用带噪声标注(在本篇论文中是图像的文字说明)进行弱监督预训练。

作者们展示了三元组损失的标准实现中使用困难样本挖掘的问题所在。具体来说,(1) 在梯度计算中,如果归一化不被考虑的话,大部分梯度会丢失掉;(2) 如果两张不同类别的图像在嵌入空间中的距离非常接近,那么损失的梯度很可能将其拉得更近而非将其分得更开。为了解决这个问题,作者们不再像原始三元组损失那样尽可能地将锚-正样本对拉得更近以便将其更加紧密地聚类,相反,作者们会避开更新锚-正样本对的损失梯度,也就使得某一类的实例构成的聚类不会过于紧致。这个方法仅仅集中于直接将困难负样本拉离锚图像。

数据增广(DA)已然变成了深度学习方法中极为重要且不可或缺的一部分,而近期的一些研究工作表明搜索算法得到的数据增广策略(例如 AutoAugment,Fast AutoAugment 以及 RandAugment)优于标准的增强增广方法。这类算法预先定义好所有可能的数据变换集合,比如几何变换(如旋转)或是色彩增强变换(如负感化),旨在找到最优的数据增广参数,比如增广的幅度、数据增广的概率以及不同数据增广手段的组合数量,如下方左图所示。最优策略是由一个双优化循环学习得到的,以便使得一个使用给定策略训练的卷积神经网络的验证误差最小。然而,这样的优化方法颇具弊端,可能的数据增广策略搜索空间过于庞大,需要复杂的搜索方法,而且单次数据增广策略的优化就需要网络做完整训练。为了解决这个问题,这篇论文的作者提出了使用基于梯度优化的原始图像与增广图像密度匹配优化策略。

图像检索旨在一个图像集合中检索与查询图像相同类别的图像数据。与分类任务不同,图像检索任务中,测试图像的类别在训练过程中都已经见到过了,测试图像的类别可能会很少见,但是我们仍需在图像集合中找到与之相似的图像,这也就是一个开集问题。图像检索的一般流程包括使用CNN特征提取器对检索图像、以及整个图像集合提取其各自的嵌入向量,接着计算两两之间的余弦相似度,最后根据相似度进行排序。特征提取器的训练目标就是要达到良好的排序效果(即属于同一类别的图像相似度应尽可能高)。而网络的性能则是使用 Average Precision (AP) 来度量的,该指标计算每个正确检索结果的名次与其在整个图像集合中的名次之比并对其求和。计算一张给定图像的名次需要应用一个阈值化操作,该操作用到了海维赛德阶跃函数,使得其不可微分,所以我们无法直接使用最终排名来端到端地优化模型。

给定计算得到的梯度,GC首先如上图所示计算梯度向量的均值,接着减去对应的均值。数学形式上,对于一个权重向量 Wi,其对应的梯度为∇Wi(i=1,2,…,N),则GC操作可定义为:

使用 SGD 优化器,无需层冻结、dropout、L2正则化或任何梯度适应  。别忘了把最后的预测层的权重初始化为0。 无需将所有输入缩放为同一大小,如 224 。在训练期间,输入图像会随机缩放并剪切为一个正方形,并随机水平翻转。在测试阶段,图像则会放缩为同一固定大小。 尽管对于数据量充足的大规模数据集预训练来说,mixup 并没有多大用处,但是 BiT 发现 mixup 正则化对下游任务里中等大小的数据集训练非常有用。

半监督学习,无监督学习,迁移学习,表征学习以及小样本学习

Non-local 模块使用注意力机制,对长距离像素之间的依存关系进行建模,并已经广泛应用于诸多计算机视觉任务,例如目标检测、语义分割以及视频动作识别。

目标检测的任务即在给定图像中对可见物体进行定位并分类。目前广泛使用的目标检测框架都含有一系列预先定义的方框(也就是称作 anchors 或是 region proposals 的几何先验框),各个框中的图像内容将由网络进行分类,在这之后,还会进一步回归来对边界框做调整,最后,交由后处理去除重复的检测结果。然而,由于引入了后处理,整个网络并不能像其他计算机视觉任务一样进行端到端的训练。而在这篇文章中,作者们提出了一个新的目标检测框架,叫做 DETR (DEtection TRansformer) ,这是一个可完全端到端训练的网络模型,且无需任何几何先验知识。下图是 DETR 与 Faster R-CNN 计算流程的对比(该图是从作者们的展示文稿中获取的),强调了 DETR 整体的自然性。

为了解决这个问题,该篇论文引入了 Volumetric transformer network (VTN),如上图所示,一个可学习的模块会对每个通道的每个像素位置预测一个形变变换,用于将中间的 CNN 特征变换为一个空间位置无关的标准形式。VTN是一个编码器-解码器结构的网络,其中的网络模块用于在不同的特征图通道之间传递信息,以估计不同语义组件之间的依赖关系。

传统神经网络只有在计算资源足够的情况下才能够使用,如果计算资源无法满足,模型就无法使用。然而,这就使得实际应用中模型的使用颇为受限。比方说,如果模型要在手机上进行前向推理,计算资源会随手机负载以及电量而变化。一个简单的解决方案就是在设备端保存多个不同大小尺寸的模型,并在不同计算资源情况下使用对应的模型。但是如此一来就会占据大量内存空间,并且也无法做到适用于不同的计算资源。近期类似于 S-Net 与 US-Net 的网络在训练期间采样不同大小的子网络,使得网络在部署阶段可以调整为不同的网络宽度(也就是通道数量)。但是在非常有限的计算资源下,这类网络的性能显著下降。

对研究机构进行统计,其结果与今年的ICML相似:排名第一的Google有180位作者,其次是香港中文大学的140位作者,第三是北京大学的110位作者。

欧亚经济联盟成立于2015年,成员国包括俄罗斯、哈萨克斯坦、白俄罗斯、吉尔吉斯斯坦和亚美尼亚。联盟的目标是在2025年前实现联盟内部商品、服务、资本和劳动力自由流动,并推行协调一致的经济政策。当天(12月11日)举行的2020年欧亚经济委员会最高理事会会议同意接收乌兹别克斯坦和古巴为欧亚经济联盟观察员国。(总台记者 宋瑶)

对于(下游)目标任务,BiT 提出以下几点:

深度神经网络的一大主要缺陷就在于它们对于对抗攻击来说异常脆弱,在输入图像中引入极为微小且不可见的扰动就会导致完全错误的输出,甚至输入的表观肉眼看来几乎完全一致。近些年,研究人员已从多个层面深入探讨神经网络的对抗鲁棒性,从输入数据(例如使用无标签数据以及对抗训练)到模型本身(使用正则化,例如 Parseval Networks),但是网络模型的输出还未被用于提升模型鲁棒性。在这篇论文中,作者们研究了拥有多个输出的多任务学习模型在对抗鲁棒性上的效果。鉴于越来越多的机器学习应用需要模型能够同时一次性完成多个任务,这样的设置在实际任务中是有用的。

后续章节我们将基于研究主题简要介绍一些论文。