语音情感计算及多模态交互研究团队荣获CCF A类国际顶级会议IEEE/CVF CVPR 2020超大规模商品图像检测挑战赛冠军-中国科大新闻网

2020年6月14—19日期间，CCF A类国际顶级会议-国际计算机视觉与模式识别大会（以下简称IEEE/CVF CVPR 2020，图1）主办的超大规模商品图像检测挑战赛（以下称“RetailVision Detection Grand Challenge”）举行了颁奖典礼。由来自语音及语言信息处理国家工程实验室语音情感计算及多模态交互研究室和中国科大信息学院自动化系组成的参赛团队（以下简称USTC-NELSLIP参赛团队）在挑战赛中斩获第一名的佳绩（图2）。团队工作由於俊副教授等指导研究生谢皓年、谢国辰和李梦岩完成。

图1 IEEE/CVF CVPR 2020。

图2 获奖证书。

IEEE/CVF CVPR 由电气与电子工程师协会（IEEE）和计算机视觉基金会（Computer Vision Foundation：CVF）共同主办，是计算机视觉和模式识别领域最重要和权威的国际顶级会议，根据最新的谷歌学术影响因子统计，IEEE/CVF CVPR在泛人工智能（AI）领域排名第一。

计算机视觉和机器学习的快速发展对零售业造成了巨大的冲击，除了带来在线购物的兴起，传统实体店也在尝试采用与人工智能相关的技术解决方案，针对这一现实场景，在该会议上举办的“RetailVision Detection Grand Challenge”。收集了来自世界各地的数千家超市，包括美国、欧洲和东亚门店的货架图片，其中每张图片平均都包含上百个密集的商品，此外竞赛数据集中图片的质量、拍摄角度以及光照条件也是不一致的，这也加大了该竞赛的难度。针对这些挑战，该竞赛要求参赛者设计一种可以准确定位图片中商品位置的算法。

图3 解决方案流程图。

在比赛中，中国科大团队首先对数据集进行分析，由于数据集中的物品非常密集并且普遍尺寸较小，团队采用Adaptive Training Sample Selection (ATSS)正负样本采样方法，该方法可以根据对象的统计特征自动选择正样本和负样本，能够有效提高模型对小目标检测的性能。

中国科大团队解决方案由两个模型组成，它们均基于ATSS的检测框架。两个模型分别采用了当前检测效果最好的两种Backbone网络：HRNet以及Res2Net。两种Backbone网络都能够提取多种尺度的特征并进行有效融合，可以为小尺度的目标提供丰富的语义特征，非常适用于小目标检测任务。为了充分利用不同Backbone网络的表达能力，团队首先使用两个模型分别进行检测，然后通过加权检测框融合技术（WBF）将其融合为最终检测的结果。此外，为了进一步提高检测精度，团队还采用了数据增强、多尺度训练、多尺度测试、余弦退火调整学习率等技术。

本次竞赛吸引了包括Google研究院、OPPO研究院、中国科大等国内外著名研究机构及高校的众多队伍参与，经过激烈角逐，USTC-NELSLIP参赛团队荣获了冠军（图4）。

图4 模型检测结果展示。

本次竞赛得到了国家自然科学基金联合基金、中国科学技术大学探索类基金等项目的支持。

（信息科学技术学院）