津南数字制造算法挑战赛复盘(一)—— 对决赛答辩队伍的观摩学习
-
在这里对比赛做一个详细的系列复盘,一个人的心智模型会决定一个人未来可能拥有的景观,作为一个学习者,我一直都在路上。
注:津南数字制造算法挑战赛链接 决赛答辩录像链接队伍一
使用unet网络
- 算法整体框架
- 输入大小影响得分
- 重点改进
- 原始unet使用U型结构、运用跳级连接,结合了高层和低层语义信息,可以很精细地回归图像边缘,在医疗图像中应用广泛。但本次比赛图像数据比较复杂,对复杂场景的前端特征提取能力较差。故优化特征提取模块,SE-ResNetXt-50,量化评估输入特征图。
- 传统语义分割每个像素点只对应一个标签,但比赛中重叠部分的像素点,会对应多标签。将交叉熵损失和softmax的回归方式,替换成dce loss,做成多个二分类的问题,回归五个mask,每个mask代表当前类/非当前类,并加入前景类/非前景类,对五个mask结果修正。
- 2016商汤psp-net,不同大小的卷积核卷积同一个特征图,concat输出,可理解为对特征图进行多尺度操作,GlobalAvgPooling可接受多尺度操作,替换全连接层,以减少网络参数。
- loss
注:dice为xi输出与yi真实标签的交集;bce为多个二分类
黄色区域占全图比重很小,乘3以平衡正负样本。未计算第三幅图中空隙带来的loss,实践表明这样可以使网络拟合更好。
- 数据增强
翻转+旋转+拼接(拼接idea很重要) - 扩展想法
队伍二
采用了可形变的空间金字塔感受野组合,基于Mask RCNN-FPN做出了改进。
- 由于限制品以不规则的形状出现,利用形变卷积有着更强的针对性;增加Mask分支的输入尺度同时直接增加感受野,可以提升分割精度;跨尺度多感受野级联,并通过DCN解决空洞卷积带来的不连续问题。
- 考虑到是否包含限制品的二分类准确度很高,加入Context Roi将全局特征叠加到每一个建议框,即把全图当成一个box;加入cascade rcnn提高bbox精度。
- 训练增强,对正负样本的处理,贴图+将二值mask处理为连续mask(高斯滤波)
- 处理样本不均衡
- 待优化
队伍三(hhh太搞笑了这个讲解者,接地气)
- 对数据增强处理地非常细致,第一步骤,扩增8倍数据,特别地加入45度旋转;
第二部分,根据x光的频率分布(!!),频率扩展,将频率峰值移到中间再拉伸;
第三部分,给正常图片加标签
- RoiAlign 、FPN ,FPN是处理小物体的必杀器,低层位置精度很高,信息不多,高层相反,用resnet增强底层信息。
- 三个检测器阈值
- 多尺度检测
队伍四(挖坑要填队hhh )
- 贴图,输入尺寸统一化的参数确定,HTC(最新模型)+cascade mask rcnn。
队伍五(就一个人,许元博士DAI-labor,成员简介把电脑写进去了噗)
- 对模型选取整体分析
unet相比mask rcnn,可直接实现分辨率1:1输出,端到端的训练输出。
- high lever clone,拼成高层信息输出,而且!输出mask二值图以及边缘信息
- 数据增强 x光应具有透视性
- 128128 切换到 256256到512*512微调技巧
- 如何选取最优?比起调整学习率的大小的繁琐性,其根据不同评估指标选取出几个最优模型。
- 半监督学习,利用预测出的结果加入训练
队伍六
- 数据分析
- attention module
队伍七
- 学习率调节,之前人脸识别分享会涛涛的learning rate scheduler
- 投票机制
- 算法整体框架