冠军方案之 宫颈癌风险智能诊断

freeopen [机器学习] #top1

赛道1冠军:deep-thinker 团队

赛道2冠军:LLLLC 队

任务说明

通过提供大规模经过专业医师标注的宫颈癌液基薄层细胞检测数据,选手能够提出并综合运用目标检测、深度学习等方法对宫颈癌细胞学异常鳞状上皮细胞进行定位以及对宫颈癌细胞学图片分类,提高模型检测的速度和精度,辅助医生进行诊断。

宫颈癌细胞学图片采用kfb格式,每张数据在20倍数字扫描仪下获取,大小300~400M。

初赛环节

宫颈癌细胞学图片800张,其中阳性图片500张,阴性图片300张。阳性图片会提供多个ROI区域,在ROI区域里面标注异常鳞状上皮细胞位置,阴性图片不包含异常鳞状上皮细胞,无标注。初赛讨论的异常鳞状上皮细胞主要包括四类:ASC-US(非典型鳞状细胞不能明确意义),LSIL(上皮内低度病变),ASC-H(非典型鳞状细胞倾向上皮细胞内高度),HSIL(上皮内高度病变)。(特别注明:阳性图片ROI区域之外不保证没有异常鳞状上皮细胞)

复赛环节

通过线上赛的方式,不允许选手下载数据,在线完成模型训练。

复赛训练集共提供1690张数据,其中1440张包含标注,250张没有标注。1440张有标注数据在ROI区域内标注了6类异常细胞,分别是阳性类别“ASC-H”、“ASC-US”、“HSIL”、“LSIL”,和阴性类别“Candida”、“Trichomonas”。250张没有标注数据表示未见上皮内细胞病变(NILM,可以理解为整图中不含任何前述六类细胞)。复赛测试集提供350张数据,给出ROI区域内6类异常细胞的位置、类别和概率

标注数据

一张宫颈癌细胞学图片kfb文件和对应一个标注json文件。标注json文件内容是一个list文件,里面记录了每个ROI区域的位置和异常鳞状上皮细胞的位置坐标(细胞所在矩形框的左上角坐标和矩形宽高)。类别roi表示感兴趣区域,pos表示异常鳞状上皮细胞。json标注文件示例如下:

[{"x": 33842, "y": 31905, "w": 101, "h": 106, "class": "pos"},
{"x": 31755, "y": 31016, "w": 4728, "h": 3696, "class": "roi"},
{"x": 32770, "y": 34121, "w": 84, "h": 71, "class": "pos"},
{"x": 13991, "y": 38929, "w": 131, "h": 115, "class": "pos"},
{"x": 9598, "y": 35063, "w": 5247, "h": 5407, "class": "roi"},
{"x": 25030, "y": 40115, "w": 250, "h": 173, "class": "pos"}]

赛道一: 算法赛道

用常规机器学习算法得出结果。

赛道二: VNNI模型量化

由于病理图像输入尺寸非常大,通常可以达到几G几十亿个像素,传统的NvidiaGPU无法容纳更多的全局图像信息,并且低效的推理过程。本次大赛将由intel支持,参赛者可以摆脱GPU显存限制,验证intel VNNI在超高分辨率病理图像上的工程效率。

评估指标

采用目标检测任务常用的mAP(mean Average Precision)指标作为本次宫颈癌肿瘤细胞检测的评测指标。我们采用两个IoU阈值(0.3,0.5)分别来计算AP,再综合平均作为最终的评测结果。

赛道二的评价指标,[email protected] 和 QPS,即精度和速度

数据分析

赛道一方案

没有采用常用的anchor-based模型,而是选择了非常契合本次赛题特点的anchor-free模型RepPoints。

RepPoints(ResNeXt101 + FPN + SE + DCN)

20210214113701

在线随机裁剪

随机选择输入图片中的一个目标,围绕目标随机切出边长在768~2048范围内的子图,然后缩放至边长为1024后,再送进网络。若目标边长超过了范围,则将目标与少量背景直接切出,再进行缩放。

RepPoints 模型

实验结果及模型融合

20210214120840

20210214120902

赛道二方案

数据增强

整体架构

基于OpenVINO的量化推理架构

openvino

模型结构:

主模型为RetinaNet , 用开源的 imageNet 预训练模型初始化。

比较两种类型的backbone:

模型训练

训练策略

超参数:

裁剪策略:

从ROI中裁剪1600 x 1600,在缩小到 800 x 800,这样可以增加标注框的数量,提高训练效率,在推理时也可以减少滑窗数量。

量化策略

OpenVINO的量化工具,该工具的后两个步骤是将一些INT8层切换回FP32,用于提升acc,实验中发现这两个步骤对我们的模型不起作用,精度损失仍然很大。通过经验化的方法,我们发现FPN部分对量化比较敏感,因此在量化时不对FPN部分进行量化。

校验选择300张训练图片,除FPN部分的卷积层外,其余卷积层全部量化。

模型推理

图片读取及预处理

前向执行

采用OpenVINO的异步模式

实验结果

map0.5: 33.54%, 推理总时长:24s。


评论区🔗

你可以在这里快速开始评论,如果 name 填写为 email 时,当有回复时,会收到邮件提醒( 注:邮件提醒功能还在制作中 ).


回应区🔗

你有对这篇文章写回应吗? 你可以在这里提交你的文章网址或者推特链接(文章或推特内容需要包含这篇文章的地址,点击这里了解 Webmention):

回应内容会被 webmention.io 机器人收集,另一位机器人会在24小时内把回应展示到这里, 也欢迎通过 邮件 Twitter DM 和我讨论。

Back to top