转载

谷歌研发人工智能眼科医生：用深度学习诊断预防失明

谷歌的人工智能已经比人类更好地掌握了古老的围棋、学会了识别人脸和口语、能帮你在网络中智能地筛选答案、甚至还能将你说的话翻译成上百种语言。而除了玩游戏和提供更便捷的智能手机应用之外，谷歌的人工智能还能做一些更为严肃的事，比如疾病诊断。实际上，谷歌已经严肃起来了。昨天，谷歌研究者在其 Research 博客上更新了一篇文章，介绍了他们在研究自动识别糖尿病性视网膜病变（diabetic retinopathy）上的最新进展，相关论文已经发表在美国医学协会杂志（Journal of the American Medical Association）上。

糖尿病性视网膜病变（diabetic retinopathy，以下简称 DR）是现在增长最快的致盲病因，全世界大概有 4.15 亿糖尿病患者存在失明风险。如果发现得早，这个疾病是可被治愈的；如果发现得晚，它就可能会导致不可逆转的失明。不幸的是，世界上很多糖尿病高发地区还缺乏有能力检测这种疾病的医学专家。我们相信机器学习能够帮助医生检查有需要的病人，尤其是那些尚未得到足够医疗服务的人群。

几年前，我们中一些人开始思考能不能使用谷歌的技术来改进 DR 的筛选过程，特别是能否借助机器学习和计算机视觉领域的最新进展来做到这一点。在今天发表于 JAMA 的论文《用于检测视网膜眼底照片中糖尿病性视网膜病变的深度学习算法的开发和验证（ Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs ）》中，我们提出了一种可以解读视网膜照片中 DR 发病迹象的深度学习算法，这有望能帮助资源有限地区的医生正确地筛选出更多的病人。

检测糖尿病性眼病的一种最常见的方法是让专科医生来检查眼后部的图像（图 1），然后再评估疾病是否存在及其严重程度。其中疾病的严重程度是由病变（如微动脉瘤、出血、硬渗出物等）的类型所确定的，这些症状表明了眼部之中的出血和液体渗出情况。然而解读这些照片需要经过专门的训练，而在世界上许多地区，还没有足够多合格的评估者能够筛选出存在发病风险的每个人。

图 1：为了筛选 DR 而拍摄的视网膜眼底照片样本。左侧的图像是健康的视网膜（A），而右边的图像则是可引起糖尿病性视网膜病变的视网膜（B），可以看到存在出血状况（红点）。

通过与印度和美国的医生紧密地合作，我们创建了一个包含 128,000 张图像的开发数据集，其中每一张图像都得到了 54 位眼科医生中 3 到 7 位医生的评估。这个数据集被用来训练了一个可以检测可诱发糖尿病性视网膜病变的病症的深度神经网络。然后我们在两个互相独立的包含大约 12,000 张图像的临床验证集上测试了该算法的表现，该测试所参考的标准是一个 7 或 8 人的美国认证眼科医生中大多数人的意见。为验证集所选择的眼科医生的意见与训练集原来的 54 位医生的意见表现出了高度的一致性。

谷歌研发人工智能眼科医生：用深度学习诊断预防失明

图 2显示了算法和眼科医生在包含9,963张图像的验证集上的判断表现。

图 2. 算法性能（黑色曲线）和八位眼科医生（彩色圆点）在由9963个图像组成的验证集上判断病变，即判断是否存在可引起的糖尿病性视网膜病变（中度或更严重的糖尿病性视网膜病变或可疑的糖尿病性黄斑水肿）。图上的黑色方块对应在高灵敏度和高特异性操作点中，算法的灵敏度和特异性。

结果显示我们算法的表现和眼科医师的诊断是处于同等水平的，例如，在图2中描述的验证集上，算法具有0.95的 F-Score 值（结合灵敏度和特异性的度量，最大值为1），算法的表现稍微高于我们所咨询的8个眼科医生F-Score中位数值（0.91）。

这些是十分令人振奋的结果，但仍然我们还有很多要做。首先，虽然使用常规质量度量评价我们的算法结果是鼓舞人心的，但我们正在与视网膜专家合作去定义更强健能量化临床表现的参考标准。此外，我们在论文中证明解释2D眼底照片只是诊断糖尿病性视网膜病变多步骤过程的一部分。在某些情况下，医生需要使用3D成像技术，光学相干断层扫描（OCT），详细检查视网膜的各个层。将机器学习应用于这种3D成像模式已经在DeepMind的带领下进行了。在将来，这两种互补方法可以一起使用，以帮助医生诊断更多的眼科疾病。

高精度自动糖尿病性视网膜病变（DR）扫描方法有很大的潜力，因为它能帮助医生评估更多的患者，并且迅速地将需要帮助的人匹配给专科医生。我们正在与医生、研究员一起研究世界各地的扫描全过程，并希望我们可以用最有利的方式将我们的方法整合到临床工作流程中。最后，我们正与美国食品药品监督管理局（FDA）还有其他监管机构合作，以进一步评估这些技术在临床中的表现。

考虑到最近深度学习有许多进展，我们希望我们的研究只是众多激发兴趣的例子之一，希望它证明机器学习能够更广泛地帮助解决医疗成像，甚至是更广泛的医疗保健问题。

论文：用于检测视网膜眼底照片中糖尿病性视网膜病变的深度学习算法的开发和验证（Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs）

摘要：

重要性：深度学习是指能让算法通过学习能展现出预期行为的大量样本以进行自我编程的一系列方法，这让我们可以不再需要特定一些明确的规则。这些方法在医学成像上的应用还需要进一步的评估和验证。

目标：为了应用深度学习来创建一种能通过视网膜眼底照片自动检测糖尿病性视网膜病和糖尿病性黄斑水肿的算法。

设计和配置：我们使用了一种被称为深度卷积神经网络的专为图像分类而优化过的神经网络类型，该网络使用 128175 张视网膜图像的可追溯的开发数据集进行了训练，其中的每一张图像都针对糖尿病性视网膜病变、糖尿病性黄斑水肿和图像等级进行了 3 到 7 次评估，评估者来自 54 个美国有执照的眼科医生和眼科学资深专家在 2015 年 5 月到 12 月之间所作出的评估。所得到的算法使用 2016 年 1 月和 2 月的两个互相独立的数据集进行了验证，其中的每张图像都至少经过了 7 位美国认证的眼科医生的高 intragrader 一致性的评估。

揭示深度学习训练的算法

主要结果和措施：这种用于检测可发病的糖尿病性视网膜病（RDR/referable diabetic retinopathy，即中度和更糟糕的糖尿病性视网膜病）、可发病的糖尿病性黄斑水肿或同时两者的算法的灵敏度（sensitivity）和特异性（specificity）是基于眼科专家小组中大多数决策的参考标准。该算法在为两个开发集所选择的 2 个操作点上进行了评估，其中一个是为高特异性选择的，另一个则是为高灵敏度选择的。

结果：EyePACS-1 数据集包含了来自 4997 位病人（平均年龄 54.4 岁）的 9963 张图像；其中 62.2% 的女性；普遍是 RDR，683/8878 完全可分级的图像（占 7.8%）。Messidor-2 数据集有来自 874 位病人（平均年龄 57.6 岁）的 1748 ；42.6% 女性；普遍是 RDR，254/1745完全可分级的图像（占 14.6%）。为了检测 RDR，该算法在 EyePACS-1 上的受试者操作曲线（ ROC 曲线）下的面积为 0.991(95% CI, 0.988-0.993)，在 Messidor-2 上的 ROC 曲线下的面积为 0.990 (95% CI, 0.986-0.995)。使用第一个高特异性的操作切入点（operating cut point），对于 EyePACS-1 ，灵敏度为 90.3% (95% CI, 87.5%-92.7%)、特异性为 98.1% (95% CI, 97.8%-98.5%)。对于 Messidor-2，灵敏度为 87.0% (95% CI, 81.1%-91.0%)、特异性为 98.5% (95% CI, 97.7%-99.1%)。使用开发集第二个高灵敏度的操作点，对于 EyePACS-1，灵敏度为 97.5% 而特异性为 93.4%；对于 Messidor-2，灵敏度为 96.1% 而特异性为 93.9%。

结论与相关：在这项成人的糖尿病性视网膜眼底照片的评估中，基于深机器学习的算法对可疑糖尿病性视网膜病变检测时具有高灵敏度和特异性。进一步的研究是必要的，这将确认此算法应用在临床中的可行性，并确定与目前的眼科评估相比是否使用该算法可以改善治疗和诊断结果。

原文 http://www.jiqizhixin.com/article/1913

正文到此结束