国际标准期刊号: 2376-130X
乔恩·安德·戈麦斯·阿德里安
大多数人工智能技术,特别是机器学习技术,都需要尽可能多的数据来获得更稳健和更准确的模型,这些模型是通过使用数据样本来调整模型参数的算法训练的。例如,基于深度神经网络的模型具有数百万个参数(称为权重),其值由误差反向传播算法逐步更新,该算法迭代访问训练数据集的所有样本。Cukier 先生解释说,斯坦福大学的研究人员使用了数千个乳腺癌细胞样本和患者的存活率来训练机器学习模型,并定义了学习算法的目标函数,以识别与预测给定活检是否会严重癌变的目标最相关的输入数据属性模式。获得的机器学习模型确定了最能预测活检高度癌性的 11 个属性。让研究人员感到惊讶的是,这 11 项属性中只有 8 项以前被医生所知并在医学文献中进行过研究。由于斯坦福大学的研究人员在实验中包含了输入数据的所有属性,而没有指示学习算法使用哪些属性,结果是机器学习算法发现的三个属性(或指标)不被医学认为是相关的。社区; 病理学家从未将注意力集中在这些指标上。正如先生。