杜克大学的生物医学工程师展示了一种新方法,当仅使用一小部分可用数据时,可以显着提高机器学习模型寻找新分子疗法的有效性。通过使用主动识别数据集差距的算法,研究人员在某些情况下可以将其准确性提高一倍以上。
这种新方法可以使科学家更容易识别和分类具有可用于开发新候选药物和其他材料的特征的分子。
这项工作发表在23月<>日英国皇家化学学会出版的《数字发现》杂志上。
机器学习算法越来越多地用于识别和预测小分子的特性,如候选药物和其他化合物。虽然计算能力和机器学习算法都取得了重大进展,但它们的能力目前受到用于训练它们的现有数据集的限制,这些数据集远非完美。
主要问题之一涉及数据中的偏差。当有大量数据点比另一种特性更能展示一种特性时,就会发生这种情况,例如分子抑制特定蛋白质或其结构特征的潜在能力。
“这就像你训练了一种算法来区分狗和猫的照片,但你给了它十亿张狗的照片来学习,而只有一百张猫的照片,”杜克大学生物医学工程助理教授丹尼尔·雷克尔(Daniel Reker)解释说。“算法将变得如此擅长识别狗,以至于一切都会开始看起来像狗,它会忘记世界上的其他一切。
对于药物发现和开发来说,这是一个特别成问题的问题,科学家经常处理超过99%的测试化合物“无效”的数据集,只有一小部分分子被标记为潜在有用。
为了解决这个问题,研究人员使用了一种称为数据子采样的过程,他们的算法从一小部分但(希望)具有代表性的数据子集中学习。虽然这个过程可以通过为模型提供相同数量的示例来学习来消除偏差,但它也可以削减关键数据点并对算法的整体准确性产生负面影响。为了弥补这一点,研究人员开发了数百种子采样技术来限制丢失的信息量。
但Reker和他的合作者想要探索一种被称为主动机器学习的技术是否可以解决这个长期存在的问题。
“通过主动机器学习,该算法基本上能够在混淆或感觉到数据差距时提出问题或请求更多信息,而不是被动地筛选它,”Reker说。“这使得主动学习模型在预测性能方面非常有效。
通常,Reker和其他研究人员应用主动学习算法来生成新数据,例如识别新药,但Reker和他的团队想要探索如果算法在现有数据集上放任会发生什么。虽然主动机器学习的这种子采样应用已经在其他研究中进行了探索,但Reker和他的团队是第一个在分子生物学和药物开发中测试算法的人。
为了测试其主动子采样方法的效率,研究小组汇编了具有不同特征的分子数据集,包括可以穿过血脑屏障的分子,可以抑制与阿尔茨海默病相关的蛋白质的分子,以及已被证明可以抑制HIV复制的化合物。然后,他们针对从完整数据集中学习的模型和16种最先进的子采样策略测试了他们的主动学习算法。
该团队表明,主动子采样能够比每个标准子采样策略更准确地识别和预测分子特征,最重要的是,在某些情况下,比在完整数据集上训练的算法效率高出139%。他们的模型还能够准确地适应数据中的错误,这表明它对低质量的数据集特别有用。
但最令人惊讶的是,该团队发现使用的理想数据量远低于预期,在某些情况下只需要10%的可用数据。
“有一点是主动子采样模型收集它需要的所有信息,如果你添加更多数据,就会对性能不利,”Reker 解释道。“这个问题对我们来说特别有趣,因为它暗示存在一个拐点,即使在子样本中,更多信息也不再有用。
虽然Reker和他的团队希望在未来的工作中研究这个拐点,但他们也计划使用这种新方法来识别潜在治疗靶点的新分子。由于主动机器学习在许多不同的研究领域越来越受欢迎,该团队乐观地认为,他们的工作将帮助科学家更好地理解这种算法及其对数据错误的鲁棒性。
“这种方法不仅可以提高机器学习性能,还可以降低数据存储需求和成本,因为它使用的是更精细的数据集,”Reker说。“这使得机器学习对每个人来说都是更可重复、更易用和更强大的。
原文标题:Allowing machine learning to ask questions can make it smarter
原文链接:https://techxplore.com/news/2023-07-machine-smarter.html
作者:Michaela Kane
编译:LCR |