为全球发展揭开机器学习的神秘面纱

flora927 · 2022-8-15 19:43:05

导读
Foreword

本文初次发表于2019年，时至今日大众媒体对“机器学习”的关注度似乎已转向“Web3”、“元宇宙”、“AI”等更宏大新潮的科技概念。但就像作者在文中所言“对于任何特定的全球发展工作来说，最有影响力的技术不一定是最先进的技术，也不一定是新闻追逐的热点。关键仍是要从问题出发，进而找到适配的工具。”

插图：LuckyVector/iStock
机器学习（Machine learning，ML ）正逐渐被媒体渲染成一个热点。它在科技和企业中的应用经常引发热议——但其在全球发展领域的表现如何？是否也能助推健康、农业和金融普惠等领域的发展呢？

答案是肯定的。因为机器学习可以帮助我们在大量的数据中发现之前未发觉的模型或规律，从而得以去制定最有效的解决方案，并以正确的方式朝着这些解决方案努力。

实际上机器学习已经存在了数十年，而当下正是我们通过新思路将其应用于应对发展挑战的好时机，主要原因有三：

首先，近年来机器学习自身在不断发展，更好的算法和开源软件使得机器学习工具可以广泛使用并易于访问；第二，用于管理、共享和分析数据（包括高速计算能力）的基础设施已逐渐可被大规模搭载使用；第三，可用于机器学习的发展数据量出现了爆发式增长。这既得益于周密的数据收集工作，如调查、项目监测和评估研究，以及来自卫星和手机的新数据源。

在Surgo基金会，我们已经将机器学习应用于诸多发展议题，如增加在卫生机构中分娩的妇女人数，并通过提高一线卫生工作者的绩效以降低印度的孕产妇和儿童死亡率。我们已经看到机器学习推动了创新，并相信我们自身以及其他全球发展机构可以从我们的数据中获得更多的收获，利用这些数据来发挥更大的作用。

尽管如此，机器学习可能仍然是一个让人望而生畏的概念，难以掌握，尤其在技术层面。好消息是，机器学习方法其实有很多种类，并非都像媒体曝光最多的那样那么复杂。

下面列出了四个这样的问题，并介绍了可以帮助解决这些问题的四种易于访问的机器学习工具。

▍1.书面信息如何更好地支持我们的决策？

发展部门通过医疗记录、发表的研究报告、政府记录等形式产生了大量的文本。但是面对海量繁杂的信息，人类无法有效地去进行分析处理，从而忽略了本能从中产生的有价值的洞察和趋势。

自然语言处理（Natural language processing）是一种从大量文本中提取见解的机器学习方法。其可以简化和改善临床过程。例如，一个病人如到多个医疗机构进行就医，会产生不同的临床记录。机器学习可以从这些单独的记录中提取和分析关键词或概念，以便医疗人员可以进行全面而准确的诊断。自然语言处理也可以将“自由”文本，如医疗服务提供者的笔记，翻译成结构化的数据进行分析。

另一个应用场景为对话代理，即聊天机器人，它通过分析解释人们使用手机发送的文本与人们产生交互。聊天机器人具有巨大的潜力，可被应用于辅助医疗诊断，以及为无法近距离获取医疗服务的人提供信息。

机构们还可以使用自然语言来进行模型分析，包括分析捐助者和政府在资金、研究方面的趋势和差距等。例如，世界银行的项目解码（Project DeCODE）就利用了自然语言处理来分析书面文件，并收集有助于预测发展项目变化并指导新投资决策的信息。

▍2.我们如何为正确的人提供正确的干预？
人与人是不同的。为了对不同的人群产生影响，改变他们的行为方式，发展组织需要摆脱一刀切的做法，转向采取因人而异的应对措施，有的放矢。

聚类分析（Cluster analysis），在企业中常被应用于用户营销领域，即通过对用户细分以进行个性化推荐。其基本原则是将人群分组，使小组成员之间尽可能地相似，并尽可能地与其他小组的成员不同。发展领域的项目通常以年龄、性别、教育或城乡居住地等人口统计学因素为基础进行聚类。但是，作为人们决策基础的观念、动机、偏见和规范，以及潜在的结构性障碍（如某项服务的可用性），对于确定工作目标和推动变革同样重要。

这里有一个有趣的关于发展领域的聚类案例，是一个鼓励男性自愿进行医疗包皮环切的全球项目，该项目旨在帮助防止艾滋病的传播。为了帮助赞比亚和津巴布韦政府增加对这项服务的需求，我们的基金会进行了一次大规模的调研，对影响男性对包皮环切态度和行为的观念、偏见和社区规范进行量化。并使用聚类方法对这些变量的数据进行了分析。在赞比亚，这种聚类分析的方法为我们划分了七组对包皮环切有着不同观念的男性，然后我们基于此制定了更有效和有针对性的干预措施。

▍3.我们如何预测事件、行为和市场动态？

预测何时何地将要发生什么事件的能力，可以帮助发展机构将有限的资源集中在正确的干预举措、人员、地点和时间上。

预测学习（Predictive machine learning）将有助于实现这一目标。其包括两种主要类型：分类预测（classification）和回归预测（regression）。分类预测可以判断一个人属于哪个目标类别，比如一个孕妇可能是低风险怀孕还是高风险怀孕人群；回归预测可以推断一个特定的值，如基于一组人口和地理指标，预测一个人的收入。

例如，分类预测可以通过使用最少的国家调查数据来识别社区中的贫困家庭，而传统的分析方法既昂贵又费时。一些组织也在利用分类预测来开发基于手机的健康诊断工具。在上节自愿医疗包皮环切的例子中，机器学习使得社区卫生工作者有可能通过一个男人对几个简单访谈问题的回答来预测他属于哪一个类别。

回归预测也有多种应用场景。如根据识别房产和财产的卫星数据来预测财富水平；或根据政府的金融交易数据等行政指标来预测腐败程度；卫生部门则可以使用回归模型，基于客户的偏好，模拟和预测不同避孕药具（注射剂、避孕套、口服避孕药或宫内避孕器）的市场份额，这样政府就可以更好地计划应该采购和分发多少不同类型的产品。

▍4.我们如何理解因果关系？

在发展领域，我们常痴迷于因果关系的研究。对此，我们通常会使用控制随机变量的研究方法，但这些试验成本高，耗时长，而且往往只能一次测试一种干预措施的效果。

因果学习（Causal machine learning）可以协助我们了解影响发展结果的变量之间的关联网。这不仅仅可以帮助我们去做预测，还可以进一步推断出变量之间潜在的因果关系。

例如，要真正了解某特定环境中的婴儿死亡率，我们需要知道的不仅仅是哪些因素可能与婴儿的死亡有关。而是母亲的哪些特征、行为和健康参数，以及保健服务者的哪些行为，直接或间接地导致了婴儿死亡，这些正是机器学习可以协助回答的。机器学习可以帮助我们映射出这些因素相互作用的方式，一旦我们定义了底层的推导结构，我们就可以用数据做出“如果……会怎样？”的假设实验。例如，如果让孕妇在孕期与一线医疗人员的见面次数由三次增加到五次，怎么样？婴儿死亡率会有多大的变化？

目前我们正在印度测试这种方法。我们使用了许多垂直数据集，试图理解并解释该地结果的完整因素集。我们既从母亲那里收集了变量要素，如她参加了多少次产前检查，也从卫生机构那里进行了收集，如护士的行为信息。将这些变量放入回归模型，可能会发现清洁的脐带或受过教育的母亲与婴儿存活率之间的关系，但我们只知道这两者是相关的，我们不能确定这些因素间是否是因果关系，或者其他因素是否起了作用。相比之下，因果模型可以帮助我们了解所有的因素是如何在一个网络中联系起来的，查看哪些因素会影响结果，并确定该系统中的关键节点以提高存活率。

▍克服挑战
有些人认为机器学习是解决我们所有全球发展问题的灵丹妙药，但毋庸置疑它并不能解答每一个问题。

以及在决定是否使用机器学习之前，还有如下几个方面的问题需要考虑：

数据的质量和数量仍然是一个问题。虽然现在全球发展的数据更加丰富了，但我们往往只会收集自以为重要的数据，因此可能会错过重要的预测因素或影响行为的因果要素。数据间的质量差异也很大，且数据集往往是零散的，因为捐助者或政府各自根据自己的需要收集数据。如果所有者不愿意共享这些数据，就很难整合这些数据集。

我们需要将机器学习领域的人才引入公共部门。公共部门需要吸收和构建机器学习专业知识，使其成为该领域广泛使用的通用、可扩展的工具，就像许多人已经使用的统计工具一样。

关联性是非常重要的。发展专家必须与机器学习专家紧密合作，提出正确的问题并对模型进行分析。随着机器学习的使用规模逐渐扩大，还需要伦理学家和政策专家等角色的参与。

我们需要成为机器学习方法的聪明用户。我们需要明晰哪些发展问题可以从机器学习中获益最大。这并不意味着我们自己要了解所有的统计数据和算法，但我们确实需要提升彼此对不同方法的认知——了解不同机器学习方法的价值和缺陷。然后，我们可以与机器学习专家进行一些更有效的咨询沟通，并使用一些线上服务软件，如RapidMiner（译者注：一款预测性分析和数据挖掘机器学习工具），它可以通过极少的代码来实现机器学习。最后，我们需要通过案例进行方法测试并证明机器学习的应用给项目带来了什么价值。

概括而言，对于任何特定的全球发展工作来说，最有影响力的技术不一定是最先进的技术，也不一定是新闻追逐的热点。在某些情况下，机器学习可能会帮助我们；而在另外一些情况下，帮助我们的可能是传统统计工具或其他方法。关键是要从问题出发，进而找到适配的工具。

塞马·K·斯盖尔(Sema K. Sgaier )是Surgo基金会的联合创始人和执行董事，哈佛大学陈曾熙公共卫生学院的兼职助理教授，华盛顿大学全球卫生附属助理教授。

来源：《斯坦福社会创新评论》英文网站2019年7月24日
原标题：Demystifying Machine Learning for Global Development

》沉沦_ · 2022-8-16 07:03:26

我了个去，顶了

kulelala · 2022-8-18 16:00:42

路过的帮顶

		自动登录	找回密码
密码			立即注册

为全球发展揭开机器学习的神秘面纱

本帖子中包含更多资源

大神点评2

最近发表

公社版块

关注我们