数据分类和提取是一个广阔的领域,随着越来越多的媒体被数字化以及社交媒体越来越以图像和视频为中心,它的规模还在不断扩大。在当今的在线环境中,如果没有人工智能,就不可能大规模地审核内容以识别不当帖子(尽管许多人仍在该领域工作)。我们在这个领域包括分类(这是仇恨言论吗?),身份/实体解析(这是人还是机器人,如果是人,是哪一个?),匹配(数据库 A 中的 Jane Doe 是否与数据库 B 中的 JE Doe?),数据提取(此司法备案中最重要的数据是什么?),等等。
多年来,人工智能的原始形式一直用于光学字符识别 (OCR),以从银行支票或写有地址的信封等物品中提取重要数据。OCR 变得如此普遍,以至于我们不再考虑 AI 等功能。较新的 AI 系统已通过深度学习模型扩展了 OCR,这些模型现在能够准确读取人类笔迹。
人工智能是一种宝贵的资源,可以显着提高生产力和公司从数据中获得的价值。
重要数据通常采用固定的文档格式,如传真、PDF 和冗长的文字处理文档,为了访问、分析甚至回答相关问题,必须先将其提取出来。例如,在医疗保健领域,信息仍然通过传真传递,访问它需要大量的人力。一家电子病历公司编写了一个人工智能程序,从传真中提取数据并将其直接输入到 EHR 系统中,从而节省了大量时间。人工智能程序还可以从合同中识别和提取重要条款,这对律师和审计员等很有用。
但是,虽然使用 AI 可以更轻松地创建目录和数据沿袭信息,但公司仍必须努力解决现有数据环境的混乱问题。许多公司拒绝使用传统的劳动密集型方法创建目录,因为他们不想揭示架构混乱的程度,或者因为他们想等到数据组织得更好、质量更高后再投入大量工作. 然而,使用人工智能轻松创建和更新目录意味着公司可以将更轻松的信息访问与持续的数据改进流程结合起来。
3、数据质量;
数据质量工具本质上是实施控制,通常使用业务规则来定义允许数据值的域。考虑一个由一天和一个月组成的日期。允许值的组合只有 366 种。因此,“Jebruary”不是允许的月份,“35”不是允许的日期,“February 31”不是允许的组合。定义、编码和更新业务规则尤其繁重,而我们在基于机器学习的 AI 中看到了巨大的好处。
AI 工具可以扫描数据以识别不允许的值,一些错误的值会自动更正,而其他值则分配给某人或某个组进行更正。一些供应商已经吹嘘他们的工具将机器学习用于这些目的。
AI 还可以执行其他与数据质量相关的功能,包括使用来自其他内部或外部数据库的附加信息(在匹配过程之后)扩充数据,预测如何填补缺失的数据缺口,以及删除重复或很少使用的数据.
那么,所有组织都将继续需要人来管理数据——包括创建和使用数据的普通员工,以及负责构建、保护和管理数据的数据管理专业人员。无论是现在还是在不久的将来,高度结构化和频繁执行的数据管理任务都不可避免地会在 AI 的帮助下实现自动化。这对数据管理及其用户和从业者来说总体上是个好消息,尽管一些低级别数据管理专业人员的工作可能会发生巨大变化甚至消失。在认为良好数据对其当前和未来运营很重要的组织中,重要的是要计划他们希望使用 AI 完成哪些任务,哪些活动仍属于人工去做,以及两者将如何协同工作。