计算机更擅长了解结构化数据,让计算机去了解次要以文明习气沉淀上去的人类言语真实是太为难它们了。那自然言语处理获得的成功又是如何成就的呢?那就是,把人类言语(尽能够)结构化。本文以简单的例子一步步向我们展现了自然言语处理流水线的每个阶段的工作过程,也就是将言语结构化的过程,从句子分割、词汇标记化、...、到共指解析。作者的解释很直观、好了解,对于刚入门 NLP 的小伙伴是不可多得的好文。
「Environmental regulators grill business owner over illegal coal fires.」
London is the capital and most populous city of England and the United Kingdom. Standing on the River Thames in the south east of the island of Great Britain, London has been a major settlement for two millennia. It was founded by the Romans, who named it Londinium.
「London is the capital and most populous city of England and the United Kingdom.」
「London」,「is」,「the」,「capital」,「and」,「most」,「populous」,「city」,「of」,「England」,「and」,「the」,「United」,「Kingdom」,「.」
「It was founded by the Romans, who named it Londinium.」
留意:在我们继续之前,值得一提的是,这些是典型的 NLP 流水线中的步骤,但是您可以将跳过某些步骤或重新排序步骤,这取决于您想做什么以及如何完成 NLP 库。例如,像 spaCy 这样的一些库是在运用依赖性解析的结果后才在流水线中停止句子分割。
欢迎光临 智客公社 (http://bbs.cnaiplus.com/) | Powered by Discuz! X3.4 |