举个简单的例子,60 年代机器翻译业界很有名的一个学者写了一篇文章,他举了一个很简单的例子叫“The box was in the pen”,box 是盒子,pen 有两个意思:一个是钢笔,一个是围栏。翻译这句话对人来说非常容易,对机器却很难。首先它要知道 in 是什么意思,in 是一个小东西装到一个大东西里边;第二要知道 box 盒子比围栏小,所以可以装到围栏里,但不能装到钢笔里,装不出来。这句话如今用谷歌、百度、微软的机器翻译系统翻译出来都是错的,都会翻译成箱子在钢笔里,由于它没有知识,人家没告诉它该怎样翻,它只能按端到端的黑盒来做,做的就是错的。围栏这个词出现的频度很低,钢笔说的频度高,系统就挑了一个更有能够出现的词,就是钢笔。假如系统具有知识,就能知道这样翻译是不对的,由于盒子只能装到围栏里,哪怕围栏这个词出现的频度再低,也只能翻译成围栏。
孙茂松:如今不是反思,走到这基本上深度学习的好处我们享用得差不多了,它的不足不是做得不好,而是由于它的方法自然就有某种缺陷,大家都碰到了这个成绩,不用反思。比如机器翻译,谷歌基本上把全世界双语语料都整全了,按理说功能非常弱小,但还是处理不了“Box was in the pen”的成绩。翻译要做到信达雅,信如今还没做到呢,更不用说达雅。那要怎样做到信呢,大家如今都看法到深度学习好像不能处理这个成绩,没有知识库就处理不了。端到端的功能非常弱小,但是有时分又不像我们想象的那么弱小,这不是反思,受阻了就得思索。