请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

说说最近大热的Sora,中国在人工智能领域的差距到底有多远?



这两天科技圈里最热的莫过于Sora,也就是美国的人工智能公司OpenAI推出的用文本生产视频的大模型。输入一些文字性的提示词,Sora就能够生成一段视频,最长能实现60秒,而且无论是对提示词的理解,还是视频的画质,还有视频在物理世界里逻辑的合理性,都让人惊掉眼球了。
今天我们说说Sora,分析一下它的强大有什么样的意义,当然最终还是要回到中国的人工智能之路,看看我们跟世界最高水平的差距到底有多远?
好几年以前,我曾经说过一个话题,叫做《人工智能,未来的希望在中国》。现在回头看,都成了一个笑话了。
笑话归笑话,当年的那个节目依旧在网上,我也不怕大家嘲笑。因为我坚信,人工智能的道路绝不可能只有一条。
美国的人工智能大模型,一开始是文字和语音,比如ChatGPT,能够给你提供智能的搜索结果,能够人机对话,而且对话非常符合人类的思维语言逻辑。
然后是AI智能生成图片,你给他一些提示词,比如说一个东方人特质的年轻女孩,落日背景,唯美等等,它就给你一幅图片,这个女孩在现实世界里肯定是不存在的,但是让你看着很符合逻辑,包括光和阴影都符合我们的认知,跟真的一样。



现在,进化到了人工智能生成视频,虽说以前也有,但是性能和效果都一般,最多也就4秒钟的视频。这次OpenAI的Sora为何震惊世界呢?是因为它这个王炸甩的太猛,一下子把竞争对手甩的连屁味都闻不到了。具体有多猛,我就不重复了,网上Sora生成的视频大家自己看就知道了。
从文字语音到图片再到视频,美国的AI之路其实都是顺着一个方向和思路走下去的。目前来看,本质和核心的东西并没有改变。我们中国也是跟着美国这条路在后面追赶,目前来看,差距越来越大。在这条路上,中国追上美国的可能性基本已经没有了。
说到这儿,可能有人就想到弯道超车和换条赛道这些概念了,没错,就像燃油车搞不过西方,中国可以在电动车的赛道上反超的案例。中国在人工智能这个方向,跟随美国,目前来看已经没有希望了。但是还是要跟随,在跟随中积累经验,壮大实力,然后想办法再找别的突破口吧。



接下来我就用具体简单的例子来论述上面的观点啊,我们先看看美国的人工智能,它的核心思路和方法到底是怎么回事,然后我们就能明白中国的差距有多大,以后该怎么改变。
从一开始的ChatGPT,机器在跟人类进行文字和语音互动的时候,是经过大量文字和语言的数据进行投喂和训练的。机器首先存储了天量的文字语言信息,然后经过了无数次的试错,错的抛弃掉,正确的不断强化,然后慢慢地越来越适应人类的逻辑认知,变得越来越像个人。
试错和强化有很多方法,比如我们四年前做过一个节目叫《陈情令,你也能演魏无羡和蓝忘机—聊聊AI人工智能换脸》,提到过一个训练的方法:GAN人工智能对抗,就是两个机器互相给对方找错,有兴趣的朋友翻回去看看,类似的方法有很多,但是目的只有一个:
逼迫机器向着符合逻辑和人类需求的方向去做选择。
注意啊,核心词有两个,一个是逼迫,机器并不是自发地去做选择,当然了,现在的科技也做不到自发。另一个是选择,机器只是在做选择,选出一个最优解出来。



虽然我尽量说的通俗,但还是不如举个例子,比如说人工智能和人打招呼:“你好啊,”然后可以说:“你吃了吗?今天天气不错啊,你这身衣服可真好看。”等等,这都是很自然的,人能接受。但是人工智能决不会说:“你好啊,你好无耻啊!”
但是在刚开始的时候,人工智能绝对选择过:“你好啊,你好无耻啊!”这种说法,因为刚开始它是随机选择,它自己并不知道啥意思,也不知道是不是合适。
然后人类或者自身的对抗机制会强迫它放弃这种选择,让它知道不能这么说,然后它就只能在“你吃了吗?天气不错啊,衣服好看啊”这些里面再选,选得合适了得到强化,慢慢越来越符合人类的语言逻辑,就跟训动物一样。被迫选择。
您听着可能觉得有点神奇,但是这种科技其实也很常见。比如现在的汽车都有自学习的功能,张三开车轻柔,追求个省油,那么时间长了,他的车就越来越肉,发动机2000转就升档了。李四开车追求个狂野,那么他的车慢慢也会跟他的性格越来越猛,2500转也不升档。
就算张三李四的车是同一款车,而且是同一批生产线上前后脚下来的。那么王二麻子一开就能感觉到这两辆车不一样。
一个车载电脑,就能有这种能力,更何况天量算力堆起来的人工智能大模型呢?这是可以实现的。
解决了文字和语音,接下来就是人工智能生成图片,其实本质上还是走的同一条路,逼迫机器做出最优选择。



还是这幅图片为例,美女,落日,唯美。现在的人工智能生成的图片已经很完美了,但是在刚开始训练的时候,它生成的图片人类甚至根本看不懂,甚至有可能鼻子长在眼睛上面。
机器按照人们的要求生成了无数张图片,然后人类和它自己的纠错机制会不断告诉它,这张图片是错误的,鼻子不能长在眼睛上,正确的审美应该是这样的。
就在这样不断的否定中,突然,机器生成了一张还算不错的图片,然后人类告诉它:对了,就是这样的!不过在某些方面还需要改进,比如眼睛再大一点,头上和身体上光线和阴影的位置要一致,要符合物理规律等等。
然后,机器生成的图片就越来越好了,越来越理解人们的需求了,直到现在这种效果。
这其实和训练文字语音的道理是一样的,只不过文字和图片的数据量不一样,一本长篇小说,也就几兆大小,一个128G的优盘,就能把人一辈子看不完的书存下来,但是很多人的手机也是128G,存个照片都不够。所以图片的训练量要更大,需要的算力更多而已。
从文字到图片,本质没有变化,就是力大飞砖,往上堆算力就得了。
但是到了视频,翻天覆地的变化就开始了。我来举个例子,大家就知道这种改变是多么的恐怖了。
我们物理世界里的视频,大家都知道是一张一张的图片连起来的,电影是一秒钟24张图片,每张图片按照时间顺序都有细微的不同,一秒钟连放24张图片,就形成了连续的视频图像。
比如Sora生成的这段视频,它先是按照人类的要求生成一张初始图片,东京街头,时尚美女,街头人流,霓虹灯和地上的倒影等等,按照现在AI生成图片的技术,这已经很容易实现了。



然后恐怖的就来了,第一张容易,第二张就难了,视频它多了一个时间的概念,第二张要在第一张的基础上做出符合客观规律的改变。比如女子行走,正常是这样一步一步走,我们假设她走到这个瞬间,那么下一个瞬间的图片,这条腿就要往前迈了,你如果还是另一条腿往前扯那就肯定不对了。不光是腿,身体的各部分包括衣服都要做出正确的改变。
这还只是一个人,我们要知道,可不止女子一个人,视频里面出现了好几十个人,每一个下一张图片都得做出正确的改变;
还有街景,随着镜头的推拉,街景的每一个像素都得改变,比如招牌的大小你肯定不能和第一张一样,你得变;而且远景近景的变化幅度还不一样,你都得符合客观规律。
大家可以想象一下,第二张和第一张之间,虽然错了二十四分之一秒,但是大部分的像素点都需要重构了。
好了,经过千算万算,第二张图片总算是出来了,还有第三张呢。
第三张与第二张也要重复这个过程,而且还不能脱离第一张的定义范围。一分钟有多少张呢?
1440张!都要重复这个过程。恐怖吧?



视频和图片不一样,视频不仅需要更多的图片,不仅是这些更多的图片都要符合客观规律,而且它们还有一根时间线,还要符合时间线上客观规律的制约,也就是该迈左腿的时候你不能迈右腿。这个算力的堆积是恐怖的,严格来说,按照现有的算力,是根本不可能实现的。
所以我们看,现有的其它的AI生成视频,它们最多也就生成4秒钟,不超过100张图片,我们看这100张图片画质都很精美,单独看每张图片都没问题,但是它们连起来就看着别扭了,怪怪的。
表面看是时间轴这条算法不行,但是实质上,是现有的算力达不到需求。
对此,OpenAI推出的Sora也承认,它们也是采用了一种降维的方法来降低对算力的要求。它们把视频转换成一个矩阵,在矩阵里运算的结果再重新映射成像素输出,才使得现有的算力能够支撑60秒高画质的人工智能视频的输出。



具体的技术细节我肯定也不懂,咱也不装大仙了。只能说OpenAI是一个很伟大很神奇的公司,他们在人工智能这条路上,用遥遥领先来形容都谦虚了。
面对着这么强大的对手,中国很明显差距越来越大,追上的可能性越来越小。别说中国正在受制裁,就连没受制裁的微软,不也是抓瞎了吗?
但是,我要说但是了,这也从侧面说明了,人工智能这种怼算力,力大飞砖的实现方法。路也是越来越难走了。
OpenAI,拥有着世界上最强大的算力,研究和掌握着世界上最先进的实现方法。在视频领域爆肝了最少也得有半年的时间吧,我们仍然只是看到了几十分钟,而且是以慢动作为主的演示视频。
为什么是慢动作呢?很明显也是算力达不到。正常的视频一分钟是1440帧,而慢动作我也许只要生成500帧就够了,然后帧与帧之间,采用别的技术进行插值运算和平滑过渡,我能省点事。
虽说万事开头难,但是至少说明了,这种难度级别的上升不是个好事。



如果我的理解没有大的错误的话,现在全世界,特别是美国,所走的人工智能的道路,越到后面越难走。难度不是线性上升的,而是指数级的直着上去的。
从文字到图片,是一根毛和一只羊的差别,到视频阶段,简直是一只羊和呼伦贝尔大草原的差别了。以致于人类现有的算力都支撑不起来。
当然了,中国现在走的也是这条路,因为暂时都没有别的路可以走,就像二十年前的汽车产业,新能源车这条赛道还没影呢。
这条路最大的好处,是能刺激算力的更快升级,我们看英伟达的股价又涨到天上去了。这当然是一个好事,这条路前景还是有的,更重要的是,这都是探索和摸索的过程。
更先进的人工智能实现方式不可能从天上凭空掉下来,他就是这样,一步一步摸索出来的。现在所做的所有的努力,都是你第五个馒头吃饱了之前的第一二三四个馒头。
所以,即使中国在现有的人工智能赛道上差距越来越大,我们也必须努力追赶,没有在燃油车阶段追赶过程中所建立起来的产业链,中国不可能在新能源车的赛道上迅速就领先了。这是同一个道理。



而且,我们要认清一个现实,网上所有在说中国落后的,都在努力掩盖一个事实:中国是落后了,但只是相对于美国一家落后了。全世界192个国家,30多个地区,除了美国,你能找出第二个领先中国的吗?你一个都找不出来。
我们人一方面用客观来训练机器,但同时自己不客观那是不对的。美国是保时捷,一骑绝尘遥遥领先了;我们骑着马,排在第二,目前看追不上,差距越来越大了。但你往后看,有徒步的,有腿瘸着在地上爬的。更多的是死人,躺地上一动不动的。
我一直坚信,实现人工智能的道路绝不可能只有当前这一条路,那样才不符合客观规律呢。硬怼算力,力大砖飞是一个方法,不见得就是唯一的方法,更不见得是个好方法。
就像我以前举得一个例子:中国人炒个豆芽,盐少许,糖少许,醋少许。老外一听都懵了,啥啥啥,这都是个啥?
但是中国人一听就明白。这就是思维模式的不同,而且我一直坚信,中国人的思维模式,一定能探索出一个更优秀的人工智能解决方案。所以我说,人工智能,未来的希望在中国。



我们所处的这个世界,需要精确,但是更多的是模糊。你要让机械手用一个精确的力矩拿鸡蛋,大部分没问题,但有的肯定捏碎了,有的拿不起来。鸡蛋不可能每一个都是一模一样的。
我所理解的人工智能,应该是输入一些模糊量,然后输出一个合理的模糊量。才能更加适应这个世界和人类的需求。而这种对于模糊数据的理解和处理,现有的人工智能模式并不是最合理的,它需要耗费天量的资源才能近似达到,甚至还达不到。
所以,未来一定会有更优秀的硬件和软件算法出现。
如果出现不了,那才是不合理的。
有可能我们要等到量子计算的成熟,有可能还需要几十年,但是它必然会出现的,而且出现在中国的几率还很高很高。
为什么我这么有自信,因为就算是世界上最强大的OpenAI,你去看一看,华人的占比和贡献有多大?如果离开了这些华人,没人会怀疑,OpenAI瞎得不能再瞎。
华人在人工智能方面的天赋是绝对领先的。中国的问题在于科研氛围和制度短板。而这些外部环境的问题,都是可以改善的。几十年后会改善到什么样?让我们回头看四十年前的中国,你敢想象吗?这玩意儿都预测不了,不好说。



所以我们要客观看待OpenAI和Sora,首先要感到高兴,这是个了不起的成就,是对全人类做出的贡献,虽然这是美国的成就,但也是中国学习的榜样和追赶的目标。
然后我们要承认在当前人工智能赛道上,中国与美国正在拉大的差距。然后想办法去追赶,缩小这个差距。
为什么我不说反超呢?因为今天做节目没喝酒,我很清醒,我认为反超不了,比登天还难。
但是,我们还要认识到,条条大道通罗马,我不是非要走这条道!
别的道路一定是存在的,也一定更适合于中国。更何况,中国还是遥遥领先的老二,是唯一的一个可以跟美国正面竞争的国家。
所以根本没必要灰心沮丧,按照中国人不当第一就是落后的民族情绪,未来还是大有可期的。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册