说说最近大热的Sora，中国在人工智能领域的差距到底有多远？

无聊的流氓 · 2024-4-29 17:01:32

这两天科技圈里最热的莫过于Sora，也就是美国的人工智能公司OpenAI推出的用文本生产视频的大模型。输入一些文字性的提示词，Sora就能够生成一段视频，最长能实现60秒，而且无论是对提示词的理解，还是视频的画质，还有视频在物理世界里逻辑的合理性，都让人惊掉眼球了。
今天我们说说Sora，分析一下它的强大有什么样的意义，当然最终还是要回到中国的人工智能之路，看看我们跟世界最高水平的差距到底有多远？
好几年以前，我曾经说过一个话题，叫做《人工智能，未来的希望在中国》。现在回头看，都成了一个笑话了。
笑话归笑话，当年的那个节目依旧在网上，我也不怕大家嘲笑。因为我坚信，人工智能的道路绝不可能只有一条。
美国的人工智能大模型，一开始是文字和语音，比如ChatGPT，能够给你提供智能的搜索结果，能够人机对话，而且对话非常符合人类的思维语言逻辑。
然后是AI智能生成图片，你给他一些提示词，比如说一个东方人特质的年轻女孩，落日背景，唯美等等，它就给你一幅图片，这个女孩在现实世界里肯定是不存在的，但是让你看着很符合逻辑，包括光和阴影都符合我们的认知，跟真的一样。

现在，进化到了人工智能生成视频，虽说以前也有，但是性能和效果都一般，最多也就4秒钟的视频。这次OpenAI的Sora为何震惊世界呢？是因为它这个王炸甩的太猛，一下子把竞争对手甩的连屁味都闻不到了。具体有多猛，我就不重复了，网上Sora生成的视频大家自己看就知道了。
从文字语音到图片再到视频，美国的AI之路其实都是顺着一个方向和思路走下去的。目前来看，本质和核心的东西并没有改变。我们中国也是跟着美国这条路在后面追赶，目前来看，差距越来越大。在这条路上，中国追上美国的可能性基本已经没有了。
说到这儿，可能有人就想到弯道超车和换条赛道这些概念了，没错，就像燃油车搞不过西方，中国可以在电动车的赛道上反超的案例。中国在人工智能这个方向，跟随美国，目前来看已经没有希望了。但是还是要跟随，在跟随中积累经验，壮大实力，然后想办法再找别的突破口吧。

接下来我就用具体简单的例子来论述上面的观点啊，我们先看看美国的人工智能，它的核心思路和方法到底是怎么回事，然后我们就能明白中国的差距有多大，以后该怎么改变。
从一开始的ChatGPT，机器在跟人类进行文字和语音互动的时候，是经过大量文字和语言的数据进行投喂和训练的。机器首先存储了天量的文字语言信息，然后经过了无数次的试错，错的抛弃掉，正确的不断强化，然后慢慢地越来越适应人类的逻辑认知，变得越来越像个人。
试错和强化有很多方法，比如我们四年前做过一个节目叫《陈情令，你也能演魏无羡和蓝忘机—聊聊AI人工智能换脸》，提到过一个训练的方法：GAN人工智能对抗，就是两个机器互相给对方找错，有兴趣的朋友翻回去看看，类似的方法有很多，但是目的只有一个：
逼迫机器向着符合逻辑和人类需求的方向去做选择。
注意啊，核心词有两个，一个是逼迫，机器并不是自发地去做选择，当然了，现在的科技也做不到自发。另一个是选择，机器只是在做选择，选出一个最优解出来。

虽然我尽量说的通俗，但还是不如举个例子，比如说人工智能和人打招呼：“你好啊，”然后可以说：“你吃了吗？今天天气不错啊，你这身衣服可真好看。”等等，这都是很自然的，人能接受。但是人工智能决不会说：“你好啊，你好无耻啊！”
但是在刚开始的时候，人工智能绝对选择过：“你好啊，你好无耻啊！”这种说法，因为刚开始它是随机选择，它自己并不知道啥意思，也不知道是不是合适。
然后人类或者自身的对抗机制会强迫它放弃这种选择，让它知道不能这么说，然后它就只能在“你吃了吗？天气不错啊，衣服好看啊”这些里面再选，选得合适了得到强化，慢慢越来越符合人类的语言逻辑，就跟训动物一样。被迫选择。
您听着可能觉得有点神奇，但是这种科技其实也很常见。比如现在的汽车都有自学习的功能，张三开车轻柔，追求个省油，那么时间长了，他的车就越来越肉，发动机2000转就升档了。李四开车追求个狂野，那么他的车慢慢也会跟他的性格越来越猛，2500转也不升档。
就算张三李四的车是同一款车，而且是同一批生产线上前后脚下来的。那么王二麻子一开就能感觉到这两辆车不一样。
一个车载电脑，就能有这种能力，更何况天量算力堆起来的人工智能大模型呢？这是可以实现的。
解决了文字和语音，接下来就是人工智能生成图片，其实本质上还是走的同一条路，逼迫机器做出最优选择。

还是这幅图片为例，美女，落日，唯美。现在的人工智能生成的图片已经很完美了，但是在刚开始训练的时候，它生成的图片人类甚至根本看不懂，甚至有可能鼻子长在眼睛上面。
机器按照人们的要求生成了无数张图片，然后人类和它自己的纠错机制会不断告诉它，这张图片是错误的，鼻子不能长在眼睛上，正确的审美应该是这样的。
就在这样不断的否定中，突然，机器生成了一张还算不错的图片，然后人类告诉它：对了，就是这样的！不过在某些方面还需要改进，比如眼睛再大一点，头上和身体上光线和阴影的位置要一致，要符合物理规律等等。
然后，机器生成的图片就越来越好了，越来越理解人们的需求了，直到现在这种效果。
这其实和训练文字语音的道理是一样的，只不过文字和图片的数据量不一样，一本长篇小说，也就几兆大小，一个128G的优盘，就能把人一辈子看不完的书存下来，但是很多人的手机也是128G，存个照片都不够。所以图片的训练量要更大，需要的算力更多而已。
从文字到图片，本质没有变化，就是力大飞砖，往上堆算力就得了。
但是到了视频，翻天覆地的变化就开始了。我来举个例子，大家就知道这种改变是多么的恐怖了。
我们物理世界里的视频，大家都知道是一张一张的图片连起来的，电影是一秒钟24张图片，每张图片按照时间顺序都有细微的不同，一秒钟连放24张图片，就形成了连续的视频图像。
比如Sora生成的这段视频，它先是按照人类的要求生成一张初始图片，东京街头，时尚美女，街头人流，霓虹灯和地上的倒影等等，按照现在AI生成图片的技术，这已经很容易实现了。

然后恐怖的就来了，第一张容易，第二张就难了，视频它多了一个时间的概念，第二张要在第一张的基础上做出符合客观规律的改变。比如女子行走，正常是这样一步一步走，我们假设她走到这个瞬间，那么下一个瞬间的图片，这条腿就要往前迈了，你如果还是另一条腿往前扯那就肯定不对了。不光是腿，身体的各部分包括衣服都要做出正确的改变。
这还只是一个人，我们要知道，可不止女子一个人，视频里面出现了好几十个人，每一个下一张图片都得做出正确的改变；
还有街景，随着镜头的推拉，街景的每一个像素都得改变，比如招牌的大小你肯定不能和第一张一样，你得变；而且远景近景的变化幅度还不一样，你都得符合客观规律。
大家可以想象一下，第二张和第一张之间，虽然错了二十四分之一秒，但是大部分的像素点都需要重构了。
好了，经过千算万算，第二张图片总算是出来了，还有第三张呢。
第三张与第二张也要重复这个过程，而且还不能脱离第一张的定义范围。一分钟有多少张呢？
1440张！都要重复这个过程。恐怖吧？

视频和图片不一样，视频不仅需要更多的图片，不仅是这些更多的图片都要符合客观规律，而且它们还有一根时间线，还要符合时间线上客观规律的制约，也就是该迈左腿的时候你不能迈右腿。这个算力的堆积是恐怖的，严格来说，按照现有的算力，是根本不可能实现的。
所以我们看，现有的其它的AI生成视频，它们最多也就生成4秒钟，不超过100张图片，我们看这100张图片画质都很精美，单独看每张图片都没问题，但是它们连起来就看着别扭了，怪怪的。
表面看是时间轴这条算法不行，但是实质上，是现有的算力达不到需求。
对此，OpenAI推出的Sora也承认，它们也是采用了一种降维的方法来降低对算力的要求。它们把视频转换成一个矩阵，在矩阵里运算的结果再重新映射成像素输出，才使得现有的算力能够支撑60秒高画质的人工智能视频的输出。

具体的技术细节我肯定也不懂，咱也不装大仙了。只能说OpenAI是一个很伟大很神奇的公司，他们在人工智能这条路上，用遥遥领先来形容都谦虚了。
面对着这么强大的对手，中国很明显差距越来越大，追上的可能性越来越小。别说中国正在受制裁，就连没受制裁的微软，不也是抓瞎了吗？
但是，我要说但是了，这也从侧面说明了，人工智能这种怼算力，力大飞砖的实现方法。路也是越来越难走了。
OpenAI，拥有着世界上最强大的算力，研究和掌握着世界上最先进的实现方法。在视频领域爆肝了最少也得有半年的时间吧，我们仍然只是看到了几十分钟，而且是以慢动作为主的演示视频。
为什么是慢动作呢？很明显也是算力达不到。正常的视频一分钟是1440帧，而慢动作我也许只要生成500帧就够了，然后帧与帧之间，采用别的技术进行插值运算和平滑过渡，我能省点事。
虽说万事开头难，但是至少说明了，这种难度级别的上升不是个好事。

如果我的理解没有大的错误的话，现在全世界，特别是美国，所走的人工智能的道路，越到后面越难走。难度不是线性上升的，而是指数级的直着上去的。
从文字到图片，是一根毛和一只羊的差别，到视频阶段，简直是一只羊和呼伦贝尔大草原的差别了。以致于人类现有的算力都支撑不起来。
当然了，中国现在走的也是这条路，因为暂时都没有别的路可以走，就像二十年前的汽车产业，新能源车这条赛道还没影呢。
这条路最大的好处，是能刺激算力的更快升级，我们看英伟达的股价又涨到天上去了。这当然是一个好事，这条路前景还是有的，更重要的是，这都是探索和摸索的过程。
更先进的人工智能实现方式不可能从天上凭空掉下来，他就是这样，一步一步摸索出来的。现在所做的所有的努力，都是你第五个馒头吃饱了之前的第一二三四个馒头。
所以，即使中国在现有的人工智能赛道上差距越来越大，我们也必须努力追赶，没有在燃油车阶段追赶过程中所建立起来的产业链，中国不可能在新能源车的赛道上迅速就领先了。这是同一个道理。

而且，我们要认清一个现实，网上所有在说中国落后的，都在努力掩盖一个事实：中国是落后了，但只是相对于美国一家落后了。全世界192个国家，30多个地区，除了美国，你能找出第二个领先中国的吗？你一个都找不出来。
我们人一方面用客观来训练机器，但同时自己不客观那是不对的。美国是保时捷，一骑绝尘遥遥领先了；我们骑着马，排在第二，目前看追不上，差距越来越大了。但你往后看，有徒步的，有腿瘸着在地上爬的。更多的是死人，躺地上一动不动的。
我一直坚信，实现人工智能的道路绝不可能只有当前这一条路，那样才不符合客观规律呢。硬怼算力，力大砖飞是一个方法，不见得就是唯一的方法，更不见得是个好方法。
就像我以前举得一个例子：中国人炒个豆芽，盐少许，糖少许，醋少许。老外一听都懵了，啥啥啥，这都是个啥？
但是中国人一听就明白。这就是思维模式的不同，而且我一直坚信，中国人的思维模式，一定能探索出一个更优秀的人工智能解决方案。所以我说，人工智能，未来的希望在中国。

我们所处的这个世界，需要精确，但是更多的是模糊。你要让机械手用一个精确的力矩拿鸡蛋，大部分没问题，但有的肯定捏碎了，有的拿不起来。鸡蛋不可能每一个都是一模一样的。
我所理解的人工智能，应该是输入一些模糊量，然后输出一个合理的模糊量。才能更加适应这个世界和人类的需求。而这种对于模糊数据的理解和处理，现有的人工智能模式并不是最合理的，它需要耗费天量的资源才能近似达到，甚至还达不到。
所以，未来一定会有更优秀的硬件和软件算法出现。
如果出现不了，那才是不合理的。
有可能我们要等到量子计算的成熟，有可能还需要几十年，但是它必然会出现的，而且出现在中国的几率还很高很高。
为什么我这么有自信，因为就算是世界上最强大的OpenAI，你去看一看，华人的占比和贡献有多大？如果离开了这些华人，没人会怀疑，OpenAI瞎得不能再瞎。
华人在人工智能方面的天赋是绝对领先的。中国的问题在于科研氛围和制度短板。而这些外部环境的问题，都是可以改善的。几十年后会改善到什么样？让我们回头看四十年前的中国，你敢想象吗？这玩意儿都预测不了，不好说。

所以我们要客观看待OpenAI和Sora，首先要感到高兴，这是个了不起的成就，是对全人类做出的贡献，虽然这是美国的成就，但也是中国学习的榜样和追赶的目标。
然后我们要承认在当前人工智能赛道上，中国与美国正在拉大的差距。然后想办法去追赶，缩小这个差距。
为什么我不说反超呢？因为今天做节目没喝酒，我很清醒，我认为反超不了，比登天还难。
但是，我们还要认识到，条条大道通罗马，我不是非要走这条道！
别的道路一定是存在的，也一定更适合于中国。更何况，中国还是遥遥领先的老二，是唯一的一个可以跟美国正面竞争的国家。
所以根本没必要灰心沮丧，按照中国人不当第一就是落后的民族情绪，未来还是大有可期的。

		自动登录	找回密码
密码			立即注册

说说最近大热的Sora，中国在人工智能领域的差距到底有多远？

本帖子中包含更多资源

浏览过的版块

最近发表

公社版块

关注我们