门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
公社水吧
›
大话智能
›
说说最近大热的Sora,中国在人工智能领域的差距到底有多 ...
返回列表
说说最近大热的Sora,中国在人工智能领域的差距到底有多远?
[复制链接]
无聊的流氓
2024-4-29 17:01:32
显示全部楼层
|
阅读模式
这两天科技圈里最热的莫过于Sora,也就是美国的人工智能公司OpenAI推出的用文本生产视频的大模型。输入一些文字性的提示词,Sora就能够生成一段视频,最长能实现60秒,而且无论是对提示词的理解,还是视频的画质,还有视频在物理世界里逻辑的合理性,都让人惊掉眼球了。
今天我们说说Sora,分析一下它的强大有什么样的意义,当然最终还是要回到中国的人工智能之路,看看我们跟世界最高水平的差距到底有多远?
好几年以前,我曾经说过一个话题,叫做《人工智能,未来的希望在中国》。现在回头看,都成了一个笑话了。
笑话归笑话,当年的那个节目依旧在网上,我也不怕大家嘲笑。因为我坚信,人工智能的道路绝不可能只有一条。
美国的人工智能大模型,一开始是文字和语音,比如ChatGPT,能够给你提供智能的搜索结果,能够人机对话,而且对话非常符合人类的思维语言逻辑。
然后是AI智能生成图片,你给他一些提示词,比如说一个东方人特质的年轻女孩,落日背景,唯美等等,它就给你一幅图片,这个女孩在现实世界里肯定是不存在的,但是让你看着很符合逻辑,包括光和阴影都符合我们的认知,跟真的一样。
现在,进化到了人工智能生成视频,虽说以前也有,但是性能和效果都一般,最多也就4秒钟的视频。这次OpenAI的Sora为何震惊世界呢?是因为它这个王炸甩的太猛,一下子把竞争对手甩的连屁味都闻不到了。具体有多猛,我就不重复了,网上Sora生成的视频大家自己看就知道了。
从文字语音到图片再到视频,美国的AI之路其实都是顺着一个方向和思路走下去的。目前来看,本质和核心的东西并没有改变。我们中国也是跟着美国这条路在后面追赶,目前来看,差距越来越大。在这条路上,中国追上美国的可能性基本已经没有了。
说到这儿,可能有人就想到弯道超车和换条赛道这些概念了,没错,就像燃油车搞不过西方,中国可以在电动车的赛道上反超的案例。中国在人工智能这个方向,跟随美国,目前来看已经没有希望了。但是还是要跟随,在跟随中积累经验,壮大实力,然后想办法再找别的突破口吧。
接下来我就用具体简单的例子来论述上面的观点啊,我们先看看美国的人工智能,它的核心思路和方法到底是怎么回事,然后我们就能明白中国的差距有多大,以后该怎么改变。
从一开始的ChatGPT,机器在跟人类进行文字和语音互动的时候,是经过大量文字和语言的数据进行投喂和训练的。机器首先存储了天量的文字语言信息,然后经过了无数次的试错,错的抛弃掉,正确的不断强化,然后慢慢地越来越适应人类的逻辑认知,变得越来越像个人。
试错和强化有很多方法,比如我们四年前做过一个节目叫《陈情令,你也能演魏无羡和蓝忘机—聊聊AI人工智能换脸》,提到过一个训练的方法:GAN人工智能对抗,就是两个机器互相给对方找错,有兴趣的朋友翻回去看看,类似的方法有很多,但是目的只有一个:
逼迫机器向着符合逻辑和人类需求的方向去做选择。
注意啊,核心词有两个,一个是逼迫,机器并不是自发地去做选择,当然了,现在的科技也做不到自发。另一个是选择,机器只是在做选择,选出一个最优解出来。
虽然我尽量说的通俗,但还是不如举个例子,比如说人工智能和人打招呼:“你好啊,”然后可以说:“你吃了吗?今天天气不错啊,你这身衣服可真好看。”等等,这都是很自然的,人能接受。但是人工智能决不会说:“你好啊,你好无耻啊!”
但是在刚开始的时候,人工智能绝对选择过:“你好啊,你好无耻啊!”这种说法,因为刚开始它是随机选择,它自己并不知道啥意思,也不知道是不是合适。
然后人类或者自身的对抗机制会强迫它放弃这种选择,让它知道不能这么说,然后它就只能在“你吃了吗?天气不错啊,衣服好看啊”这些里面再选,选得合适了得到强化,慢慢越来越符合人类的语言逻辑,就跟训动物一样。被迫选择。
您听着可能觉得有点神奇,但是这种科技其实也很常见。比如现在的汽车都有自学习的功能,张三开车轻柔,追求个省油,那么时间长了,他的车就越来越肉,发动机2000转就升档了。李四开车追求个狂野,那么他的车慢慢也会跟他的性格越来越猛,2500转也不升档。
就算张三李四的车是同一款车,而且是同一批生产线上前后脚下来的。那么王二麻子一开就能感觉到这两辆车不一样。
一个车载电脑,就能有这种能力,更何况天量算力堆起来的人工智能大模型呢?这是可以实现的。
解决了文字和语音,接下来就是人工智能生成图片,其实本质上还是走的同一条路,逼迫机器做出最优选择。
还是这幅图片为例,美女,落日,唯美。现在的人工智能生成的图片已经很完美了,但是在刚开始训练的时候,它生成的图片人类甚至根本看不懂,甚至有可能鼻子长在眼睛上面。
机器按照人们的要求生成了无数张图片,然后人类和它自己的纠错机制会不断告诉它,这张图片是错误的,鼻子不能长在眼睛上,正确的审美应该是这样的。
就在这样不断的否定中,突然,机器生成了一张还算不错的图片,然后人类告诉它:对了,就是这样的!不过在某些方面还需要改进,比如眼睛再大一点,头上和身体上光线和阴影的位置要一致,要符合物理规律等等。
然后,机器生成的图片就越来越好了,越来越理解人们的需求了,直到现在这种效果。
这其实和训练文字语音的道理是一样的,只不过文字和图片的数据量不一样,一本长篇小说,也就几兆大小,一个128G的优盘,就能把人一辈子看不完的书存下来,但是很多人的手机也是128G,存个照片都不够。所以图片的训练量要更大,需要的算力更多而已。
从文字到图片,本质没有变化,就是力大飞砖,往上堆算力就得了。
但是到了视频,翻天覆地的变化就开始了。我来举个例子,大家就知道这种改变是多么的恐怖了。
我们物理世界里的视频,大家都知道是一张一张的图片连起来的,电影是一秒钟24张图片,每张图片按照时间顺序都有细微的不同,一秒钟连放24张图片,就形成了连续的视频图像。
比如Sora生成的这段视频,它先是按照人类的要求生成一张初始图片,东京街头,时尚美女,街头人流,霓虹灯和地上的倒影等等,按照现在AI生成图片的技术,这已经很容易实现了。
然后恐怖的就来了,第一张容易,第二张就难了,视频它多了一个时间的概念,第二张要在第一张的基础上做出符合客观规律的改变。比如女子行走,正常是这样一步一步走,我们假设她走到这个瞬间,那么下一个瞬间的图片,这条腿就要往前迈了,你如果还是另一条腿往前扯那就肯定不对了。不光是腿,身体的各部分包括衣服都要做出正确的改变。
这还只是一个人,我们要知道,可不止女子一个人,视频里面出现了好几十个人,每一个下一张图片都得做出正确的改变;
还有街景,随着镜头的推拉,街景的每一个像素都得改变,比如招牌的大小你肯定不能和第一张一样,你得变;而且远景近景的变化幅度还不一样,你都得符合客观规律。
大家可以想象一下,第二张和第一张之间,虽然错了二十四分之一秒,但是大部分的像素点都需要重构了。
好了,经过千算万算,第二张图片总算是出来了,还有第三张呢。
第三张与第二张也要重复这个过程,而且还不能脱离第一张的定义范围。一分钟有多少张呢?
1440张!都要重复这个过程。恐怖吧?
视频和图片不一样,视频不仅需要更多的图片,不仅是这些更多的图片都要符合客观规律,而且它们还有一根时间线,还要符合时间线上客观规律的制约,也就是该迈左腿的时候你不能迈右腿。这个算力的堆积是恐怖的,严格来说,按照现有的算力,是根本不可能实现的。
所以我们看,现有的其它的AI生成视频,它们最多也就生成4秒钟,不超过100张图片,我们看这100张图片画质都很精美,单独看每张图片都没问题,但是它们连起来就看着别扭了,怪怪的。
表面看是时间轴这条算法不行,但是实质上,是现有的算力达不到需求。
对此,OpenAI推出的Sora也承认,它们也是采用了一种降维的方法来降低对算力的要求。它们把视频转换成一个矩阵,在矩阵里运算的结果再重新映射成像素输出,才使得现有的算力能够支撑60秒高画质的人工智能视频的输出。
具体的技术细节我肯定也不懂,咱也不装大仙了。只能说OpenAI是一个很伟大很神奇的公司,他们在人工智能这条路上,用遥遥领先来形容都谦虚了。
面对着这么强大的对手,中国很明显差距越来越大,追上的可能性越来越小。别说中国正在受制裁,就连没受制裁的微软,不也是抓瞎了吗?
但是,我要说但是了,这也从侧面说明了,人工智能这种怼算力,力大飞砖的实现方法。路也是越来越难走了。
OpenAI,拥有着世界上最强大的算力,研究和掌握着世界上最先进的实现方法。在视频领域爆肝了最少也得有半年的时间吧,我们仍然只是看到了几十分钟,而且是以慢动作为主的演示视频。
为什么是慢动作呢?很明显也是算力达不到。正常的视频一分钟是1440帧,而慢动作我也许只要生成500帧就够了,然后帧与帧之间,采用别的技术进行插值运算和平滑过渡,我能省点事。
虽说万事开头难,但是至少说明了,这种难度级别的上升不是个好事。
如果我的理解没有大的错误的话,现在全世界,特别是美国,所走的人工智能的道路,越到后面越难走。难度不是线性上升的,而是指数级的直着上去的。
从文字到图片,是一根毛和一只羊的差别,到视频阶段,简直是一只羊和呼伦贝尔大草原的差别了。以致于人类现有的算力都支撑不起来。
当然了,中国现在走的也是这条路,因为暂时都没有别的路可以走,就像二十年前的汽车产业,新能源车这条赛道还没影呢。
这条路最大的好处,是能刺激算力的更快升级,我们看英伟达的股价又涨到天上去了。这当然是一个好事,这条路前景还是有的,更重要的是,这都是探索和摸索的过程。
更先进的人工智能实现方式不可能从天上凭空掉下来,他就是这样,一步一步摸索出来的。现在所做的所有的努力,都是你第五个馒头吃饱了之前的第一二三四个馒头。
所以,即使中国在现有的人工智能赛道上差距越来越大,我们也必须努力追赶,没有在燃油车阶段追赶过程中所建立起来的产业链,中国不可能在新能源车的赛道上迅速就领先了。这是同一个道理。
而且,我们要认清一个现实,网上所有在说中国落后的,都在努力掩盖一个事实:中国是落后了,但只是相对于美国一家落后了。全世界192个国家,30多个地区,除了美国,你能找出第二个领先中国的吗?你一个都找不出来。
我们人一方面用客观来训练机器,但同时自己不客观那是不对的。美国是保时捷,一骑绝尘遥遥领先了;我们骑着马,排在第二,目前看追不上,差距越来越大了。但你往后看,有徒步的,有腿瘸着在地上爬的。更多的是死人,躺地上一动不动的。
我一直坚信,实现人工智能的道路绝不可能只有当前这一条路,那样才不符合客观规律呢。硬怼算力,力大砖飞是一个方法,不见得就是唯一的方法,更不见得是个好方法。
就像我以前举得一个例子:中国人炒个豆芽,盐少许,糖少许,醋少许。老外一听都懵了,啥啥啥,这都是个啥?
但是中国人一听就明白。这就是思维模式的不同,而且我一直坚信,中国人的思维模式,一定能探索出一个更优秀的人工智能解决方案。所以我说,人工智能,未来的希望在中国。
我们所处的这个世界,需要精确,但是更多的是模糊。你要让机械手用一个精确的力矩拿鸡蛋,大部分没问题,但有的肯定捏碎了,有的拿不起来。鸡蛋不可能每一个都是一模一样的。
我所理解的人工智能,应该是输入一些模糊量,然后输出一个合理的模糊量。才能更加适应这个世界和人类的需求。而这种对于模糊数据的理解和处理,现有的人工智能模式并不是最合理的,它需要耗费天量的资源才能近似达到,甚至还达不到。
所以,未来一定会有更优秀的硬件和软件算法出现。
如果出现不了,那才是不合理的。
有可能我们要等到量子计算的成熟,有可能还需要几十年,但是它必然会出现的,而且出现在中国的几率还很高很高。
为什么我这么有自信,因为就算是世界上最强大的OpenAI,你去看一看,华人的占比和贡献有多大?如果离开了这些华人,没人会怀疑,OpenAI瞎得不能再瞎。
华人在人工智能方面的天赋是绝对领先的。中国的问题在于科研氛围和制度短板。而这些外部环境的问题,都是可以改善的。几十年后会改善到什么样?让我们回头看四十年前的中国,你敢想象吗?这玩意儿都预测不了,不好说。
所以我们要客观看待OpenAI和Sora,首先要感到高兴,这是个了不起的成就,是对全人类做出的贡献,虽然这是美国的成就,但也是中国学习的榜样和追赶的目标。
然后我们要承认在当前人工智能赛道上,中国与美国正在拉大的差距。然后想办法去追赶,缩小这个差距。
为什么我不说反超呢?因为今天做节目没喝酒,我很清醒,我认为反超不了,比登天还难。
但是,我们还要认识到,条条大道通罗马,我不是非要走这条道!
别的道路一定是存在的,也一定更适合于中国。更何况,中国还是遥遥领先的老二,是唯一的一个可以跟美国正面竞争的国家。
所以根本没必要灰心沮丧,按照中国人不当第一就是落后的民族情绪,未来还是大有可期的。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
发表新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
无聊的流氓
金牌会员
0
关注
0
粉丝
97
帖子
Ta的主页
发布
加好友
最近发表
重量仅4.21克!我国科研团队研发出太阳能动力微型无人机:在纯自
从几百到几亿美元,各类无人机已遍布战场,中国该如何应对?
航拍无人机怎么选?大疆无人机盘点推荐
比“顺丰双尾蝎”还强!国产11吨级无人机开建,又是全球第一?
大疆今天发布的无人机,让我觉得上天也没那么难
“彩虹”VS“翼龙”,中国军用无人机两大王牌,都各有哪些精品?
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们