门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助
公社首页
中国人工智能社区
公社版块
公社群组
Group
升级会员
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
帖子
公社群组
用户
道具
勋章
任务
设置
我的收藏
退出
首页
›
公社水吧
›
大话智能
›
AI技术发展新难题:互联网信息不够用了,数据短缺或阻碍 ...
返回列表
AI技术发展新难题:互联网信息不够用了,数据短缺或阻碍AI技术进步【附人工智能行业发展趋势分析】
[复制链接]
fvhPHALo
2024-4-29 19:04:48
显示全部楼层
|
阅读模式
图片来源:摄图网
人工智能(AI)公司OpenAI再放“大招”!当地时间4月1日,
OpenAI宣布,将允许用户直接使用ChatGPT,而无需注册该项服务,
这将让人们更加容易体验人工智能的潜力。OpenAI表示,它将从周一开始逐步推出这一功能,让185个国家和地区的超1亿用户使用ChatGPT来学习新事物、寻找创意灵感,并获得问题的答案。
自ChatGPT问世以来,它的强大功能不断改变着人们的工作与生活方式,迅速成为用户增长最快的应用程序。然而,近期据Similarweb的数据显示,
自2023年5月ChatGPT全球访问量达到18亿次的巅峰后,其流量增长开始逐渐放缓。
面对这一挑战,OpenAI决定放宽对ChatGPT的限制,让更多人无需注册即可使用。
这背后,反映了人工智能发展的困境——现有的互联网信息量可能不足以支撑科技巨头训练更高级的人工智能系统,甚至高质量文本数据的匮乏可能阻碍AI技术的进步。
面对互联网信息不足的问题,OpenAI正在考虑用YouTube视频里的对话来训练它们的下一代智能模型GPT-5。
有的公司甚至创造合成数据来学习,尽管这种方法被许多研究人员认为可能会导致系统发生严重故障,但不失为克服数据短缺的一种潜在途径。
据Epoch研究所的AI研究员Pablo Villalobos估计,GPT-4训练涉及的数据量高达12万亿tokens,而未来模型,如GPT-5,可能需要60万亿到100万亿tokens。因此,即便是利用所有可用的高质量语言和图像数据,
研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。至于如何弥补这一巨大的数据缺口,目前尚无明确方案。
针对数据短期问题,Meta也提出应对方案,其创始人扎克伯格近期强调,公司通过Facebook和Instagram等平台拥有的大量数据,为其AI研发提供了重要优势。
扎克伯格表示,Meta能够利用网络上数以百亿计的公开共享图片和视频,这些数据的规模超过了大多数常用数据集,尽管其中高质量数据的比例尚不明确。
从“AI技术面临数据短缺难题”回看人工智能行业发展情况:
——人工智能市场规模情况
受益于国家政策的支持,以及资本和人才的驱动,我国人工智能产业蓬勃发展,已步入世界前列。根据中国信通院发布的数据,我国人工智能产业规模从2019年开始快速增长,2021年同比增长达到33.3%,2022年产业规模达到5080亿元,同比增长18%。初步统计,2023年规模达到5784亿元,增速放缓至13.9%。
——AI大模型是一种新的智能计算范式
超大规模智能模型,简称大模型,是近年兴起的一种新的人工智能计算范式。和传统AI模型相比,大模型的训练使用了更多的数据,具有更好的泛化性,可以应用到更广泛的下游任务中。按照应用场景划分,AI大模型主要包括语言大模型、视觉大模型和多模态大模型等。业界典型的自然语言大模型有GPT-3、源、悟道和文心等。视觉大模型也已广泛应用于自动驾驶、智能安防、医学影像等领域。基于多模态大模型的以文生图技术也迅速发展,AI内容生成(AI Generated Content,AIGC)已成为下一个AI发展的重点领域。
——合成数据为AI模型训练开发提供强大助推器
合成数据是计算机模拟技术或算法创建、生成的自标注信息,可以在数学上或统计学上反映真实世界数据的属性,因此可以作为真实世界数据的替代品,来训练、测试、验证AI模型。目前人工智能仍处于1.0阶段,数据是最大阻碍,但合成数据将有效助推人工智能走向2.0阶段。
——合成数据加速构建AI赋能、数实结合的大型虚拟世界
合成数据指向的终极应用形态是借助游戏引擎、3D图形、AIGC技术构建的大型虚拟世界。大虚拟世界对于人工智能的核心价值在于,为测试。开发新的人工智能应用提供了一个安全、可靠、高效以及最重要的——低成本、可重复利用的环境。展望未来,可从三个方面来理解大型虚拟世界为什么会成为AI数实结合的关键场景。
两年前,据Epoch研究所的AI研究员Pablo Villalobos预测,到2024年年中,对高质量数据的需求超过供给的可能性为50%,到2026年发生这种情况的可能性为90%。
自那以后,他们变得更加乐观,在AI研究员Pablo Villalobos及其团队的审慎评估下,
新的预期显示,这种短缺风险将延迟至2028年。
这项乐观的更新基于对当前数据质量和可用性的深刻洞察。
Villalobos指出,互联网上的绝大多数数据并不适合作为AI训练材料。在无尽的信息流中,只有一小部分数据(远低于先前预计)能对AI模型的增长和发展做出实质性贡献。
前瞻经济学人APP资讯组
更多本行业研究分析详见前瞻产业研究院《中国人工智能行业发展前景预测与投资战略规划分析报告》。
同时前瞻产业研究院还提供产业大数据、产业研究报告、产业规划、园区规划、产业招商、产业图谱、智慧招商系统、行业地位证明、IPO咨询/募投可研、IPO工作底稿咨询等解决方案。在招股说明书、公司年度报告等任何公开信息披露中引用本篇文章内容,需要获取前瞻产业研究院的正规授权。
更多深度行业分析尽在【前瞻经济学人APP】,还可以与500+经济学家/资深行业研究员交流互动。更多企业数据、企业资讯、企业发展情况尽在【企查猫APP】,性价比最高功能最全的企业查询平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
发表新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
fvhPHALo
注册会员
0
关注
0
粉丝
16
帖子
Ta的主页
发布
加好友
最近发表
重量仅4.21克!我国科研团队研发出太阳能动力微型无人机:在纯自
从几百到几亿美元,各类无人机已遍布战场,中国该如何应对?
航拍无人机怎么选?大疆无人机盘点推荐
比“顺丰双尾蝎”还强!国产11吨级无人机开建,又是全球第一?
大疆今天发布的无人机,让我觉得上天也没那么难
“彩虹”VS“翼龙”,中国军用无人机两大王牌,都各有哪些精品?
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们