找回密码
 立即注册
搜索

ChatGPT图像识别能力解锁和深度分析

来源:老罗不说

作者:罗予晨

编辑:好困

【新智元导读】其实,ChatGPT是可以识别图片的!你只需要输入图片网址,并确保图片能不受限制地被OpenAI的服务器读取到。



因为ChatGPT网页上没有上传图片按钮,所以一般人都不知道它能识别图片。但是其实它是可以识别图片的,你需要输入图片网址,确保图片不需要登录或者其他限制条件就能被美国服务器读取到。
目前看它读取Wiki、CNN图片都没有问题。
那么它能识别出什么内容?
普通新闻图片








ChatGPT没有识别出具体的装备型号,但是描述了一个非常贴近的场景氛围。对构图的视角有较强的理解力。
人物图片








马克龙这张,没有识别出人脸,也没有识别出画面的文字。但是可以基本描述出画面内容,虽然有一些错误。重点是它对场景的猜测,和接近人的感觉,比如它说马克龙像是很有礼貌的人。
上面两张是识别精度一般的,这里还有画面特征比较强,识别精度较高的。
特定历史图片








这幅越战美军搜查敌人的照片。被ChatGPT详细的描述了细节,这幅图的场景,人物和细节的信息量,会比上面的两张更大(ChatGPT看起来没有对特定的物体和人脸做针对性的优化),所以描述非常生动,虽然有少许错误。而且对人的工作态度这样抽象的信息也有理解。
值得注意的是这里提到警察。这图片来自Wiki越战词条。如果ChatGPT是通过读取连接的文字信息来获取图片信息的,那么就不会认为那些执行任务的人是警察。因此可以认为它的结论完全来自于图片信息。
全球著名图片








这是一幅名画,这个时候ChatGPT是能完整的识别人物和事件的。同时仍然有很多抽象的描述,比如动感等。
针对图片的人机互动








这幅画,一开始ChatGPT没有看懂。给它输入更多信息之后,它能理解这幅画,且描述了画面的感情。所以ChatGPT对图片的理解是能够交互的,而不是一次性的输出。

地标图片








伦敦地标识别成功。







红场识别准确




捏造了一个所谓地标,查了没有这样的地标。

视频内容识别








ChatGPT是承认自己可以识别视频的,但是在油管、CNN等网站的内容识别中,输出有错误。这是业务没有开放造成的,它甚至知道我的问题是看快进的进度。







如果不多问一句,都不知道它是不是真的看了视频。

继续保持对ChatCPT的关注。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评6

jiaotongzhan 2023-2-14 20:58:21 显示全部楼层
现在,其实可以借助ChatGPT“喂给他”视频了,然后再让它给你梳理和概括视频内容,主要讲了个啥,5个小时时长的视频,它用5分钟给你全部讲明白。我昨天体验了下这个能力,也更新了一条视频,确实震撼。
回复

使用道具 举报

zhu001 2023-2-14 20:58:46 显示全部楼层
转发了
回复

使用道具 举报

huangyuan 2023-2-14 20:59:01 显示全部楼层
有没可能是根据上下文推断,并没有真正看图
回复

使用道具 举报

高阳大闲人 2023-2-15 07:06:32 来自手机 显示全部楼层
看帖要回,回帖才健康,在踩踩,楼主辛苦了!
回复

使用道具 举报

21CN 2023-2-15 13:32:32 显示全部楼层
未完待续哈哈!
回复

使用道具 举报

结束了嘛?有种还没完成的感觉,嘻嘻
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies