图片来源:由无界 AI 生成
果然,所谓“Sora 概念股”在龙年首个交易日一片红了。
甚至其中不少公司,去年同一时间也被算在 ChatGPT 概念股里面……
而主角 Sora 在持续刷屏 72 小时后,势头依然不减,还有新能力被不断发掘出来。
比如这段“寄居蟹用灯泡当外壳的夜间场面”。
海浪与沙滩的互动非常细腻,寄居蟹腿上的纤毛也活灵活现。
对比真实拍摄的类似场景照片,也就灯泡没有电源不应该亮这一个明显破绽了。
所以说,Sora 到底算不算理解了世界、掌握了物理规律还有争议。
但说它理解了《我的世界》恐怕没人有意见。
这段“《我的世界》最华丽 8K 高清材质包”,连游戏的 UI 都准确且保持稳定,也揭示了训练数据中很可能包含大量游戏画面。
当生成纯现实场景时,“小猫在大雨中的后街寻找遮蔽物”让 Sora 开发领队 Tim Brooks 直呼“快来个人收养它”。
另一位领队 Bill Peebles 则发掘出 Sora 生成设计一系列事件的完整故事的能力,在试验中他安排了四个连续事件:
金毛和萨摩耶穿过纽约
出租车停下来让狗狗通过人行横道
它们经过卷饼和热狗摊
最后它们看到百老汇招牌
Peebles 表示 Sora 的表现还远称不上完美,但也算是胜任了。
内测已经三天,Sora 还在不断带给人们新的惊喜。
现在网友们只想拥有一件事,那就是 Sora 访问权限。
与此同时,经过第一波震撼之后的科技圈各方势力也逐渐缓过劲来,纷纷围绕 Sora 展开了自己的行动。
终成圈内外顶流
马斯克是最坐不住的。
一边抱怨自己出钱创办的 OpenAI 从开源,转向盈利。
一边晒特斯拉一年前就可以精准模拟自动驾驶环境的视频了:
展示中,特斯拉可以模拟各种驾驶环境,比如给出直行的指令,模型就能自动生成模拟汽车直行的视频:
同为 AI 生成视频的 Pika 也迅速跟进,紧急推出“文本一致性”参数设置功能,可以让 Pika 更贴近 prompt 或者是更有创意:
不出所料,有网友就评论了“什么时候会针对 Sora 推出新版本”:
对于这个问题,Pika 创始人郭文景最近也在接受钛媒体采访时表示“已经在筹备直接冲,将直接对标 Sora”,不过具体计划暂时还未透露。
此外,音频这边也赶紧跟进了一波,给 Sora 生成的视频配音!
之前爆火的 AI 语音合成初创公司 Elevenlabs 就做了一段酱婶儿的视频:
英伟达科学家 Jim Fan 也转发点评了一番:
这段音频基于文本提示,但其实应该是同时作用于文本和视频,若要学习精确的视频到音频的映射,还需在潜在空间中模拟一些隐式的物理定律。
更具体一点,要在视频的基础上直接配音,Jim Fan 认为 end2end transformer 必须要关注以下几点问题:
识别每个物体的类型、材质和空间位置;理解物体之间复杂的相互作用;识别环境;从模型的内部存储器中检索物体和周围环境的典型声音模式;运用物理定律来组合和调整声音模式的参数,甚至可以即时合成全新的参数;在复杂场景中,模型需要根据空间位置叠加多个音轨。
国内大伙对 Sora 的讨论也非常热烈。
框架大神贾扬清用 5 个字总结了 Sora——“真的非常牛”,他还从不同角度给出了 4 点短评:
对标 OpenAI 的公司有一大波被其他大厂 fomo 收购的机会;
长线闭源寡头,开源还需要一段时间才 catch up;
从算法小厂的角度,要不就算法上媲美 OpenAI,要不就垂直领域深耕应用,要不就开源;
infra 的需求继续会猛增。
360 集团创始人周鸿祎这次对 AGI 的看法来了个 180 度大转变:
人类对 AGI 的突破,可能就剩下最后一步了。
他在小红书发布了一段视频,认为“Sora 生成视频堪比 CG”。
除对 Sora 的效果感到惊讶外,周鸿祎还猜测 Sora 背后技术关键有三:
并不是使用传统的 3D 建模然后再进行渲染,应该还是通过大量训练模拟了人类观察世界、描绘世界、表现世界的能力;
Sora 的训练输入,不仅包含大量视频电影的数据,Sora 不仅能解读出画面中有什么元素,还能理解物理定律;
OpenAI 应该自己产生了很多 3D 内容,利用 3D 模型将物理知识输入给 Sora。
还有其他网友爆出 MSRA 前资深研究员梅涛对 Sora 的看法,其中就讲到 Sora 是一个里程碑式的技术进步。
不过他认为 Sora 要实现商业化还需要解决可控性、Prompt 的挑战,“如果说实现商业化需要做到 100 分(60 分技术 +40 分场景),以往人工能做到 90 分,Sora 的出现只解决了那 60 分,甚至到 75 分”。
值得一提的是,学术界这边,有消息透露有人已经开始组队复现 Sora 了:
One More Thing
关于 Sora 这个名字的含义,它不像 GPT 代表“生成式预训练 Transformer”一样是技术名词的缩写。
大家纷纷猜测来自日语“空”的发音,ChatGPT 账号也用一首歌名给出相关暗示。
那么 Sora 到底什么时候能玩上呢?
有网友预测,如果按照 DALL·E3 的发布节奏,2 月 25 日和 3 月 16 日附近,值得期待~
参考链接:
[1]https://twitter.com/_tim_brooks/status/1759128729908085199
[2]https://twitter.com/DrJimFan/status/1759287778268025177
[3]https://twitter.com/model_mechanic/status/1759343673484165262
2024 年 1 月 5 日,【智求共赢・中国 AIGC 产业应用峰会暨无界 AI 生态合作伙伴大会】在杭州未来科技城会议中心举行。
大会汇集行业资深专家及领军企业,共同聚焦 AIGC 领域,围绕当下热点话题进行深度延展,探讨行业激烈竞争下的运营新思路、发展新模式!点击文章,回顾精彩内容~
AI 新智界园区开放合作啦!
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。