Sora配得上一句“遥遥领先”吗？

500

文 | 佘宗明

Sora+苹果头显VisionPro+脑机接口=？

这注定是个没有标准答案的问题。

在e/acc（有效加速主义）思维中，答案也许是“颠覆”“革命”“iPhone时刻”等大词不够用，“未来已来”的既视感愈发强烈。

在EA（有效利他主义）视角里，这可能意味着风险连着风险：深度伪造、后真相，意念失控、脑波异样……

担心“被AI替代”、热议“××行业已死”，成了Sora在舆论场激起的链式反应。震惊体和重磅发布体标题堆砌，则成了自媒体蹭热点的标准姿势。

在网上，还有些YY达人用脑补那些难以描述画面的方式，代偿着《完蛋！我被美女包围了》玩完后的意犹未尽：戴上VR眼镜，就能观看由自己意念发出的Prompt（提示词）生成的小视频，男主角是自己，女主角是刘亦菲杨幂刘诗诗热巴……

虽然打开方式各异，但现实中，大多数人终究是承认“二向箔原产地供应商”OpenAI的优秀的：去年初ChatGPT爆火带来的AI大模型热余温犹在，今年初文生视频大模型Sora又将AIGC推向新里程碑，怎一个“了得”二字了得？

饶是如此，仍有不少人对“开年王炸中的王炸”Sora翻起了白眼——他们手里拿着“DAO”“DeFi”“NFT”“Crypto”的概念合订本，准备在上面再加个“Sora”。

每场技术变革，都是在被质疑中扩散开来的，“泡沫论”几乎是每个风口都挥不去的阴影。

只不过，对Sora的质疑里，还掺杂了更为复杂的情绪配方。这类情绪配方，跟“大国技术差距”的对照关联，也被民族情绪托起的某种力场强化。

这番景象，让惯于自己打倒自己的胡锡进都有些坐不住。

在ChatGPT刚问世时，面对“胡锡进要被替代”的调侃，他还能调侃着回应“老胡不依附任何时髦的东西”。

到了Sora问世时，面对Sora“不代表什么”的论调，他怒斥这是“睁着眼睛硬说”“太不负责任”“给广大网民们灌迷魂汤”，还感慨：最可怕的是我们不敢面对问题，在一切都OK甚至很好的自我安慰和陶醉中，变得麻木。

挺耐人寻味的。

01

尽管总有“新工业革命”之类的强冲击字眼蹦出来提醒人们：AI时代大幕已启，人类离通用人工智能（AGI）又更近一步，ChatGPT和Sora面世都是标志性节点……可总有些从新卢德主义余烬里窜出的“看空”话语，跟“看多”声量形成对冲。

在盛产奇观的简中舆论场，把Sora看成“又一个Web3”“下一个元宇宙”的贬抑话语含量更是超标。很多人绣口一吐，就是一个“炒作，接着炒作”。

Sora明明凭着具备超长生成时间（60s）、单视频多角度镜头、细节高度仿真、理解物理世界等优势，实现了对同行的降维打击，引得Runway、Pika Labs、Stable Video几大竞品都俯首称臣。

可他们却微微一笑：无他，大力出奇迹尔。

Sora本是依托两项核心技术突破的突破——Spacetime Patch（时空Patch）技术和Diffusion Transformer（扩散型 Transformer）架构。

可他们却摆了摆手：这些技术又不新，全靠咱们谢赛宁。

你还想说些什么，他们甩出一堆翻车神图：椅子漂浮、反向跑步、玻璃杯诡异碎裂……然后满脸不屑地说：Sora也就比人工智障多走了几步而已，它能用多个1分钟视频“拼”成长达2小时的电影吗？不能。能表现影视剧中复杂的人物内心活动吗？不能。能生成三维化的虚拟世界让人在里面嗨吗？不能。

很显然，Sora没有让“现实不存在了”，毕竟现实中的杠精依旧在。

02

Sora当然没有免于质疑的豁免权。

Sora引爆科技圈后，满屏盛赞的同时就有许多质疑声冒出来。

点赞的人很多。

马斯克在X平台（原推特）上感慨：“GG Humans”“被人工智能增强的人类，将会在未来几年之内创作出最杰出的作品。”之后又不无遗憾地透露：特斯拉早在1年前就掌握了类似OpenAI的视频生成技术，它的真实世界模拟和视频生成是全世界最好的，只是这些训练数据来自汽车，所以生成的视频不是很有趣。

在OpenAI推出Sora的当天（2月16日）宣布Stable Video Diffusion更新1.1版本后又删除动态的AI视频生成初创公司Stability AICEO埃马德·莫斯塔克在X平台上感叹：“奥特曼（OpenAI创始人兼CEO）真是个魔术师”，并称Sora可以被视为AI视频的GPT-3。

Runway的CEO克里斯托瓦尔在X平台上发了句“Game On（比赛开始了）”。

Pika创始人郭文景表示:“我们觉得这是个很振奋人心的消息，我们已经在筹备，将直接对标Sora。”

英伟达高级研究科学家兼人工智能代理负责人Jim Fan认为，Sora代表了文本生成视频的 GPT-3 时刻。他断言，“Sora 是个数据驱动的物理引擎……是个可学习的模拟器或世界模型”。

被誉为“最懂DiT架构科学家”的谢赛宁说：Sora将改写整个视频生成领域。

360集团创始人周鸿祎更是据此预言，“AGI实现将从10年缩短到1年”。

500

质疑者也不乏其人。

Open AI自称Sora是“世界模拟器”，可很多大神级科学家不答应。

图灵奖得主、Facebook首席AI科学家杨立昆（Yann LeCun）怒斥，Sora不能理解物理世界。他还顺势安利了Meta前几天推出的AI视频模型 V-JEPA联合嵌入预测架构的优越性。

前谷歌、Facebook技术主管Hongcheng也表示：“AI模型不大可能通过被动看训练数据视频，就能掌握物理定律。”再聪明的智能体，也不大可能通过看太阳东升西落的视频，就能悟出地球围着太阳转。

谷歌AI研究员、Keras之父弗朗索瓦·肖莱分析，从Sora生成的部分视频看，它是依赖于数据插值和潜空间拼贴来生成图像，而不是真实的物理模拟。在他看来，通过机器学习模型拟合大量数据点后形成的高维曲线（大曲线）在预测物理世界方面是存在局限的，因为现实世界的复杂性和多样性不是AI模型能够通过有限数据就全部学习到的。

围绕Sora到底是不是物理引擎、世界模型的争论，估计一时半会无法止息。

03

Sora免不了被质疑，但质疑跟质疑也有区别。

人家争论火箭推进器燃料用C2H4、N2H4、高级硼硅烷哪个好，终归是科学范畴的讨论，你在旁边嚷着“得烧柴，最好是烧煤，煤还得精选，水洗煤不行”，就多少有些民科了。

目前看，网上已经冒出了很多大聪明，就在用“精选煤思维”看Sora。

秉持“蒸汽机不就是个活塞吗”的简化逻辑，他们一眼看穿了Sora的“本质”：不就是大力出奇迹吗？

还有人顺带着抛出一张图——“Web3.0，颠覆了时代；Houseclub，颠覆了时代；GoogleGlass，颠覆了时代；元宇宙，颠覆了时代……回头一看，时代还是原样”，硬生生将Sora问世的意义拉低到“造词游戏”的维度。

左一个“纯属彻头彻尾的炒作”，又一个“一惊一乍没出息”，他们就差来上一句“不过是奇技淫巧尔”了。

Sora的惊艳场面，他们选择性无视；Sora的翻车画面，他们拿着放大镜看。

也不奇怪：用前现代思维理解现代技术的人，是难有从明天看今天的“明天观”的，你跟他们说Sora可以像ChatGPT向GPT-4非线性跨越那样快速进化，形同于鸡同鸭讲。

通用人工智能时代的大门都已经叩开了，他们却站在门外不入，还哼着“全都是泡沫，只一刹的花火”。

跟他们说“中美科技差距又……”，更是碰到了他们的逆鳞。

事实上，在Sora问世后，“大国科技差距”的问题总是无法回避。

在ChatGPT引爆大模型军备竞赛后，中国出现了百模大战，不少国内大模型厂商都声称多项能力已经赶超ChatGPT。但OpenAI掏出“秘密武器”Sora，又让许多人认清了现实。

周鸿祎就分析，这样看来，中美间的AI差距还在扩大。

也有人认为，差距有是有，但没那么大。

如昆仑万维CEO方汉就认为，“国内厂商和国外厂商在文生视频的差距，不像大模型领域的差距那么大。”从技术上看，Sora领先国内同行大概半年。

差距是大是小，固然言人人殊，但首先得正视差距的存在。

现在的问题是，有些人习惯了错把“顺差”当“逆差”的思维意识中，对自媒体三天两头渲染的“光刻机大突破！”深信不疑，对“领跑-跟跑”角色锚定的差距却视而不见。

华大基因CEO尹烨这两天就撰文说：

如果把人类已经存在的语言、图像、音频、视频等这些资料库看成是人类文明的金矿，但是你已经有挖掘机了，我却被限制只能用铁锹，长此以往会是什么样的结果？

我们在芯片的问题上，可能犯了刻舟求剑的错误。比如总有一种声音，认为我们能够突破14纳米，甚至认为如果我们能追赶到7纳米，我们就会赢，但这个前提是我们的竞争对手就不进步了，就在原地等着。我并不是说，你追赶到14纳米、7纳米不重要，而是你要明白，竞争对手会在同样的时间，实现3纳米、2纳米，甚至1纳米。

我们可以在战略上藐视，但不能不在战术上重视……当下据不完全统计，国内号称有大模型的公司，已经有300多家，相信大部分还是“多小散乱”，面对GPT在简体中文的世界里，似乎尚能一战，但面对Sora的横空出世，可有一个能打的，甚至是接近的吗？

说到底，缩短差距的前提，永远是正视差距。

04

胡锡进之所以驳斥那些对准Sora的“奇技淫巧论”，究其原因大概就在于，诸如此类的颇具误导性。

把ChatGPT或Sora的深远影响降维，以维持“科技赶超”想象，只会是自我麻痹。到头来，面对技术革命轻易转过身去，没准是跟正在到来的AI时代擦肩而过。

要知道，AI时代的技术演化不是匍匐向前的，而是跳跃式的——经常从一个断层跃上另一个断层。

眼下我们就已进入科技发展的“最后7分钟（施拉姆语）”时刻。越是这时候，我们越不能搞“颅内闭关”。

就在过去1个月，全球科技圈发生了很多事：

1，英伟达（Nvidia）前不久发布了在本地运行的名为“Chat with RTX”的Demo版个性化AI聊天机器人。高性能AI处理器的加持，会加速AI+N类终端浪潮的到来。

2，2月16日，谷歌发布Gemini1.5，上下文窗口长度扩展到100万个tokens（GPT4-turbe12.8万tokens），是目前最大的上下文窗口，Gemini1.5pro能一次处理1小时的视频、11小时音频、超3万行的代码库、超70万字的代码库。说出来的是“最大”，没说出来的是“完爆GPT-4”。

3，2月17日，Meta推出了名为“V-JEPA”的视频预测模型。在此之前，Meta还推出了AI视频模型Fairy。看得出来，杨立昆对Sora100个不服。

4，差不多1个月前，奥特曼的7万亿美元造芯计划被曝出，旨在对标英伟达。从算力集群到芯片制造，奥特曼下了一盘很大的棋。

5，春节前，阿里巴巴发布了通义千问大模型Qwen-1.5版本，涵盖了6个不同参数规模的型号。节后伊始，OPPO、魅族都宣布，停止传统智能手机研发，资源向AI手机集中。

毫无疑问，Sora的出现，也是大时代的注脚。

在此语境中，我们对Sora价值的认知镜框，该是AI时代的背景框，而不是预设立场的思维框架。

2月19日，“天才少年”谢赛宁在朋友圈辟谣“谢赛宁是Sora发明者”之余，就抛出了一个问题：（大家）在问Sora为什么没出现在中国的同时，可能也得问问，假设真的出现了（可能很快），我们有没有准备好？

目前看，答案一目了然：很多人都没做好准备。

“没做好准备”体现在很多方面。

比如，在硅碳融合的重要关口，在浪潮已来的关键节点，有些人依旧是拿着前现代的眼光看现代技术变革，依然是用狭隘思维看技术浪潮。

又如，AI产业发展需要依托于创新友好型生态和氛围。拿AI视频模型来说，它要拼工程化调参能力、拼算力，更要拼创新生态与创新土壤。唯有宽松包容的环境，才能更好地激发企业与人才创新的强劲活力、创造的内生动力。揆诸现实，如果说，缺芯是外部掣肘，那摆在企业面前的内部掣肘也不少。

科技观察者王兆洋就假设：OpenAI不是transformer模型发明者，Stable Diffusion不是diffusion模型发明者，如果它们诞生在中国，会不会也躲不过被骂“套壳”的命运？看到这，雷军兴许会湿了眼眶。

厄休拉·M. 富兰克林在《技术的真相》里说：“技术的发展和运用从一个社会结构中产生，然后被嫁接在这个结构之上。”

她认为，“尺寸是生长的自然结果，但生长本身是不能被强取的，它只能通过提供一种适宜的环境而得到培育和鼓励。生长是发生性的，不是制造出来的。”

某种程度上，“我们为Sora的到来准备好了吗”的孪生命题是：我们为“Sora”的培育提供了适宜的社会结构了吗？

05

Sora没有说自己“遥遥领先”，但毋庸讳言，就眼下看，它配得上一句“遥遥领先”。

而弥补差距，靠的自然不是“人家OpenAI的Sora一路狂飙，我们199元的Sora名（割）师（韭菜）课铺天盖地”，而是做真正该做的事。

在Sora问世后，有人写道：这意味着，未来的美国将更加美国，未来的中国将更加中国。

这句话的指向有很多，但最不该有的一个，是“差距Bigger Than Bigger”。

Sora配得上一句“遥遥领先”吗？

01

02

03

04

05

AI时代不甘落后：英特尔全新软硬件平台助力企业加速创新

第八届社交媒体风向大会 | 20+AI专家，预测AI下的产业新风向

算子开发到推理加速，一位00后开发者的“升级打怪”之旅

这个AI赛道，一个月内融资4笔，一大半的创始人是华人

华人又在AI赛道出手，Ins创始人和a16z投了1000万美金