追不上Sora的同行有难了
作者|毕安娣 来源|字母榜(ID:wujicaijing)
Sora公布第10天,同行已经坐不住了。
2月16日,中国大年初七,OpenAI公布了全新的生成式人工智能模型Sora:输入自然语言指令,输出至多60秒的视频。
从文本到视频的生成式AI模型并不新鲜,但sora——就像ChatGPT——一样,因其断崖式的质量提升,登时点燃了互联网。高清的画质,流畅的画面,乍看之下颇为自然的物理轨迹,和一年前近乎鬼畜的“威尔·史密斯吃意大利面”视频看起来像隔了一个世纪,同行去年才发布的AI产品与之相比也黯然失色。
10天很短,但在AI领域却足以生变。
至少有两家AI界“当红炸子鸡”站了出来:2月22日,StabilityAI正式开放Stable Video的公测,该产品背后的模型Stable Video Diffusion去年11月就已经发布。几乎同时,另一家在文生图领域颇有建树的Midjourney也透露,可能会在下一次迭代时包含视频功能。
昔日“炸子鸡”站在阴影中,追不上Sora的同行有难了。
一
在接受了Sora演示视频的直接冲击之外,人们立刻开始做纵向和横向的比较。
纵向比较,人们拿出了一年前“威尔·史密斯吃意大利面”的AI视频。这位好莱坞明星脸部变形严重、面的形态千变万化,分分钟触发恐怖谷效应,越看越诡异。
一年之后,Sora已经可以做出一个女人在东京街头漫步的视频,不管是画面质量、连续性和稳定性,还是女人的步态与神情,都已经几乎可以以假乱真,让人连连称赞:文本到视频的进步也太大了。
可惜的是,尽管无数网友在OpenAI CEO山姆·奥特曼(Sam Altman)的社交媒体账号下求Sora版本的“威尔·史密斯吃意大利面”,并没能得偿所愿。倒是史密斯本人跑出来整了个活儿,真人拍摄,“伪造”了一个新版本。你别说,还真差点给人骗过去——真人都能拍视频假装是AI生成的了,倒也足见Sora视频的高质量。
横向对比,同行就有点尴尬了。OpenAI把每一个Sora演示视频的文本指令都公布了,虽然人们不能直接用Sora,但是可以拿着指令去市面上已有的产品里试,看看有什么差别。
不试不要紧,一试吓一跳:看到Sora视频的时候就觉得厉害,看了同行的表现更对Sora的威力有了新的认知。
同样是女人在东京街头漫步的指令,Runway生成的视频暂停看还都像那么回事,连起来就只能用“千变万化”形容,女人的形象并不能随着时间的推移保持稳定。要知道Sora的演示视频中还有机位的变化,从远景到脸部特写,女人的形态始终如一。Runway生成的视频更像是很多张图片的动态融合。
StabilityAI——就是那个开源了文生图Stable Diffusion的公司——的Stable Video生成的画面清晰度和美观度都很不错,但是女人的脸变形严重,看起来很像一个骷髅头,诡异感拉满。
Pika则有些取巧,其画面相对流畅,但比较模糊,且并非写实风格。
此外,打闹的猛犸象、行驶中的汽车、俯瞰的景观、看蜡烛的小怪物等指令都被网友做了横向对比,Sora并非和同行打得有来有回,而是碾压了同行。
二
一朝之间,文生视频当红“炸子鸡”发现自己站在了OpenAI投下的阴影中。
从文本到视频的AI工具并不是新鲜事物。在2023年,多个文本到视频AI工具问世,Runway、PikaLabs(下称Pika)、StabilityAI等初创公司在这个赛道都备受瞩目,热钱不断,估值暴涨。
其中Runway成立于2018年,3月开放Gen-2内测,6月正式对外发布。此前有Gen-1图像到视频AI工具。Runway同时还技术支持了多部电影。其中最大名鼎鼎的是奥斯卡获奖影片《瞬息全宇宙》。
Runway的CEO兼联合创始人克里斯托瓦尔·巴仑苏埃拉(Cristóbal Valenzuela)说:“我们已经看到了图像生成模型的爆发。我相信,2023 年将会是视频之年。”
在5月时,Runway已经完成了1.41亿美元的D轮融资,投资方包括谷歌、英伟达等,估值暴涨三倍,达到15亿美元,
Pika去年4月刚刚成立,A轮融资达5500万美元,估值登时超过2亿美元,11月就发布了第一个文本到视频产品Pika1.0。到了12月时,其用户已有超过50万,每周生成近百万视频内容。
而StabilityAI则因其文本到图像工具Stable Diffusion名声在外,早在2022年获得1亿美元融资后,估值就已经超过了10亿美元,成为独角兽企业。去年11月,Stable Video Diffusion发布,注意后面还有一个“Diffusion”后缀,这是一个基于Stable Diffusion的生成式视频基础模型,需要用户自己部署使用,还不算面向大众发布的产品。
三家初创公司,2023年三个重要生成式视频产品/模型,突然就被Sora会心一击。
在OpenAI兴冲冲向世界展示Sora之后,Runway的CEO巴仑苏埃拉在社交平台X上发帖:“游戏开始(Game On)。”而StabilityAI的CEO兼创始人莫斯塔克(Emad Mostaque)则将奥特曼称作“巫师大人”。
从演示视频来看,Sora的确有改变游戏格局的威力,跟不上Sora的同行有难了。
参照ChatGPT发布之后,虽然AI浪潮让投资人热情高涨,AI初创公司如雨后春笋般冒出来,新晋独角兽一个接着一个。但这是一个冰火两重天的故事,不少AI创业公司走上下坡路,或寻求收购,或大幅裁员,甚至就此寿终正寝。据智东西梳理,仅2023年11月到2024年1月,全球就有AI新闻初创企业Artifact、AI医疗公司Olive等4家AI初创企业宣布关停。
The Infoemation称,至少有7家开发生成式视频的AI公司,共筹集了至少5.5亿美元的资金。有投资人私下对The Information表示,之前刚刚错过某热门AI视频初创企业的融资,看到Sora的视频后“感到庆幸”。
三
人工智能赛道热度高,但门槛也高,厮杀之中刀光剑影,掉队就可能掉入坟墓。
知名AI初创企业Huggine Face在一篇博文中,提到了文本到视频的三大挑战:算力挑战,确保跨帧空间与实践的一致性伴随着高计算成本,使得大多数研究人员无法负担这类模型的训练费用;缺乏高质量数据集,用于文本到视频生成的多模态数据集非常稀少,而且经常缺乏注释;指令模糊性,如何以一种让模型更容易学习的方式描述视频不是一件容易的事。
即便是看似站稳了脚跟的StabilityAI都麻烦不断。去年6月,福布斯发布一则长新闻,超过30位StabilityAI前员工和投资人细数创始人兼CEO莫斯塔克的9大罪证,包括:窃取StableDiffusion成果融资10亿;隐瞒融资困难;夸大公司收入;拖欠员工工资;学历和工作经历造假。
抛开其他不谈,硅谷“当红炸子鸡”却又融资困难、公司收入被夸大的问题,着实令人意外。知情人士称,StabilityAI每个月的开销大概是800万美元,而莫斯塔克却曾自爆公司8月的营收大概在120万美元,有机会超过300万美元。莫斯塔克很快就删除了该帖,但从这个数字不难闻到烧钱的味道。
11月,也就是其发布Stable Video Diffusion模型的同月、公司完成1亿美元融资的一年后,StabilitAI传出多位高级管理人员辞职、公司财务状况脆弱的消息,并一度传闻考虑出售,这一消息随后被莫斯塔克否认。
入不敷出、人才流失,StabilityAI的危机暴露了光鲜的热门创企的软肋。
巨头的加入也会让战事更加激烈。在AI视频的赛道,巨头早有布局。2022年10月,Meta和谷歌相继发力。Meta先发布了Make-A-Video模型,仅一周后,谷歌CEO桑德尔·皮查伊(Sundar Pichai)亲自安利他们在这一领域的两个最新成果,Imagen Video和Phenaki,分别强调视频品质和长度。
但不管是Meta还是谷歌,目前都尚未向公众开放其文本到视频AI工具。谷歌官方认为用于训练AI视频模型的数据仍包含有问题的内容,可能会导致Imagen Video产生图形暴力或色情剪辑,造成不良影响。巨头的保守操作大家也都熟悉了,在自然语言聊天机器人的赛道,谷歌也是早早就手握模型但未向C端推出产品,原因也是安全问题。但ChatGPT与微软的联手让巨头走出保守,Sora未尝不能做同样的事。
已经有巨头有新动作。在Sora公布的一周前,字节宣布人事变动,原抖音集团CEO张楠宣布辞去集团CEO一职,未来把精力聚焦在剪映的发展上。据时代周报援引接近剪映的人士,张楠亲自带队寻求在AI辅助创作上突破,并即将推出一个AI生成视频的产品。
面对新开的“游戏”,Sora的同行只能全力向前。
就在Sora公布的几天之后,2月22日,StabilityAI正式开放了Stable Video的公测,从模型走向人人可以方便上手的产品。虽然视频长度还是比较短,只有7秒,但视频质量比较高。莫斯塔克在社交平台上宣传新产品时显得很谦虚,表示开放的原因是:“我们想要创造类似Sora的大型开放的Stable Video2,但需要更多的数据和计算。”
此外,在文生图领域有超高口碑的Midjourney也跑步入场,创始人大卫·霍尔兹(David Holz)在Office Hours中透露,下一个版本,也就是Midjourney V7“可能包含视频功能”。
OpenAI现阶段还在对Sora进行评估,距离Sora正式对外公开可能还有几个月的时间。好消息是,同行还有时间应变。坏消息是,留给同行的时间不多了。
参考资料:
1、智东西:《AI创业冰火两重天:Sora降世资本狂欢,数家创企倒闭关门》
2、连线Insight:《Sora来了,字节发力:张楠的重任和挑战》
3、新火种:《被迫卖身、CEO下台、高管出走,又一家AI独角兽出事》
4、机器之心:《图像生成卷腻了,谷歌全面转向文字→视频生成,两大利器同时挑战分辨率和长度》
5、财联社:《AI圈子不太平 知名开源模型开发商Stability AI被曝 “寻求卖身”》
编者按:本文转载自微信公众号:字母榜(ID:wujicaijing),作者:毕安娣
广告、内容合作请点这里:寻求合作
咨询·服务