AIPress.com.cn报道
12月5日消息,Runway在纽约正式发布全新的文本生成视频模型Gen-4.5,并高调宣称其在综合表现上已经超越OpenAI的Sora2和Google的Veo3。根据官方博客介绍,这一代模型具备更高视觉逼真度、更强创作控制能力,能够生成电影级、细节丰富的动态画面,甚至在光影、动作和画质控制上接近专业制作水准。
Runway因2023年推出Gen-1视频模型而名声大噪,而如今的Gen-4.5被称为视频生成能力的又一次跃升。官方表示,新模型在预训练效率与后训练算法上都有显著提升,并在时间一致性与动作可控性方面设定了新基准——也就是说,人物不会突然变脸、物体不会随机消失,连续帧过渡更自然。
在视频模型榜单Elo评测中,Gen-4.5得分1247分,超过GoogleVeo3的1226分与OpenAISora2Pro的1206分,以小幅优势夺得头名。当然,这也意味着它并非碾压对手,而是领先但差距有限。
Runway强调,Gen-4.5在保持Gen-4原有速度优势的同时,进一步提升了生成效果。它能够模拟真实的物理细节,如液体流动、材质纹理、头发摆动等,并确保画面在运动过程中的自然一致性。视觉风格方面,既能拍出电影质感,也能走写实动画路线,适用范围更广。
值得注意的是,这一代模型由Runway与英伟达合作打造,训练与推理均基于Blackwell与HopperGPU运行。不过官方也坦言,这个版本仍存在一些问题,例如因果逻辑偶有偏差、物体持久性并非完美,还有“成功偏置”——本该射偏的箭可能会神奇击中靶心。
官方表示,这些缺陷是构建“可靠世界模型”必须面对的难题,会持续迭代优化。当前Gen-4.5已向所有订阅用户开放,创作者与企业无需额外付费即可直接体验。(AI普瑞斯编译)