进击中Sora

时间：2024-06-01 05:54

来源：星光生活

点击：

进击中Sora

出品 | 虎嗅科技组

作者 | 杜钰君

编辑 | 苗正卿

头图 | 视觉中国

2 月 16 日，OpenAI 发布了首个文生视频模型 Sora。用户可以通过输入自然语言提示词，生成长达 1 分钟的视频。Sora 也因文生视频的强大功能而被称为 " 史诗级大模型 "。

然而，出于公司发展战略、商业化等的多方考量，OpenAI 选择了闭源 Sora，甚至遮蔽了模型训练的技术性细节。当 OpenAI 变成了 ClosedAI，一众大模型技术和创业团队开启了复原 Sora 的计划。

" 世界模拟器 " 的激励之下，佼佼者众。继 2024 年 3 月 18 日的 Open Sora 1.0 之后，Colossal AI 再次推出了开源 Sora 中的尖子生—— Open Sora 1.1，在开源模型的艰难复现之路上迈了一大步。

Open Sora 1.1 是开源视频生成模型 Open Sora 1.0 的第二代，该模型支持文本到视频、图像到视频、视频到视频等多模态的功能实现，且能够进行自主视频拼接的同时保证视频内容的 3D 一致性。此外，Open Sora 1.1 的动态分辨率也同样出彩，无需预处理便可以直接处理任意分辨率的视频。

与初代相比，该版本在功能、训练效率和整体灵活性方面均有了显著提升。最显著的改进之一是能够生成长达 21 秒的视频，与 Open-Sora 1.0 的 2 秒限制相比提升了十倍多，时间范围的大幅扩张为更广泛的创意短视频的落地打开了方便之门。

此外，新版本还大幅增加了模型大小和数据集。与 Open-Sora 1.0 版本的 40 万个训练视频相比，Open-Sora 1.1 的训练数据集直接提升了 25 倍，此外，该模型本身还拥有 7 亿个参数，再搭配训练过程中对原有的 STDiT 架构进行了关键性改进，包括将时序注意力中的正弦波位置编码替换为更高效的旋转位置编码，以及 QK 归一化技术等的引入，保障了 Open Sora 1.1 半精度训练的稳定性。

Open Sora 1.1 对 CausalVideoVAE 架构进行了优化，采用高效多分辨率训练的 Bucket 系统，该系统将视频根据分辨率、帧数和宽高比分组到 Bucket 中，确保具有相似属性的视频能够在同一批次内进行训练。这不仅极大地提升了在有限 GPU 资源上的处理效率，还通过 keep_prob 和 batch_size 等功能的引入，有效控制了计算成本，并在训练期间实现了 GPU 负载的平衡。

模型架构和训练之外，Open-Sora 1.1 在很大程度上得益于精细的数据预处理流程。利用场景检测算法首先对原始视频片段进行采样切割，从美学、光流和文本存在等方面对切割后的原始视频进行评分，在基于视觉吸引力、运动模式、语义一致性等指标对原始视频进行综合评估后，为入围的片段生成字幕，通过视频内容的文本描述进一步丰富模型的训练数据。在此基础上进行新一轮的字幕和匹配分数计算，筛选出字幕和视觉效果之间相关性强的训练视频，最终根据匹配分数过滤视频片段，舍弃字幕与视频匹配度较弱的片段。

诸多 buff 加持下的 Open-Sora 1.1 成为视频处理与生成的 " 斜杠青年 "，能够同时处理分辨率、帧长度和宽高比等各种视频属性。