发布时间:2025-12-03 作者:admin
sora软件究竟是什么呢?近期,OpenAI最新发布的视频生成模型Sora可谓是火爆异常,然而,不少用户对这款软件还知之甚少,也不明白它火爆的缘由。今天,小编就来为大家详细剖析sora软件的技术路径,希望能对大家有所帮助,快来一同瞧瞧吧。
昨天,OpenAI发布了视频生成模型Sora,最大的Sora模型能够生成一分钟的高保真视频。同时OpenAI称,可扩展的视频生成模型,是构建物理世界通用模拟器的一条可能的路径。
Sora能够生成横屏1920*1080视频,竖屏1080*1920视频,以及之间的所有内容。这使得Sora可以兼容不同的视频播放设备,根据特定的纵横比来生成视频内容,这也会大大影响视频创作领域,包括电影制作,电视内容,自媒体等。
技术报告:https://openai.com/research/video-generation-models-as-world-simulators
技术解读
魔搭社区的开发者也针对Sora的技术报告展开了热烈的讨论,并根据技术报告的内容,推测了Sora的技术架构图如下:
Sora的技术架构图(from魔搭社区开发者)
Sora模型的核心技术点(图中红色标注):
视频压缩网络
OpenAI打造了一个用于降低视觉数据维度的网络。该网络以原始视频作为输入,输出在时间与空间层面均被压缩的潜在表示。Sora于这个经压缩的潜在空间展开训练,之后生成视频。与此同时,还训练了一个对应的解码器模型,用于把生成的潜在表示映射回像素空间(信息源自Sora技术报告)。此部分内容对应图中的红色区域,其核心任务是将视觉数据转化为patches。patches的灵感源于大语言模型,大语言模型范式之所以成功,部分原因在于它能通过token优雅统一各类文本模态(代码、数学以及多种自然语言)。大语言模型有文本token,Sora则有视觉分块(patches)。OpenAI在先前诸如Clip等工作中,充分验证了分块是视觉数据模型的一种有效表示方式(参考论文:An image is worth 16x16 words: Transformers for image recognition at scale.)。视频压缩网络的工作,便是把高维度的视频数据转变为patches,先将视频压缩至一个低维的latent space,随后分解为spacetime patches 。
该方法同样适用于图像(把图像当作单帧视频处理)。基于Patches的表示形式,让Sora能够对具有不同分辨率、时长及纵横比的视频和图像进行训练。在推理过程中,仅需在合适大小的grid里随机初始化patches,就能控制视频生成的尺寸。
技术难点:视频压缩网络类比于latent diffusion model中的VAE,但是压缩率是多少,如何保证视频特征被更好地保留,还需要进一步的研究。
2. 用于视频生成的Scaling Transformers
Sora属于一种diffusion模型,针对输入的噪声块以及文本prompt,它经过训练以预测初始的“干净”分块。值得注意的是,Sora是Scaling Transformers中的一员。Transformers在大语言模型方面呈现出显著的扩展性,我们认为OpenAI把诸多在大语言模型上的技术储备应用到了Sora之中。
在Sora的工作中,OpenAI发现Diffusion Transformers作为视频生成模型具备很好的扩展性。
技术难点在于如何训练出可实现规模扩展(scaling up)的Transformer。针对第一步的图像块(patches)进行有效训练,其中可能包含的难点有:对长上下文(如长达1分钟的视频)的支持;在训练过程中,如何确保误差积累维持在较低水平;保证视频中实体的高质量与一致性;以及对视频条件(video condition)、图像条件(image condition)、文本条件(text condition)的多模态支持等。
3. 语言理解
OpenAI察觉到,要训练文本到视频生成系统,需要大量配有相应文本标题的视频。在此过程中,OpenAI把DALL·E 3里所介绍的标题生成技术应用到视频领域,训练出一个具有高度描述性的视频标题生成(video captioning)模型。利用这个模型,为所有视频训练数据生成了高质量文本标题,随后将视频与高质量标题作为视频文本对展开训练。凭借这样高质量的训练数据,确保了文本(prompt)与视频数据之间高度的对齐。在生成阶段,Sora会依据OpenAI的GPT模型对用户的prompt进行改写,生成高质量且描述性极佳的prompt,然后将其输送至视频生成模型以完成生成任务。
技术难点在于,要训练出一个高质量的视频caption模型,就需要海量的高质量视频数据,这其中涵盖数据的获取与标注。为确保模型具有通用性,还需能够支持各类多样化的视频源,像电影、纪录片、游戏、3D引擎渲染等。标注工作具体涉及对长视频进行精准切片,以及切片之后的captioning。一直以来,中文高质量视频数据都属于稀缺资源,不过随着国内短视频业务的不断发展,或许能够加快中文高质量短视频的收集与获取。
4、世界模型,涌现的模拟能力
当大规模训练时,sora同样也出现了有趣的“涌现的模拟能力”,这些能力使Sora能够模拟物理世界中的人、动物和环境的某些方面。这些属性没有任何明确的三维、物体等归纳特征信息——可以理解为由于模型参数足够大而产生的涌现现象。
这些能力包括:
三维一致性 Sora可以生成具有动态摄像机移动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中一致地移动。
长距离连贯性与物体持久性 在视频生成系统中,长久以来,一个重大挑战便是在采样长视频时维持时间上的连续性。研究表明,Sora一般能够对短距离和长距离依赖关系进行有效模拟(但存在不稳定情况)。举例而言,当人物、动物或物体被遮挡,甚至离开画面时,Sora依然能够维持它们的存在。同样,它还能在单个样本中生成同一角色的多个镜头,且在整个视频过程中保持角色外观不变。
与世界互动 Sora可以模拟以简单方式影响世界状态的行为。例如,画家可以在画布上留下新的笔触,这些笔触随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
模拟数字世界 Sora还能够模拟人工过程,一个例子是视频游戏。Sora可以通过基本策略控制《Minecraft》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过prompt包含“Minecraft”,零样本激活这样的能力。
而这些能力都表明,顺着这个方向发展(持续扩大规模),Sora真的可能成为世界模型(能够高度模拟物理和数字世界的模拟器)。也许头部玩家,黑客帝国这些科幻片,就在不太遥远的未来。
技术难点:“大”模型,“高”算力,“海量”数据
总 结
透过Sora模型的技术报告,我们能够发现,Sora模型的达成,依托于OpenAI在过往一系列扎实的技术成果积淀之上:其中涵盖但不限于视觉理解(Clip)、Transformers模型以及大模型所展现出的涌现能力(ChatGPT)、视频字幕生成(DALL·E 3)等。诚如社区的一位开发者所言,尽管OpenAI仍有诸多技术细节尚未公开披露,然而它却勾勒出了一条 “模糊” 的路径。有了这条模糊路径作为指引,大家便能够据此展开尝试,进而摸索出通往视频生成领域的准确且清晰的道路。
以上就是sora软件技术路径分析的全部内容了,sora模型的技术比较模糊,很多细节OpenAI并没有发出来,开发者们可以自己理性思路慢慢尝试。
发布于 2025-12-03 17:07:05
发布于 2025-12-03 17:04:07
发布于 2025-12-03 17:01:03
发布于 2025-12-03 16:58:06
发布于 2025-12-03 16:32:12
发布于 2025-12-03 16:29:08