OpenAI推出断层式视频生成技术Sora炸裂全网,网友:什么?我又要...-技术圈

在AI技术爆炸的今天，AI对话，文生图，图生图等技术遍地开花。那么你是否曾幻想过拥有一种魔法，能够将文字瞬间转化为生动的视频，让想象栩栩如生地呈现在眼前？现在，这种魔法不再是遥不可及的梦想。OpenAI最新推出的Sora文生视频技术，正以其革命性的创新，重塑我们与数字内容互动的方式。

魔法诞生

今天早上SamAltman发了重磅消息，OpenAI推出了视频生成技术Sora。

Sam Altman

我们打开OpenAI官网，在首页也能看到醒目的slogan

Introducing Sora: Creating videofrom text

Sora：文生视频技术

sora

它到底是个什么来头呢？我们点击Learn more进去看看

sora

进去后，可以看到OpenAI对Sora的一句话的描述：“Sora is an AI model that can create realistic and imaginative scenes from text instructions.”，即“Sora是一个可以根据文本指令创建现实和富有想象力的场景AI模型”

点击"Read technical report"，我们可以看到关于Sora技术的论文报告，里面大致介绍了Sora的基础原理以及它到底能干什么

简单概括：OpenAI的Sora技术引领了视频生成的新纪元，通过大规模训练，它能够根据文本条件生成各种持续时间、分辨率和宽高比的高保真视频。采用转换器架构操作视频和图像的时空补丁，Sora不仅能生成多样化的视觉内容，还展现了作为通用物理世界模拟器的巨大潜力。这项技术的进步不仅推动了创意内容的边界，也为现实世界的模拟提供了新的可能性。

Sora可以做什么

文本到视频生成

根据文本描述，Sora能够生成匹配的视频内容。这使得用户可以通过简单的文本提示来创造复杂的视觉故事或场景。例如下提示词：

    Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

图像到视频转换

从静态图像出发，Sora能够生成动态视频，为原有图像添加时间维度。这适用于给图片添加动画效果，如让静态画面中的人物或物体动起来。

比如以下例子：

一只戴着贝雷帽和黑色高领毛衣的柴犬。

不同家族怪物的平面设计风格的怪物插图。该群体包括一个毛茸茸的棕色怪物、一个带有天线的光滑黑色怪物、一个有斑点的绿色怪物和一个微小的圆点怪物，所有这些怪物都在一个有趣的环境中互动。

写有 “SORA”的现实云的图像。

视频到视频编辑

Sora可以对现有视频进行编辑和变换，包括改变视频风格、场景转换或延长视频内容等，从而在不改变原始视频核心内容的基础上增加新的元素或效果。

生成多样化的视频内容

Sora可以生成不同持续时间、分辨率和宽高比的视频，支持广泛的内容创作需求，从短视频到长篇故事，从标准屏幕到宽屏格式等。

连接视频

Sora可以在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中，中心的视频插值在左侧和右侧的相应视频之间。

视频内容的无缝扩展

Sora能够在视频的前后添加内容，创建无缝循环的视频或扩展视频的叙事，增加视频的时间长度而不牺牲内容的连贯性和质量。使用此方法向前和向后扩展视频以产生无缝的无限循环。

模拟复杂动态场景

Sora有能力模拟具有长期连贯性和复杂互动的场景，如模拟自然环境中的动态变化或城市景观的繁忙场面。Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转，人和场景元素在三维空间中一致移动。

模拟数字世界。Sora 还能够模拟人工过程，比如游戏。Sora可以同时通过基本策略控制《我的世界》中的玩家，同时以高保真度渲染世界及其动态。

技术原理

关于sora的技术原理，在官网的论文有比较详细的介绍，简单概括一下

Sora采用转换器架构和扩散模型，通过将视频压缩至潜在空间并分解成时空补丁来训练。这些补丁作为模型的基本单元，利用扩散过程逐步生成高质量视频。Sora能够理解和响应文本提示，同时支持图像到视频和视频到视频的转换，实现多样化的视频内容创作。

视频压缩到潜在空间

Sora会在训练数据时，将原始视频数据压缩成更高效的形式，以便于处理和生成。它使用一个特别设计的网络（视频压缩网络），将原始视频帧压缩成一个低维度的潜在空间表示。这个表示捕获了视频的关键信息，但数据量大大减少，便于后续处理。

视频压缩到潜在空间

潜在空间表示分解为时空补丁

Sora会将连续的视频数据分解成独立的单元，使其能够被转换器模型处理，然后将上一步得到的潜在空间表示进一步分解成小块，称为时空补丁。这些补丁类似于文本处理中的词汇，作为模型训练和生成的基本单元。

使用扩散模型进行视频生成

Sora会从随机噪声中生成视频内容，确保视频的连贯性和真实性。它的视线方式是采用扩散模型，通过逐渐去除加入到补丁中的噪声，来预测和恢复原始的视频内容。这个过程从含有高量噪声的补丁开始，逐步减少噪声，直至恢复出清晰的视频补丁。

利用转换器架构进行训练和生成

Sora可以有效处理和生成时空补丁，以创建连续和高质量的视频，利用转换器架构，这是一种强大的模型，能够处理序列数据，如文本或这里的时空补丁。转换器通过注意力机制学习补丁之间的关系，从而在生成时考虑到视频的时间和空间连贯性。

生成视频

1. 文生视频

根据文本描述生成相应的视频内容，提高生成视频的多样性和准确性。Sora可以接受文本提示作为输入，然后生成与文本描述相匹配的视频。这一步涉及到将文本描述转换为模型能理解的形式，并将其与视频生成过程结合起来，以确保生成内容与文本提示紧密相关。

2. 图生视频

首先将输入图像转换为潜在空间表示，与视频压缩的步骤类似。然后，这个潜在表示被分解为时空补丁，但只有一个时间维度（因为是单帧图像）。使用这些图像补丁作为起始点，Sora模型预测随后的时空补丁来生成视频。这个过程可能会结合额外的文本提示来指导视频的内容和方向，例如动作或场景的变化。

3. 视频生视频

输入视频首先被压缩到潜在空间，并分解为时空补丁，与Sora处理原始视频数据的方式一致。基于这些补丁，Sora可以执行多种编辑任务，如风格转换、场景变换或延长视频内容。编辑操作通常由文本提示指导，描述所需的编辑效果或内容变化。

通过这些步骤，Sora能够生成多样化、高质量的视频内容，其能力不仅限于复现训练数据中的场景，还能根据用户的文本提示创造出全新的内容。这种技术的发展为视频内容创作、虚拟现实和增强现实等领域开辟了新的可能性。

Sora示例

以下是一些OpenAI官网给出的使用Sora根据文本提示词生成并且未做任何编辑的视频

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

Sora缺陷

当然了，新出的技术一定还会有一定的缺陷，OpenAI也毫不避讳地在官网指出了Sora当前的缺陷

当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。该模型还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.

缺陷：Sora有时会产生身体上难以置信的动作。

Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.

缺陷：动物或人可能会自发出现，尤其是在包含许多实体的场景中。

Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.

缺陷：在这个例子中，Sora 未能将椅子建模为刚性物体，导致物理交互不准确。

Sora应用前景

Sora如此强大，就目前而言，能想到的应用前景，就有很多，比如为影视行业创作镜头，为广告行业创作影视内容，为游戏行业增强视觉体验，为新闻报道提供辅助视觉内容，为自媒体行业提供辅助镜头等等。

一旦技术成熟，它影响范围将非常大，对于普通人而言，最重要的是看清Sora的本质，准确预测未来的AI视频的发展方向，然后根据自身情况作改变。

OpenAI的Sora文生视频技术不仅是一项令人震撼的技术创新，它还开启了一种全新的内容创作与消费方式。在这个由Sora技术驱动的新时代，每个人都可以成为故事的创造者和享受者，共同探索无限的想象空间。

以上就是Sora的大致内容，关于Sora以及AI视频的前景，我很想知道，你们是怎么看的，欢迎评论区留言！

OpenAI推出断层式视频生成技术Sora炸裂全网,网友:什么?我又要...

文本到视频生成

图像到视频转换

视频到视频编辑

生成多样化的视频内容

连接视频

视频内容的无缝扩展

模拟复杂动态场景

视频压缩到潜在空间

潜在空间表示分解为时空补丁

使用扩散模型进行视频生成

利用转换器架构进行训练和生成

生成视频

1. 文生视频

2. 图生视频

3. 视频生视频

添加附言

相关文章推荐