takeways
contents
-
Sora有多强 -
Sora技术突破以及复刻难度 -
意义和启发
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
通过UE5、Unity、Nerf等大量生成了合成数据作为训练集
数据驱动的物理引擎
-
三维一致性 Sora可以生成具有动态摄像机移动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中一致地移动。
-
长距离连贯性和物体持久性 对于视频生成系统来说,一个重大挑战一直是在采样长视频时保持时间上的连续性。Sora通常能够有效地模拟短距离和长距离依赖关系(不稳定)。例如,Sora可以在人物、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样,它可以在单个样本中生成同一角色的多个镜头,贯穿视频始终保持他们的外观。
-
时间一致性(互动性) Sora可以模拟以简单方式影响世界状态的行为。例如,画家可以在画布上留下新的笔触,这些笔触随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
-
模拟数字世界 Sora还能够模拟人工过程,一个例子是视频游戏。Sora可以通过基本策略控制《Minecraft》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过prompt包含“Minecraft”,零样本激活这样的能力。
-
模拟器实例化了两种精美的3D资产:具有不同装饰的海盗船。Sora 必须在其潜在空间中隐式地解决文本到 3D 的问题。
-
3D 对象在航行并避开彼此路径时始终保持动画效果。
-
咖啡的流体动力学,甚至是船舶周围形成的泡沫。流体模拟是计算机图形学的一个完整子领域,传统上需要非常复杂的算法和方程。
-
照片写实主义,几乎就像光线追踪渲染一样。
-
模拟器考虑到杯子与海洋相比尺寸较小,并应用移轴摄影来营造“微小”的氛围。
-
场景的语义在现实世界中并不存在,但引擎仍然实现了我们期望的正确物理规则。
世界模型和物理引擎是虚拟现实(VR)和计算机图形学中的两个关键概念。世界模型是描述虚拟环境的框架,包括场景、对象、光照等元素,用于呈现虚拟世界的外观和感觉。物理引擎则是用于模拟和计算物体之间的物理运动和互动,如重力、碰撞、摩擦等。简而言之,世界模型是虚拟环境的静态描述,而物理引擎则负责模拟虚拟环境中物体的动态行为。它们共同作用于虚拟现实技术中,为用户提供沉浸式的体验。 世界模型要求更高,这包括对复杂场景和物理效果的处理能力、提高在新环境中的泛化能力、以及更好地利用先验知识进行实时推理、预测和决策等。虽然Sora已经能够生成较为准确的视频内容,但当场景中涉及到多个物体的交互或复杂的物理运动时,Sora可能会出现失误或偏差。其次Sora目前主要依赖于大量的训练数据来学习视频的生成规律,但这种方式可能限制了其在新环境中的泛化能力和实时决策能力。这也是目前Sora并非一个世界模型的原因 来源:gpt4问答结果
多个技术积累优势
关键点1:视频压缩网络
关键点2:长视频的scaling transformer
关键点3:Video recaption
caption训练数据都匮乏:一方面,图像常规的文本描述往往过于简单(比如COCO数据集),它们大部分只描述图像中的主体而忽略图像中其它的很多信息,比如背景,物体的位置和数量,图像中的文字等。另外一方面,目前训练文生图的图像文本对数据集(比如LAION数据集)都是从网页上爬取的,图像的文本描述其实就是alt-text,但是这种文本描述很多是一些不太相关的东西,比如广告。 技术突破:训练一个image captioner来合成图像的caption,合成caption与原始caption的混合比例高达95%:5%;但是不过采用95%的合成长caption来训练,得到的模型也会“过拟合”到长caption上,如果采用常规的短caption来生成图像,效果可能就会变差。为了解决这个问题,OpenAI采用GPT-4来“upsample”用户的caption,下面展示了如何用GPT-4来进行这个优化,不论用户输入什么样的caption,经过GPT-4优化后就得到了长caption: DALL-E 3技术报告阅读笔记[3]
还有很多生成bug,继续抽卡、炼丹
什么时候能用上
-
Sora目前对红队成员开放,用于评估可能的风和危害(红队=专门测试系统漏洞的安全专员;
-
Sora目前对创作者开放。用于优化模型的创作能力(视觉艺术家、设计师和电影制作人)普通会员还要继续等下一个阶段的内测,到全民可用估计要等,这也是为啥sam开始要7w亿美金造芯计划,这对算力的消耗确实很大;
能用大概多贵
以1080P视频为例,30FPS的视频,就是1920×1080(像素)*3(RGB通道)*30(FPS)*60(时长)。可以计算1分钟长度视频价格。
写好prompt依旧很重要,关键还是有知识积累,能转化成框架、工作流
Sora官方视频截图
-Context:一杯咖啡的微型世界。
-Persona:两艘海盗船。
-Goal:展示海盗船在咖啡杯内的逼真争斗场景。
-Constraints:视频应突出海盗船的细节和动态,以及咖啡的纹理作为背景。
-Steps:
设定场景为充满咖啡的杯子,咖啡表面作为海洋。
描述海盗船:两艘细致的海盗船在咖啡“海洋”中航行和争斗。强调特写镜头:使用特写镜头视角捕捉海盗船的动态和咖啡的纹理。展现争斗细节:海盗船的交火,船上海盗的动作。
Template:cssCopy Code
[场景描述]在一个充满酒的杯子中,咖啡表面波动着仿佛一个微型的海洋。
[人物描述]两艘装备精良的海盗船在这杯咖啡的海洋中航行,互相展开烈的争斗。
[目标]透过逼真的特写镜头展现海盗船在咖啡杯子内互相争斗的壮观场景。
[约束条件]注意捕捉海盗船的细节和动态,以及咖啡作为背景的纹理和波动。
-Context: 一条充满活力的东京街道在夜晚灯火通明,霓虹灯和动画广告牌交织成一道道流光溢彩的光带。细雨过后的街道湿润且反光,在多彩的灯光照射下形成迷人的镜面效果。许多行人在这灯光闪烁的夜色中来往匆匆。
-Persona: 一位时尚女性身着黑色皮夹克,搭配鲜艳的红色长裙和黑色靴子,手拎一只黑色钱包。她戴着太阳镜,嘴唇涂抹着红色口红,走路自信又洒脱。
-Goal: 展示这位时尚女性在霓虹灯光点缀的东京夜晚中自信与风采。
-Constraints: 视觉应该突出夜晚的霓虹灯光效果,反映出潮湿街道的反光效果,以及人物的时尚装扮,强调人物的自信步伐和随性的走路风格。
-Steps::
-
设定场景为东京的一个夜晚街道,由霓虹灯照明。
-
描述人物:一位穿着黑色皮夹克、红色长裙和黑色靴子的时尚女性,手拿黑色钱包,戴着太阳镜并涂有红色口红。
-
强调人物的自信步伐和随性的走路风格。
-
描述环境:潮湿的街道在灯光下反射,周围有行人。
Template:cssCopy Code:
[场景描述] 在一个充满活力的街道上,霓虹灯的彩光波动着,仿佛一个微型的夜晚海洋。
[人物描述] 一位时尚女性在这条街道上自信地行走,她的黑夹克和红裙在灯光下显得格外抢眼。
[目标] 通过鲜明的场景描述,展现时尚女性在霓虹灯光下的自信与风采。
对谁来说是神器
对于AI 从业人员
来自网络
参考链接:
0 条评论