目录
- 引言
- Sora的技术原理
- Sora的能力总结
- 延伸阅读1:Sora会对视频内容创作产生什么样的影响?
- 延伸阅读2:贾玲韩寒能破sora
- 延伸阅读3:《纽约时报》对Sora的解读
- 延伸阅读4:OpenAI Sora:离黑客帝国里的Matrix更近一步
- 延伸阅读5:OpenAI Sora视频生成的真实性引发安全担忧
当中华大地还沉浸在甲辰龙年的春节气氛中时,大洋彼岸的人工智能领军企业OpenAI发布了重磅炸弹:Sora,一款能够根据文本描述生成逼真视频的AI模型。这一消息犹如滚滚春雷,瞬间引爆了全球科技界和社会各界,引发了关于AI技术发展、未来产业变革以及社会伦理问题的激烈讨论。
Sora的横空出世,无疑是生成式AI领域的又一次重大突破。它能够将用户的文字描述转化为生动形象的视频,画面流畅、细节丰富,人物动作自然,物体运动符合物理规律。这不仅意味着AI技术在视觉生成方面取得了长足进步,更意味着视频创作的门槛将被大幅降低,普通人也能轻松拥有创作视频的能力。
Sora的出现,对相关产业的影响将是颠覆性的。在传统视频制作领域,从剧本创作、拍摄、剪辑到后期制作,都需要大量人力物力投入,耗时长、成本高。而Sora的出现,可以将这一流程大幅简化,一个人甚至一个团队就能完成高质量视频的制作,极大地降低了视频制作的门槛和成本。
与此同时,Sora也将为教育、培训、娱乐等领域带来新的活力和变革。例如,在教育领域,Sora可以用来制作个性化的教学视频,帮助学生更好地理解和掌握知识;在培训领域,Sora可以用来制作逼真的模拟场景,帮助员工提升技能和应急能力;在娱乐领域,Sora可以用来制作各种创意视频,丰富人们的娱乐生活。
然而,Sora的出现也引发了一些担忧。例如,有人担心Sora会被用来生成虚假信息或误导性信息,甚至被用来制造“深伪”视频,对社会造成不良影响。此外,Sora的普及也可能导致视频创作者的失业,引发社会动荡。
面对这些担忧,我们应该辩证地看待。一方面,我们应该充分认识到Sora的巨大潜力,积极探索其在各领域的应用价值;另一方面,我们也应该对Sora可能带来的风险保持警惕,制定相应的规章制度和伦理规范,确保AI技术的安全和健康发展。总而言之,Sora的发布是AI技术发展史上的一个重要里程碑,它将为我们的生活带来许多新的可能性。
1. Sora的技术原理
OpenAI官方原文:
https://openai.com/research/video-generation-models-as-world-simulators
OpenAI在其官网上发布了关于视频生成模型作为世界模拟器的研究论文,探讨了在视频数据上大规模训练生成模型的方法,特别是将文本条件扩散模型与视频和图像联合训练。以下为该论文摘要:
研究背景:
- OpenAI研究了在视频数据上训练生成模型的方法,这些模型能够处理不同时长、分辨率和宽高比的视频和图像。
- 他们使用了一种变换器架构,该架构在视频和图像的潜在代码的空间时间补丁上操作。最大的模型Sora能够生成一分钟的高保真视频。
方法:
- 视觉信息补丁化(patches):Sora受到大语言模型将文本通过token序列化启发,通过将视觉信息分割成小块(patches),然后进行训练,以高效地生成视频。这个过程包括将图片处理成小块,随机遮盖小块,训练一个识别器来识别图像要素,以及训练一个小点补全器来补全缺失的文本。
- Native resolution vision transformer(NaViT):Sora将来自多个图像的多个补丁打包在一个序列中,类似于自然语言处理中的序列打包。这种方法降低了训练成本,提高了效率,并为视频的分辨率、长宽高、内容补全和前后景一致性提供了灵活性。
- 视频压缩路径:为了提高训练和生产的效率,Sora将视频文件进行压缩,然后通过时间空间基础数据和Sora生成视频,最后使用scaling transformer进行处理。
语言理解:
- Sora通过训练一个强大的图像说明工具来生成详细、准确的说明文本,以解决文生图模型中的可控性问题。这个工具通过图像压缩空间表示生成图像主体描述,然后微调模型以生成全部图像描述。
多模态互补:
- Sora的文本描述问题依赖于GPT-4的能力升级来解决。DALL-E 3的积累和视频的时序协议+图片处理带来了新的挑战。
结果:
- Sora展示了在视频生成方面的显著进步,包括在训练过程中随着计算资源的增加,样本质量的显著提高。
- Sora能够生成具有不同分辨率、宽高比的视频,并且能够处理原始大小的视频数据,这提供了采样灵活性和改进的构图。
语言理解:
- 为了训练文本到视频生成系统,需要大量带有对应文本标题的视频。OpenAI应用了在DALL·E 3中引入的重新标题技术。
- 使用GPT将短用户提示转换为更长的详细标题,这使得Sora能够生成准确遵循用户提示的高质量视频。
视频编辑能力:
- Sora不仅能够基于文本提示生成视频,还能够基于现有图像或视频进行提示。这使得Sora能够执行广泛的图像和视频编辑任务,如创建完美循环视频、动画静态图像、向前或向后扩展视频等。
模拟能力:
- 当在大规模上训练视频模型时,Sora展现出了一些有趣的新兴能力,如3D一致性、长期连贯性和对象持久性,以及与世界互动的能力。
讨论:
- 尽管Sora作为模拟器存在许多局限性,例如不准确模拟某些基本交互(如玻璃破碎),但它的能力表明,继续扩展视频模型是开发物理和数字世界模拟器的有前途的路径。
2. Sora的能力总结
Sora可以生成逼真的视频,理解复杂文本描述,支持多种风格,可控性强。然而,Sora也存在一些缺点,例如模型体积庞大、生成视频的真实性有待考证等。总体而言,Sora是一款具有巨大潜力的文生视频模型,未来有望在多个领域得到广泛应用。
功能特性
生成逼真的视频: Sora可以生成长达60秒的视频,画面流畅、清晰,人物动作自然,物体运动符合物理规律。
理解复杂文本描述: Sora可以理解用户输入的复杂文本描述,并根据描述生成符合用户意图的视频。
支持多种风格: Sora可以生成不同风格的视频,包括现实风格、动画风格、卡通风格等。
可控性强: 用户可以通过调整参数来控制视频的生成效果,例如视频的长度、画风、分辨率等。
优点
- 生成视频的质量高,画面逼真,细节丰富。
- 能够理解复杂文本描述,生成符合用户意图的视频。
- 支持多种风格,可控性强。
缺点
- 模型体积庞大,训练成本高。
- 生成视频的真实性有待考证,可能存在误导性信息。
- 在生成涉及大量物体或复杂动作的视频时,可能会出现一些瑕疵。
Sora擅长做哪些事情
- 生成各种风格的短视频,例如风景视频、人物视频、剧情视频等。
- 为现有视频添加特效或修改内容。
- 用于教育、培训、娱乐等领域。
Sora不适合做啥
- 生成涉及敏感内容的视频,例如暴力、色情等。
- 生成虚假信息或误导性信息。
- 用于商业用途,例如广告、宣传等。
3. 延伸阅读1:Sora会对视频内容创作产生什么样的影响?
阅读原文: Sora会对视频内容创作产生什么样的影响?
本文由怪盗团团长裴培撰写,主要观点总结:
- Sora的潜力与挑战:OpenAI的Sora视频生成AI模型可能会对视频内容创作产生重大影响,一方面可能改变影视行业的创作方式,另一方面也引发了对其实用性的质疑。
- 内容创作者的两种能力:文章将内容创作者的能力分为热点敏感性和内容调性。热点敏感性关注追逐热点的能力,而内容调性则涉及内容的独特性和个性化。
- AIGC对内容创作的影响:随着AI生成内容(AIGC)技术的发展,内容创作的洗牌过程将更加有利于多样性。AIGC可能会降低追逐热点的门槛,使得内容调性成为创作者更重要的竞争力。
- Sora对不同创作者的影响:Sora可能对那些依赖内容调性的创作者更为有利,因为它可以帮助他们更好地发挥自己的特色。而对于那些主要依赖追逐热点的创作者,Sora可能会削弱他们的优势,因为AI在快速生成内容方面的能力将超过人类。
内容产业的未来趋势:
文章预测,在AIGC时代,内容产业将呈现出“强者恒强”的趋势,头部内容方和具有独特调性的创作者将受益,而其他创作者可能面临更大的挑战。
AI作为工具的角色:AI被视为一种辅助工具,它可以帮助人类创作者,但不会取代人类的原创性和创造力。Sora等AI模型在内容创作中的角色更像是辅助者,而非替代者。
对未来的思考:尽管AI技术发展迅速,但重要的是对未来进行深入思考和分析,而不是过分关注预测的准确性。生活在AIGC时代,无论是作为旁观者还是参与者,都应积极适应和利用这些技术。
4. 延伸阅读2:贾玲韩寒能破sora
阅读原文: 贾玲韩寒能破sora
卢泓言的深度思考,主要观点提炼如下:
内容制造革命:
Sora视频生成AI模型的出现预示着内容制造领域的重大变革,它能够将文本直接转化为视频,从而改变内容制作的流程和分发消费模式。
创意与现实的结合:虽然Sora能够实现创意的快速展示,但文章强调真实经历对于创作的重要性,认为真实故事和经历能够赋予作品更深的感染力。
创意行业的两极分化:未来创意行业可能分化为两个方向,一端是依赖AI工具的极致虚构创作,另一端是依赖真实经历和故事的创作。
Sora的普及化影响:Sora等AI工具可能会使更多普通人有机会成为电影大师,通过表达个人经历和深刻体验来创作内容。
现实对抗虚幻:在AI技术日益发达的背景下,真实性可能成为对抗虚构和虚幻的关键。人类可能会被激励成为更真实的自我,而不是被技术所取代。
最后强调:虽然技术进步会改变创意表达的方式,但在技术变革中保持人类真实性和创造力仍然是最重要的。
5. 延伸阅读3:《纽约时报》对Sora的报道
原文链接:
https://www.nytimes.com/2024/02/15/technology/openai-sora-videos.html
OpenAI最近推出了一个名为Sora的人工智能系统,这个系统能够根据简短的文字描述瞬间生成令人惊叹的视频。这个技术展示了人工智能在视频生成方面的巨大潜力,同时也引发了关于技术滥用和在线信息真实性的担忧。
Sora系统能够创建出看起来像是好莱坞电影中的场景,例如毛茸茸的猛犸象在雪地中奔跑、怪物凝视着融化的蜡烛,或者东京街头的景象。这些视频是由OpenAI的研究人员Tim Brooks和Bill Peebles领导的团队开发的,他们选择“Sora”这个名字,因为它在日语中意为“天空”,象征着无限的创造潜力。
尽管Sora系统目前还没有向公众发布,但OpenAI正在与一小群学者和其他外部研究人员分享这项技术,以便他们能够“红队”(即寻找可能的滥用方式)并提供反馈。OpenAI的目的是让人们预览这项技术的未来,并收集反馈,同时他们正在努力理解系统的潜在风险。
Sora系统是生成性人工智能的一个例子,它可以立即创建文本、图像和声音。它通过分析数字数据学习,这里的数据包括视频和描述这些视频内容的字幕。OpenAI没有透露系统学习了多少视频或这些视频来自哪里,只是说训练数据包括了公开可用的视频和从版权持有者那里获得许可的视频。
Sora系统根据简短的描述生成视频,例如“一个精美渲染的纸艺珊瑚礁世界,充满了五彩缤纷的鱼和海洋生物”。虽然生成的视频令人印象深刻,但并不总是完美的,有时可能包含奇怪和不合逻辑的图像。例如,系统最近生成了一个视频,视频中有人吃饼干,但饼干始终没有变小。
随着DALL-E、Midjourney等静态图像生成器在过去几年的迅速进步,它们现在生成的图像几乎与照片无法区分,这使得在线识别虚假信息变得更加困难。许多数字艺术家抱怨说,这使得他们更难找到工作。例如,密歇根州的电影概念艺术家Reid Southen表示,当Midjourney首次出现时,人们觉得它很可爱,但现在人们正在失去工作给Midjourney。
6. 延伸阅读4:OpenAI Sora:离黑客帝国里的Matrix更近一步
原文链接:
https://thealgorithmicbridge.substack.com/p/openai-sora-one-step-away-from-the
OpenAI最近宣布了2024年最重要的AI模型之一:Sora,这是一个先进的文本到视频模型,能够生成高质量、高分辨率的1分钟视频,支持不同的宽高比和分辨率。Sora不仅在视频生成方面表现出色,而且它还是一个世界模拟器,这使得它在AI领域具有革命性的意义。
Sora模型结合了扩散模型(DALL-E 3)和变换器架构(ChatGPT),这使得模型能够像ChatGPT处理文本一样处理视频(即视频作为图像帧的时间序列)。OpenAI从DeepMind关于视觉变换器的工作中获得灵感,将视频和图像表示为更小的数据单元集合,每个单元类似于GPT中的token。
尽管Sora在视频生成方面的表现优于竞争对手,但OpenAI目前并未公开发布Sora,而是正在进行红队测试和安全检查。公司希望从全球的政策制定者、教育工作者和艺术家那里收集反馈,并正在开发用于识别Sora生成视频的检测分类器,以及防止虚假信息的方法。
Sora的通用性和可扩展性使其能够以一种泛化和可扩展的方式创建视频,这与语言模型的扩展规律相似。这意味着通过增加计算资源,视频质量可以显著提高。这种能力让人们预测AI可能会颠覆好莱坞和电影制作行业。考虑到技术进步的速度,不难想象在未来几个月内,AI模型能够创建长达5到10分钟的多场景、多角色复杂视频。
Sora不仅是一个文本到视频的模型,它还能够创建物理上合理的场景,具有逼真的现实世界互动。尽管Sora在模拟物理世界方面的能力还很原始,但它是第一个能够这样做的模型。OpenAI表示,Sora不仅理解提示中的风格、场景、角色、物体和概念,还理解“这些事物如何在物理世界中存在”。尽管Sora可能已经学习了一套隐式的物理规则来指导视频生成过程,但这种能力并不强大(OpenAI也承认这一点)。然而,这无疑是朝着那个方向迈出的第一步。
文章最后提出了两个问题:我们离《黑客帝国》(The Matrix)有多远?我们真的想走到那里吗?
7. 延伸阅读5:OpenAI Sora视频生成的真实性引发安全担忧
原文链接:
https://www.newscientist.com/article/2417639-realism-of-openais-sora-video-generator-raises-security-concerns/
OpenAI最近推出了一个名为Sora的人工智能系统,它能够将文本描述转换成逼真的视频。这项技术在AI研究领域引起了兴奋,同时也引发了关于在关键选举年期间视频深度伪造(deepfakes)可能加剧虚假信息和错误信息传播的担忧。
Sora AI模型目前能够根据文本指令或结合图像生成长达60秒的视频。例如,一个演示视频从描述“一位时尚女性走在充满温暖发光的霓虹灯和动画城市招牌的东京街头”的文本提示开始。其他示例包括在雪地中嬉戏的狗、在道路上行驶的车辆,以及更奇幻的场景,如鲨鱼在城市摩天大楼之间空中游泳。
加州大学伯克利分校的专家表示,与其他生成性AI技术一样,没有理由相信文本到视频的技术不会继续迅速改进,这将使我们越来越难以区分真假。如果结合AI语音克隆技术,可能会开启一个全新的领域,用于创建人们从未说过或做过事情的深度伪造。
Sora部分基于OpenAI现有的技术,如图像生成器DALL-E和GPT大型语言模型。Sora通过结合两种不同的AI方法来实现更高水平的真实感:一种是类似于DALL-E等AI图像生成器中使用的扩散模型,另一种是用于上下文化和拼接序列数据的“变换器架构”。尽管Sora的视频仍然包含一些错误,如行走的人的左右腿互换位置,椅子在半空中随机漂浮,或者咬过的饼干神奇地没有咬痕,但NVIDIA的高级研究员在社交媒体平台上称赞Sora是一个“数据驱动的物理引擎”,能够模拟世界。
普林斯顿大学的专家表示,Sora在描绘复杂场景时仍然显示出一些奇怪的故障,这表明这样的深度伪造视频目前仍然可以被检测到。但他也警告说,从长远来看,“我们需要找到其他方式来适应社会”。
OpenAI尚未公开发布Sora,而是正在进行“红队”测试,让专家尝试破坏AI模型的安全措施,以评估其被滥用的潜力。目前测试Sora的是一个“在虚假信息、仇恨内容和偏见等领域的领域专家”团队。这种测试至关重要,因为人工视频可能让不法分子生成虚假视频,例如骚扰某人或影响政治选举。由AI生成的深度伪造视频引发的虚假信息和错误信息是学术界、商业、政府和其他领域的主要关注点。
为了应对Sora一旦公开可能带来的大规模虚假信息和错误信息,AI公司需要与社交媒体网络和政府合作。防御措施可能包括为AI生成内容实施独特的标识符或“水印”。OpenAI表示,公司正在采取重要的安全步骤,以在将Sora纳入其产品之前确保安全。例如,公司已经使用自动化流程防止其商业AI模型生成极端暴力、色情内容、仇恨图像以及真实政治家或名人的描绘。随着今年参与选举的人数比以往任何时候都多,这些安全措施将至关重要。
本文转发自微信公众号:ADFeed
好