唤起了无限创作潜力的想法
2024年2月15日,文本生成应用程序 ChatGPT 和图像生成工具 DALL-E 背后的旧金山科技公司 OpenAI 公布了其最新项目——文本到视频人工智能模型 Sora(该名称来源于日语【天空】一词),创作者选择它,是因为它“唤起了无限创作潜力的想法”。这与思想集品牌咨询2023年为万播 Wanbo 制定的海外品牌战略核心价值中,提出的【自由、无限】理念不谋而合。
虽然有传言称 OpenAI 正在开发一款视频工具,但它的发布速度还是令人震惊。甚至 OpenAI 其他团队人员也不知道它即将到来。“我们只看到了OpenAI使用Sora创建的内容”,这家科技公司成员表示:“但该工具掌握在一些视觉艺术家、设计师和电影制作人以及寻找可能被滥用方式的‘红队成员’手中。”
Sora的发布不仅震惊了人工智能界,同时彻底引爆了2月份互联网的话题,更引起粉丝和评论家的足够热情和担忧。尽管尚未公布正式发布日期,但从 OpenAI 的典型公开发布模式来看,Sora 很可能会在未来几个月内向公众开放。
Promind认为:Sora的发布宣告未来已经到来。不仅为技术,也为人类本身迎来了一个新时代,这是一个现实屈服于言语意志的时代!这并非夸张,而是一种范式转变,其连锁反应将触及我们生活的每个角落。
将创作的力量交给任何有故事可讲的人!
什么是 Sora 以及它的工作原理?
Sora 是一种生成视频模型,类似于 Runway 的 Gen-2、Pike Labs Pika 1.0 和 StabilityAI 的 Stable Video Diffusion。它能够将文本、图像或视频转换为人工智能视频内容。
Sora 创新的核心是一种将视觉数据转换为易于理解和操作的格式技术,通过类似基于文本的应用程序将单词分解为用于人工智能处理的标记。此过程涉及将视频数据压缩为更易于管理的形式并将其分解为补丁或片段,这些片段就像积木一样,Sora 可以重新排列它们来创建新视频。Sora 使用深度学习、自然语言处理和计算机视觉的组合来实现其功能。深度学习帮助其理解和生成数据中的复杂模式,自然语言处理模块将文本创建为视频,计算机视觉使其能够准确理解和生成视觉内容。通过采用扩散模型(一种特别擅长生成高质量图像和视频的模型),Sora 可以获取嘈杂、不完整的数据,并将其转换为清晰、连贯的视频内容。
Sora 的方法不同于CGI 角色创建(需要大量的手动工作)和传统的Deepfake 技术(通常缺乏道德保障),它提供了一种可扩展且适应性强的方法来生成基于文本输入的视频内容,并将简短的文字描述变成长达一分钟的详细、高清电影剪辑。它为大多数人无法想象的各种事情打开了一个充满可能性的世界。对于缺乏专业技术的普通人来说,这项革新将使更多的人能够讲述他们的故事!
Sora 与其竞争对手相比如何?
Sora并不是第一个T2V工具,但它看起来比Meta的Make-A-Video AI等早期成果更加复杂。与初创公司 Runway 或 Meta 和 Google 等科技巨头的模型不同,Sora 的能力似乎更强,改善了皮肤纹理、头发、倒影、水、树叶等细节。Sora还能保持令人印象深刻的视觉质量并严格遵守用户的提示,生成具有一致的角色和动作,并允许播放长达 60 秒的视频(此前,限制为 3-8 秒)。
显然,Sora 对语言的深刻理解和对现实世界物理的高级模拟使其与众不同。这种组合可以创建复杂的场景,包括多个角色、特定类型的运动以及主体及其背景的准确细节。从OpenAI 的演示来看,目前的Sora 可以生成各种长度的视频,从短片到整分钟的叙述,并且是高清的。
对于创意专业人士来说,这意味着在将他们的想象变为现实时拥有前所未有的表达力和控制力,这种能力标志着向更加动态、引人入胜和真实的数字故事讲述迈进。
图:OpenAI Sora的文生视频演示
图:“将视觉数据转化为补丁”——OpenAI Sora 技术报告
图:OpenAI 技术报告示例的屏幕录制显示了 Sora 转换输入视频的能力
图:Sora 生成的 OpenAI 技术报告视频
图:Promind Sora AI视频工具对比
潘多拉的魔盒已经打开!
尽管未来存在重要机遇,但 OpenAI、监管机构和用户需要仔细考虑可能带来挑战的关键因素,包括版权问题、道德问题以及数字噪音增加的后果。
Sora 提供了惊人的可能性,但让任何人都能制作他们想要的任何内容的真实视频显然并非没有危险。诈骗和网络钓鱼攻击可能会变得更加复杂。(例如,通过使用深度伪造视频使欺诈活动看起来更加合法或可信。)制作具有真实人物高度相似且未经同意的视频将不可避免地变得更加容易,这些视频可用于造成伤害、欺诈或勒索。我们还可能看到它被用来试图颠覆社会安全并传播假新闻和假信息,目的是破坏对政府、政客、或机构的信任。
伴随越来越多的企业和个人访问 Sora,低质量或不相关的视频内容可能会增加,从而导致“数字噪音”增加。对于希望保持优势的企业来说,寻找过滤和策划内容的方法将变得越来越重要。建立防止滥用的指南和保障措施对于维持对技术的信任至关重要。因此,OpenAI 在其网站上的一篇文章中表示,在向公众发布之前,它正在与专家合作测试该模型。
可悲的是,正如人类社会发展中每一项变革性技术情况一样,造成一些损害似乎是不可避免的。因此,解决这些问题需要共同努力,包括教育、立法以及围绕负责任、道德的人工智能使用采用强有力的框架。
AI生成视频版权的问题:
由于 Sora 能够生成逼真的视频内容,因此存在无意中创建侵犯现有版权的视频的风险( OpenAI 已因侵犯版权和知识产权问题多次被起诉)。OpenAI 尚未透露用于训练 Sora 的数据来自何处,但它确实告诉《纽约时报》,它正在使用公开提供并获得版权所有者许可的视频来训练系统。
技术手段方面的缺陷:
OpenAI 的研究报告承认,Sora“没有准确地模拟许多基本相互作用的物理过程”,并补充说它在因果关系、左右混淆以及遵循轨迹方面存在问题。例如,一个人可能会咬一口饼干,但之后饼干可能没有咬痕。
在现实本身具有可塑性的世界中,我们如何辨别真理与虚构?
Deepfakes 已经引起了人们的关注,但 Sora 将把它提升到一个全新的水平。超现实的人工智能伪造技术将引发混乱,操纵公众舆论并削弱对机构和个人的信任。
图:IC photo 2023年11月1日,首届全球人工智能安全峰会在英国布莱切利庄园召开,全球科技公司的高管和政府官员等近百名代表出席。
通用人工智能(AGI)的“重要里程碑”!
尽管OpenAI承认Sora仍处于开发的早期阶段,需要进一步完善,但业界已形成一个共识——Sora的推出标志着生成人工智能领域的一个重要里程碑。360集团创始人周鸿祎更是直接断言,Sora的出现,意味着AGI(人工通用智能)的实现将从10年缩短到1年。AGI是人工智能(AI)的一个分支,也是AI的最终目标之一。这是一种人工智能的理论,用于描述某种类型的AI开发思维方式。根据IBM的描述,如果研究人员能够开发出强人工智能,那么机器将需要具有等同于人类的智能,包括自我意识、问题解决能力、学习能力和未来规划能力。
AGI系统的目的在于执行人类所能完成的任何任务!孙正义在2023软银世界企业大会上发表演讲提到:ChatGPT 等生成式人工智能正在快速发展,而自己相信 AGI 未来将比所有人类智慧的总和还要聪明 10 倍!孙正义曾展示了一张名为 "进化速度(Evolution Speed)" 的幻灯片,展示了人类进化的图表。从人类的诞生到农业革命,曲线完全平缓,直到工业革命到信息革命的过渡期间,曲线才有些许上升。他当时表示,在未来几年中,因人工智能的发展,曲线会陡然上升,斜率接近垂直线。
OpenAI相信生成式人工智能代表了朝着这一目标迈出的切实一步,Sora的诞生更是机器了解真实世界的有力观测工具。随着人工智能的迅速发展,不久的将来可能会出现比人类更聪明的人工智能。OpenAI提出了一个人类需要紧急面对的问题,即当人工智能比人类更聪明时,人类应该如何有效地进行监督?在这样的背景下,OpenAI展开了超对齐(Superalignment)研究,最新的研究成果是以小模型来监督大模型,在人类开发和管理超级人工智能(Superhuman AI)的难题上,提供了一个新视角。
图:软银AI进化速度图表(Evolution Speed)
图:Promind Sora AI视频工具对比
Sora为中美人工智能竞赛再添一把火
Sora的技术突破无疑给国内的AI技术发展带来了新的挑战。在Sora面前,无论是国际顶级AI模型如Pika、Runway,还是在多模态AI上有所投入的国内厂商,基本上都被远远甩在了后头(这也反映了中美在AI技术研发深度和资源投入上的差距)。
国内在经过“百模大战”之后,才刚刚在文本模型上取得显著成果,达到或超过GPT-3.5的水平,并正朝着GPT-4的方向努力追赶。基因组学巨头华大基因集团首席执行官尹烨就曾表示,当 OpenAI 在 2022 年推出 ChatGPT 时,中国人工智能竞争对手有信心能够迎头赶上,“因为重点只在于语言和文本”。
但Sora的诞生,展示了OpenAI在多模态模型而非单一文本领域的突破性进展,让国内AI厂商追上甚至超越OpenAI,几乎成了不可能完成的任务。360安全科技董事长兼首席执行官周鸿祎在微博上表示,如果OpenAI在研发其他“秘密武器”,中美在人工智能发展方面的差距“可能会更大”。
算力制约
Sora这类智能AI对算力的需求无疑是庞大的,而美国先前对中国的先进芯片出口限制,以及去年10月份,阻止国内使用英伟达为应对先前的限制而专门为中国客户设计的图形处理单元(GPU)等政策,都让国内相关企业在算力上面临不小的挑战。
数据模型
2022年,OpenAI曾宣布以创新方法来训练AI模型,省去标注大量资料的训练过程。据报道,OpenAI所公布的视频预训练模型(VPT),让AI学会了在《我的世界》里从头开始造石镐。这项研究发表于2022年6月,同时文中还注明这个工作已经进行了一年之久,也就是说,OpenAI至少从2021年起就开始进行这项研究。
Logenic AI联合创始人李博杰认为,OpenAI的先发优势决定了早期的数据壁垒,对于后进入市场的公司来说,增加了追赶的难度。“即使是谷歌这样全球数据量最大的公司,在训练大模型时,训练数据也未必能比OpenAI更好”,李博杰表示。
相比之下,国内公司在数据上的积累和利用上也存在一定差距:一方面,由于政策变化和其他限制,后来者可能无法获取之前可用的一些关键数据;另一方面,随着AI生成内容越来越多地充斥互联网,原始的真实世界数据被“污染”,使得获取高质量、无偏见的训练数据更加困难。
图:Sora生成的舞龙影片片段
未来机会:探索更丰富的应用场景
实际上,丰富的落地场景正是中国发展AI产业的独特优势。中国AI产业的两大特点是与硬件系统结合和与生产场景结合。因此,我们看到许多智能手机品牌、自主汽车品牌以及其他硬件企业在国内生成式AI的研发方面取得了显著进展,华为毫无疑问是其中最为人熟知的代表。此外,中国企业在AI与各类生产制造、城市管理场景的结合方面也进行了广泛而深入的探索。以智能制造领域为例,世界经济论坛评选的全球一百多家“灯塔工厂”中,大约四成来自中国,这个成绩堪称遥遥领先。
图:Aito M5 运行华为 HarmonyOS
未来既可怕又令人兴奋
Sora的到来勾勒出一个充满活力可能性却又笼罩着令人不安阴影的未来。在每个人能够创作自己故事的时代,为何还要沉溺于别人的脚本?相关的工作岗位可能会消失,职业生涯将会被重新定义。问题不在于“行业是否会受到颠覆”,而在于“颠覆的程度将有多大”?
Sora对于普通人意味着什么?
Sora 使想象力民主化,根据您的愿望量身定制的理想工具。想要与世界分享你做过的光怪陆离又充满趣味的梦境?将自己喜爱的小说人物搬上大荧幕?曾经梦想过主演一部大片吗?拥有与众不同的创意?好吧,你的愿望就命令!来吧,让世界看到他!
随着人工智能的发展,请做好适应能力的准备,拥抱终身学习,在瞬息万变的就业市场中保持领先地位。磨练你的批判性思维能力,以应对信息和错误信息的雷区。最重要的是,记住你的人性。在一个一切皆有可能的世界里,我们人类的特质——同理心、同情心、创造力,将比以往任何时候都更有价值!
Sora对于从业人员意味着什么?
请做好准备,因为 Sora 可能是一个强有力的规则破坏者。想象一下,用人工智能生成的与现实无法区分的视觉效果,来取代耗资数百万甚至过亿的影视大片拍摄。电影业也许会颤抖,但这对独立电影制作人来说也许是个好消息。欢呼吧!您现在可以在公平的竞争环境中竞争,无需好莱坞预算即可制作出高质量的视觉效果。
成熟的工作室呢?做好惊醒的准备吧。精彩特效?奇幻布景?动作场景? “大片”的本质将被重新定义。广告视频?忘记静态广告牌把。想象一下,根据您最深的潜意识愿望量身定制的高度针对性的互动广告,依赖昂贵制作的视频广告业可能面临着生存危机。
Sora对于企业意味着什么?
在不久的将来,有两个关键领域可能会产生重要的应用:第一个领域是营销和广告:正如 ChatGPT 已成为一种营销和内容创建工具一样,企业未来也会出于类似的原因使用 Sora。随着 Sora 的公开发布,品牌和公司将能够为营销活动、社交媒体和广告创建极具吸引力和视觉吸引力的视频内容。根据文本提示生成自定义视频的能力将带来更大的创造力和个性化,60S的创意广告有助于品牌在拥挤的市场中脱颖而出。
Sora 可能影响的第二个领域是培训和教育:公司可以使用 Sora 开发针对特定主题或场景的教育和培训视频。互动性的学习体验可以增强学习体验,使复杂的信息更易于访问和参与。
电子商务等其他领域也对 Sora 的未来应用具有广阔的前景。零售商可以创建动态的产品演示,以更具吸引力和互动的方式有效地展示产品。对于图片或文本无法表达产品优势的企业,或者对于需要详细解释的广告产品来说,这尤其有益Sora 还可以通过虚拟试穿体验来优化在线购物的展示与成交,让客户无需亲自试穿即可直观地看到产品(例如服装或配饰)在他们身上的样子。
OTTA 广告和影响者机构首席执行官兼创始人斯蒂芬妮·拉波特 (Stephanie Laporte) 相信,这项技术将“迫使行业发展”。她还预计预算有限的广告公司将诉诸人工智能工具来节省员工成本。她认为,一个可能的例外是奢侈品领域,该领域的品牌“对真实性非常敏感”并且“可能会谨慎使用人工智能”。
图:Sora 生成的视频效果惊人
图:Geene AR 提供的虚拟打样示例
PROMIND®思想集观点:虽然Sora可以打造令人眼花缭乱的视觉效果,但它缺乏人类讲故事的灵魂。
一个广为人知的故事的曲折性、严密性和共同情感经历,这些都是Sora现阶段的盲点。未来不仅属于生成视觉效果的人工智能,还属于那些怀着远见和目标运用人工智能的讲故事的人。人工智能导演与人类编剧合作,将重新定义故事讲述的混合体验。最具颠覆性的力量不是技术,而是你的想象力!
视频游戏创作者是现阶段最受影响的群体,该行业的反应分为两类:一类是愿意接受新工具的人,另一类是担心新工具可能取代他们的人。感到害怕?感到兴奋?但最重要的是,保持参与。做参与者而不是旁观者。人工智能正在突破可能性的界限,Sora的到来只是一个开始。它代表了人工智能能力的飞跃,为未来解决人类面临的一些最大挑战的创新铺平了道路。
一个教育个性化、娱乐沉浸式、创造力民主化的世界即将到来。想象一下实时适应个人观众的个性化教育、沉浸式培训模拟或互动广告。对于艺术家来说,它是一块新的画布,无边无际且不断发展。关键在于了解 Sora 的局限性并利用其优势。所以这对于你来说意味着什么?您会成为这个新时代的被动观察者还是共同创造者?这是你的选择。但有一点是必须确信的——您可以选择在塑造未来世界的过程中发挥作用,而不是不要让算法编写你的人生脚本!
免责声明:以上部分图片素材及参考资料来源于网络,由思想集品牌咨询( Promind )团队整理并编撰,转载请注明出处。(若图片或内容侵犯到您的权益,请与我们联系删除)
阅读更多相关内容
发掘您的品牌潜力!