2024-09-02 09:52:08|已浏览:28次
生成式AI企业应用大盘点,十个真实案例助你深度了解生成式AI 昆仑万维推出全球首款 AI 短剧平台 SkyReels,一人一剧时代来临,
生成式AI企业应用大盘点,十个真实案例助你深度了解生成式AI
AIGC如何具体落地?盘点生成式AI在各行业应用的十个真实案例
从GPT-3到DALL-E,从这十个应用案例深度认知生成式AI
生成式AI企业用大盘点,十个案例助你深度了解生成式AI
AIGC模式入侵组织经营,十个真实应用案例让你看懂生成式AI
助力组织增效降本,盘点生成式AI在各行业应用的十个案例
AIGC模式正在影响更多组织,十个案例助你深度认知生成式AI
文/王吉伟
这几天坊间有传闻,一家游戏公司在应用文字绘图技术后,砍掉了原画和翻译的外包业务了。鉴于以Midjourney为代表的AI绘图工具的出色表现,以及AI翻译技术的成熟应用,这个说法有八成是真的。
要知道,一个文字生成图技术的应用,足以替代原来十数人的原画团队,带来效率直线上升,成本大幅下降。这种情况下,还要搞什么业务外包。
在赤裸裸的效率与成本对比的面前,哪个公司都不可能无视新技术带来的巨大利益和市场潜力,自然也就会发生血淋淋的砍掉现有团队和外包业务的现实。
这条传闻,至少透露着两方面信息:一方面,原画、翻译等从业人员后面可能就不好过了,包括一些流水线作业的艺术从业者可能都会受到冲击;另一方面,我们也能看到生成式AI正在走入更多的行业,而游戏行业只是表现得相对激烈一些。
可叹的是,这种情况不只发生在游戏领域。很多企业的广告、市场等部门,都将是生成式AI替代人力资源的“重灾区”。
事实上,自2014年关键技术生成式对抗网络(GANs, Generative Adversarial Networks)诞生后,生成式AI就已经走向了台前。
早在2015年,AI药企Insilico Medicine在全球范围内率先利用GANs和强化学习(RL)技术,生成具有特定性质的药物分子结构。后来更多领域都开始应用GANs,而在影视制作领域得到应用后,便迅速走入了街头巷尾发展成为AI换脸,主宰AI领域数年。
2020年OpenAI推出GPT-3并开放了API,很多企业迅速跟进,在这一模型上构建生成式AI应用。截至2021年3月,已经有超过300个应用程序提供GPT-3驱动的搜索、对话、文本完成和其他AI功能,GPT-3平均每天生成45亿字。
同时,基于DALL-E、Codex、stable diffusion等AI模型的应用数量,也在不断增长。Crunchbase数据显示,2021年获得投资的生成式AI创业项目数量为291,2022年这一数据为211。今年,随着ChatGPT、Midjourney等应用的流行,这个数据可能会有新的突破。
AIGC将会持续火爆,投资生成式AI的故事还在继续上演。但除了投资机构、创业者和媒体等组织关注创投,更多人在意的还是生成式AI应用的表现和价值。
如果注意一下,你会发现目前大家都在谈AIGC、生成式AI和ChatGPT的应用场景,却很少谈实际应用案例。那么,这些生成式AI到底是如何具体服务客户的?企业应用生成式AI后得到了什么价值?生成式AI又是如何帮助组织增效降本的?
本文,王吉伟频道盘点了十个代表性案例,帮助大家进一步认知生成式AI。
案例一:Waymark&OpenAI,集成GPT-3增强和扩展视频创建
Waymark是制作电视广告和数字视频广告的领先平台,拥有广泛的专业制作模板库,任何人都可以编辑,无论技术背景如何,Waymark 减少了阻碍众多潜在广告商启动成功视频广告系列的障碍,很多企业都用它来制作企业介绍其产品、服务和活动。
虽然任何人都可以通过Waymark轻松创建视频,但他们的产品研究表明,三分之二的人仍然为在这些视频中说什么而苦恼。他们的撰稿人为顶级行业创建了基于行业的视频脚本,但这些脚本过于模糊,客户仍旧需要大量的手动输入。
后来Waymark通过专有的脚本编写功能来解决这个问题,但对于许多企业来说仍然过于通用。随着Waymark业务的增长和客户群的多样化,挑战变得更加复杂。
Waymark并不满足于基于规则的脚本编写功能的局限性,多年来一直在寻找更好的解决方案。后来尝试了所有可用的人工智能产品,仍旧没能有效解决这些难题。
直到OpenAI的GPT-3服务上线,Waymark立即引入了该技术。Waymark集成GPT-3后,使用微调的GPT-3模型来创建不同脚本编写体验,使得用户可以在几秒钟内收到其业务的原始自定义脚本。
对于Waymark来说,从自己动手到为您动手模式的演变提升了他们的使命,即让视频创作变得可访问。他们现在将自己定义为“世界上第一个自然语言视频创作平台”。
此项功能推出后,Waymark 客户花在编辑脚本上的时间要少得多。特别是对于与许多本地企业合作的公司来说,这是一个节省时间和成本的巨大增强功能,使他们能够更快速高效地推销、销售和支持更多的本地广告商。
案例二:BukiHQ Medi&fireflies.ai,有效解决公关会议记录问题
BukiHQ Medi是一家公共关系咨询公司,旨在使客户保持新闻价值并保持相关性。它有效地建立网络,以建立媒体联系,赢得客户并在公众中建立品牌知名度。
公共关系不仅仅是管理从组织到受众的信息流,它更多的是关于沟通如何吸引和告知重要的受众并建立持久的关系。
根据2019年JOTW传播调查数据显示,59%的传播者起草了传播策略,但只有45%的人承认有记录在案的危机沟通计划。
不能有效地处理客户电话,会对企业的收入产生严重影响。不仅影响业务增长,还有客户保留率。作为一家公关公司,米歇尔需要确保与客户的通话是完美的。每次电话会议都讨论了沟通、宣传和媒体参与,甚至声誉和危机管理的必要关键策略。
但事实上,在记下每一个重要细节的同时,专心倾听客户的意见是具有挑战性的。为了把一些重要信息和细节理解并记录清楚,BukiHQ Medi的工作人员不得不要求客户重复他或她自己。而要求客户重复几次是耗时且非常烦人的,经常会让30分钟的会议持续一个小时。
BukiHQ Medi内部数据显示,大约 15% 的会议时间被浪费,主要是由于会议设备效率低下。不仅如此,在手动做笔记时,讨论的要点经常被忽略。
为了解决这些问题,BukiHQ Medi引入了fireflies.ai(基于生成式AI技术的语音助手)的解决方案。
使用fireflies.ai的AI笔记记录器,可以有效地创建会议记录 (MoM)。这减少了手动记笔记带来的许多沟通不畅和后续行动。
不仅如此,fireflies.ai机器人Fred作为参与者保持通话状态,而不会以任何方式中断会议,自动记笔记使 BukiHQ 更容易专注于讨论并节省大量时间。
案例三:新墨西哥州&Colossyan,视频制作效率大幅提升
新墨西哥州是美国西南部的山区州之一,人口数约200万。
国家和公民之间清晰透明的沟通,对于政务治理起着至关重要的作用。新墨西哥州制作了许多教育内容,但主要是基于文本的。观看视频是该州本地人接收大量信息并遵循教学视频的首选方式。这些信息丰富的视频需要涵盖各种主题,包括纳税申报等。
因此,必须提供越来越多的视频内容来吸引居民并支持稳定的信息流。通过定制创建的视频模块和逼真和自然的演员,对新墨西哥州当地人的教育效率更高。只是,视频制作既昂贵又耗时。
为解决这个问题,该州引入了Colossyan的文本转视频解决方案。Colossyan Creator是一个直观的文本到视频的生成器,用户可以在几分钟内创建一个具有专业外观的视频,其中包含听起来非常自然的人类说话头像。
?生成视频的过程就像选择头像/演员并输入内容一样简单。可以在视频中添加音乐和自定义背景,从而获得更具吸引力的学习体验。这样,他们就不需要安排演员或搭建背景来制作高质量的视频。
使用该方案后,新墨西哥州教学技术团队可以轻松地为其居民创建涵盖各种重要主题的数小时的教育内容,而无需聘请专业的视频编辑、摄制组、工作室或支持人员。可以将文本或长篇PPT演示文稿转换为具有逼真和自然声音的头像的引人入胜的视频,以获得专业外观和工作室质量的视频。
新墨西哥州是最早应用合成视频优势并为居民创建详尽的教育视频模块的州之一,在沟通方面实现了更高的参与度、更高的透明度和更高的效率。
案例四:HealthifyMe&Pepper Content,应用参与度6个月飙升至90%
HealthifyMe是一个总部位于印度的健康和保健平台,十年前开始作为一个简单的应用程序,帮助用户跟踪他们的卡路里摄入量。用户可以在应用程序上浏览各种健身计划,并与来自世界各地的 2000多名营养师和教练联系,以实现他们的健身目标。
活跃用户百分比是HealthifyMe的重要指标。活跃用户百分比表示登录应用程序并与内容互动的用户百分比。然而在某个时间节点上,HealthifyMe发现一旦用户最初的热情消退,就不会像以前那样频繁地进行一对一咨询。
HealthifyMe采用知识分享策略,吸引了许多用户。内容模式诞生了,却遇到了新的挑战。知识分享激发了用户的兴趣和参与度,教练们开始每周在平台上占用空间和时间进行演示。
教练们提出了自己的主题,并定期设计和交付。但这种内容格式缺乏标准化,意味着一些演示文稿沉闷,幻灯片上的内容太多,图像不足,而其他演示文稿则高度参与嵌入式图像和视频。结果,HealthifyMe的活跃用户百分比再次开始下降。
为了解决这个问题,HealthifyMe引入了Pepper Content。Pepper Content从HealthifyMe的运营团队中汲取了想法,并将其转化为精心设计的演示文稿。
通过一致和简化的演示交付,HealthifyMe的平台活跃用户百分比从75%上升到90%。影响这一点的因素包括内容交付的一致性和演示内容标准化,以提高用户参与度和价值交付。
Pepper Content与HealthifyMe团队合作,在不影响可交付成果质量的情况下快速完成周转时间表。HealthifyMe团队非常高兴,超过6个月交付的演示文稿设计是一流的。
此外,参与这些课程的用户引起了鼓励教练组织更多课程的连锁反应,使HealthifyMe受益。
案例五:Sabine&Synthesia,培训效率提高70%
Sabine(博西家电)集团是欧洲最大的家电制造商,拥有60000多名员工,是全球行业领先的公司之一。
由于Sabine是一家知识遍布全球的全球性公司,希望确保组织中的每个人都能获得这些知识,但重要的是以有效的方式完成这项工作。
为了不受时间和空间限制地提供专业知识,电子学习的数字化是一个显而易见的选择,但Sabine的团队不想依靠无聊的PDF或幻灯片来点击。
视频是首选格式,但它有许多限制,主要表现为以下两点:
成本:视频制作成本高昂。雇用演员、工作室和视频设备很容易将成本推高到五位数。
灵活性:创建视频后几乎不可能更新,并且需要额外的时间和资源来重新创建视频。
译本:传统视频内容的本地化既耗时又昂贵且难以扩展。
为解决这个问题,Sabine团队研究了创业生态系统和合成媒体领域,将Synthesia确定为该领域的领先初创公司,将其选为试点项目。
使用Synthesia软件,Sabine迅速开发了一个虚拟辅导员,以指导学习者完成培训课程。作为生成式AI视频制作平台,Synthesia的优势主要体现在三个方面:
易用性:易于使用,包括所有必要的视频编辑功能,无需其他工具即可创建高质量的培训视频。灵活性:可以随时轻松更新视频,而无需从头开始。成本:与雇用演员、工作室和视频设备相比,Synthesia STUDIO具有成本效益、灵活性和可扩展性。
方案实施后,Sabine试点取得了巨大的成功。成效包括:超过30000次基于Web的培训观看,电子学习的参与度提高了30%以上,节省超过 70%的外部视频制作成本。
自试点项目启动以来,博西家电约有500名员工积极使用Synthesia,以确保他们能够与全球60000名同事分享他们的知识。
案例六:Achievers&Forethought,首次联系解决率实现93%
Achievers是一个员工语音识别解决方案平台,可帮助组织建立员工敬业度和可持续绩效。
Achievers的业务既有B2B也有B2B2C。在B2B2C方面,最终用户由全球客户支持团队提供支持服务。Achievers的目标是为客户提供一流的支持体验,并建立可扩展的支持团队并高效运营。
在繁忙的假日季节期间,Achievers会遇到支持查询的激增。该公司注意到22%的支持查询是密码重置请求,这些查询是在没有任何背景的情况下分配给代理商的。
Achievers使用了一个本地聊天机器人,机器人无法转移简单的查询,导致队列备份了本应解决的查询,而无法与代理交谈。
为了在不增加员工人数的情况下为客户提供快速的解决时间,Achievers必须改进支持工单的分类和分类方式。
为了解决这些问题,Achievers引入了用于客户支持自动化的AI生成平台Forethought,以实施求解和分类。
Forethought可以与Salesforce Service Cloud以及Successrs的服务台无缝集成。Achievers利用知识库和预构建的工作流,通过自动化小部件解决重复工单。解决即时搜索成功者的知识文章和以前解决的工单的整个数据库,以提供最准确的支持查询响应,而无需代理的干预。
Forethought还可以用于自动化工单分类。通过分类使用历史数据主动预测和分类成功者的新传入工单,Achievers支持团队利用现有的路由功能来确定工单的优先级并处理工单,而无需手动分类。
方案完全实施后,Achievers同时使用会审和求解来改善其客户和座席体验,实现44%的偏转率(deflection rate)。
借助 Forethought,Achievers的客户支持团队已实现93%的首次联系解决率,参与度得分也提高了50%。
案例七:RealDefense&Observe.AI,通过AI指导实现103%的销售配额
RealDefense为消费者和小型企业提供身份保护和实时技术支持服务。该组织拥有超过100万客户,业务遍及全球33个国家/地区,有望对网络安全产生令人难以置信的积极影响。但为了实现这一潜力,RealDefense需要加强其联络中心的销售业绩。
RealDefense在低于预期的销售额中苦苦挣扎。该组织每月监控的客户电话不到 2%,而且手动的QA流程无法提供数据支持的见解以了解销售受到影响的原因。这导致其售配额仅在50-60%之间。
为了扩展销售业绩,RealDefense需要确保为代理提供正确的脚本,确保代理采用脚本,并确保系统为我们捕获正确的脚本。为了实现这一目标,RealDefense需要一种解决方案,该解决方案可以提供更多的联络中心对话可见性,并从每次交互中提供业务改进情报。
RealDefense选择了Observe.AI的智能劳动力平台来获得一个事实来源,推动座席销售行为的改进并收集见解,以便为每个座席提供有针对性的上下文指导。
Observe.AI智能劳动力平台不仅让RealDefense看到客服座席的不规范性,还提供了对客户交互的全面可见性。由生成式AI驱动的对话智能和评估分数的历史,帮助RealDefense提高单个座席和整个团队(包括主管和QA经理)的绩效。
尝到甜头后,RealDefense开始进一步接入Observe.AI的QA评估表、情绪分析、Moments、记分卡视图、网络聊天等工具,加强其销售业绩。
方案全面实施后,RealDefense在业务绩效方面有了显著提高。以前所有代理的自动失败率为 100%,现在已改善了 90% 以上。随着团队坚持销售脚本,销售配额完成率已提高到103%。同时,该组织也建立了强大的反馈循环,可提供持续更新和可操作的信息。
案例八:MHI&Lumen5,扩展内容策略并加快工作流程
三菱重工(MHI)是一家总部位于东京的跨国工程和制造公司。MHI集团为电力和能源、工业机械、城市基础设施、航空航天和国防等广泛领域提供创新和集成的解决方案。
该公司拥有自己的内容营销网站。在这个瞬息万变的数字时代,MHI想通过网站将世界运转的技术和哲学置于上下文中,简化值得了解和与他人分享的概念。
MHI与多家媒体和内容创建机构合作,但视频制作和编辑过程很长,必须经过无休止的审查。结果并没有达到他们的目标—立即制作多样化、一流且价格合理的内容,而是经常妥协于平庸、昂贵和更少的视频。
尽管MHI网站上有不少很棒的内容,但他们缺少一个强大的工具来帮助他们以另一种格式(视频)重新利用它,并迅速将其发布到社交媒体上,以进一步提高参与度。MHI意识到应该制作更多的视频内容,以更好的表现企业形象,同时也知道他们的工作流程必须改变。
为了解决这些问题,MHI引入了生成式AI视频平台Lumen5。
得益于Lumen5的直观界面,MHI编辑团队意识到他们不需要成为视频制作专家即可为其活动,博览会和社交媒体账户创建引人入胜的视频,业务流程效率大幅提升。
使用Lumen5成本很低,无需任何广泛培训即可快速制作内部视频,实现内容多样化,以更好地与目标受众互动。使用Lumen5不到一年,MHI发布的视频内容量是以前的五倍,从而增加了网站流量。视频获得的展示次数是其他类型内容的两倍。
现在MHI在LinkedIn上分享的内容中至少有一半是Lumen5视频,大幅提高了粉丝互动的参与率。
案例九:借助Wordsmit,美联社自动化撰写了50000篇文章
美联社是最大和最值得信赖的独立新闻采集来源之一,为其成员、国际订户和商业客户提供稳定的新闻流。作为51项普利策奖的获得者,其成员包括约1400家美国日报和数千家电视和广播公司。
多年来,美联社的财经记者几乎没有时间专注于硬新闻报道,每个季度都要花费大量时间制作财务报告。在此期间,美联社每季度只能制作300份财务报告,还有数千份潜在的公司收益报告未成文。在紧迫的期限内处理这些数据,效率不够且经常会出现错误。
与财经记者类似,体育记者负责整理成堆的比分和比赛笔记,为大学篮球和小联盟棒球比赛撰写预览和回顾。记者只有时间报道每个联盟的顶级球队,无法报道未排名的比赛。
好在,美联社从Automated Insights的Wordsmith平台找到了问题解决方案。
Wordsmith使用自然语言生成将数据转化为富有洞察力、听起来像人类的叙述。就财务报告而言,Wordsmith在几秒钟内将Zacks Investment Research的收益数据转换为可发布的美联社故事。美联社现在制作了4400个季度收益故事,比其手动工作效率提升了近 15倍。
为了支持体育记者,美联社在2018赛季开始自动化NCAA一级男子篮球预览,使用Wordsmith和Stats Perform的数据为常规赛提供超过5000个预览。同样在2018赛季,美联社开始使用Wordsmith生成的NCAA一级男子篮球比赛的自动回顾。数据驱动型报道的自动化,使记者能够专注于撰写批判性的定性文章。
在Wordsmith的帮助下,美联社已经有超过50000篇文章实现了自动化撰写。
自动化并没有取代任何记者,而是释放了每个季度制作收益报告所花费的约20%的时间,相当于释放了整个组织的三名全职员工。
案例十:通过Ada,亚航通过自动化在4周内将等待时间减少98%
亚航(AirAsia)是客户体验的全球领导者,每年运送超过1亿旅客前往全球140多个目的地,并计划进一步大幅增长。
随着亚航越来越受欢迎,品牌互动的数量也在增加。如果没有自助服务解决方案,客人被迫等待近一个小时才能联系到代理商,从而使该品牌的声誉面临风险。
更重要的是,由于依靠呼叫中心在当地时间和语言内工作,亚航错过了与国际受众建立新联系和推动新销售的机会。
这种情况下,亚航遇到了严峻的业务挑战,主要表现为以下几点:
在网站上及通过呼叫中心提供实时座席支持;代理商被大量的国际互动所淹没;45分钟客户等待时间;语音呼叫中心支持时间限制为亚太地区小时数。
亚航希望使其客户服务更好、更快,选择了客户服务自动化公司Ada作为跨多个渠道扩展自动化支持的新战略的一部分。亚航使用Ada的平台(已经在使用GPT-3自动化客户意图的培训)构建并推出了一个24/7多语言聊天机器人,准备通过品牌的网站和应用程序为客户提供即时帮助。
将Ada与企业的后端连接后,亚航允许客户使用聊天机器人查看航班更新、预订航班、回答有关亚航体验的关键问题、更新乘客信息,以及向预订添加辅助产品。
采用Ada生成式自动化方案仅一个月后,亚航将平均等待时间减少到不到一分钟,效率提高了98%。并实现了以下效果:
75%的品牌互动在没有现场代理的情况下得到解决;CSAT 从60%提高到90%,客户等待时间少于 1分钟;辅助产品追加销售/交叉销售增加 8倍;支持 11 种语言;开辟了包括Facebook Messenger和WhatsApp在内的新渠道。
在Ada的支持下,亚航客户的代理商通过客户幸福联系渠道为整体辅助收入做出贡献,与12 个月前相比,销售的辅助产品增加了8倍。
全文完
【王吉伟频道,关注TMT与IoT,专注数字化转型、业务流程自动化与RPA。】
发布于:江西
昆仑万维推出全球首款 AI 短剧平台 SkyReels,一人一剧时代来临
机器之心原创
作者:吴昕
8月19日,昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels。SkyReels平台集剧本生成、角色定制、分镜、剧情、对白/BGM及影片合成于一体,让创作者一键成剧,轻松制作高质量AI视频。这是一个2分半时长的短剧作品。
视频链接:https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
「 我们应该放下固化和抵抗的思维,拥抱这个碎片化信息时代。」 2023 年 12 月初,导演黄建新在北京电影学院北影大讲堂上感慨,比起电影,竖屏短剧兴起才真正形成了全球输出。
几分钟到十几分钟的单集时长、强烈的娱乐性和快节奏剧情,频繁踩中用户「爽点」,短短三年(到 2023 年),中国短剧市场就达到了年度院线电影票房的七成。
与此同时,大量短剧独立 APP 全球上线,中文在线的短剧软件 ReelShort 在美国 iOS 排行榜上表现优异,甚至超越了长期霸榜的 TikTok, 实现破圈。
短剧已成为近年增长最快的影视领域之一,也成为新技术的试验场。「一键翻译」、「 AI 换脸」屡见不鲜,多家网文公司还发布可以辅助作者写作的内容生成大模型。借助 AI 大模型视频生成能力,以往三个月的短剧制作时间现在只需要半个月。
AI 创作的短视频片段,一经发布就能获得百万流量的加持,但一部 AI 全流程短剧制作还面临不少挑战。创作者需要在 ChatGPT、Midjourney、Runway、Eleven Labs、ComfyUi、Adobe、剪映等多个 AI 工具间反复「横跳」,作品效果仍差强人意。
在这样的背景下,拥有十多年出海经验的中国人工智能科技企业昆仑万维推出了世界首个 AI 短剧平台 SkyReels——一个集成视频大模型与 3D 大模型的 AI 短剧平台。这不仅是国产大模型在短剧领域的成功落地,也预示着「一键成剧」、「一人一剧」时代来临。
同时,这一革命性的工具有望带来 AI 短剧用户生成内容( UGC )与专业用户生成内容( PUGC )的爆发式增长,推动短剧内容创作与消费市场的进一步快速增长。
一、认识 SkyReels ——全球首款 AI 短剧平台
SkyReels产品操作Demo
视频链接:https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
打开 SkyReels 网页,立刻感到「AI 短剧」与其他 「 AI 创意」平台的设计,很不一样。
都是由 AI 驱动,但「 AI 创意」平台以图片、视频生成为主,SkyReels 则集剧本生成、角色定制、分镜设计、视频拍摄与合成于一体, 完整复制了短剧工业化流程。
SkyReels 集故事创意、剧本生成、角色定制、分镜设计、视频拍摄与合成于一体, 完整复制了短剧工业化流程。
短剧收视不「扑」,首先得有好创意,并将它具象成一个爽文剧本,这是最重要的。
虽说文本创作是大语言模型 LLM 的舒适区,SkyReels 的不同之处在于负责文本创作的大模型受过专业训练,更懂怎么写出有「 爽点 」、带流量的剧本。
只要输入一个概念或故事创意,点击「创作类型」, 比如情感剧,系统会自动生成一份符合要求的剧本,结构完整、情节丰富。
用户也可以上传现成的剧本,让 AI 帮忙润色、优化,提升剧本的专业度和可读性。
系统会根据创意提示自动生成一份符合要求的剧本,还会摘要出所涉人物小传,为后面的角色设计做准备。
剧本有了 ,接下来就该「物色演员」,在 SkyReels 上,这个环节叫角色设计。
通常,我们会先让 LLM 写设计文本,再扔到 Midjourney 等文生图工具,生成角色形象。要给角色添加配音,还要继续召唤 Elevenlabs 等音频工具。
现在,只需进入页面输入相应要求(包括角色配音),即可「一键生成」角色,大大提升了制作效率。
只需进入页面输入相应要求(包括角色配音),即可一键生成角色。
进入拍摄之前,除了物色演员,导演还要制作分镜。所谓分镜,主要是将整个故事分解成一系列连续的画面,每个画面都代表一个特定的场景或动作。
吉卜力工作室的《千与千寻》分镜图。
没有美术背景的导演,要在绘画师的帮助下完成分镜设计,非常麻烦。现在,他们可以让 LLM 生成分镜头的文字脚本,再用 Midjourney 等工具画出分镜图。
但是,这种方法的弊端也明显,很难保证角色、场景的前后一致性。比如,央视 AI 频道上线的 AI 全流程微短剧《女娲》中,女娲每次出现,长得都不太一样,好像有几个女娲。
在 SkyReels 上,AI 会根据剧本内容,一键生成分镜图片和对应的文字脚本,仅需等待 1-2 分钟即可查看每个镜头的效果。不满意,还能通过修改文字(如场景或人物动作),调整分镜效果。
更重要的是,在自研技术支持下,分镜图片不仅高清、细节丰富,角色、场景在不同分镜中都能保持一致性和连续性。
AI 会根据剧本内容,一键生成分镜图片和对应的文字脚本。
分镜设计好了、演员就位后,就要进入「 实拍」阶段。目前,AI 影视发展最大的瓶颈也在这里,因为能用的好「摄像机」太少。
常见做法是用 Pika、Runway 生成动态效果,但槽点很多。 比如, 画质糟糕、角色动作幅度小甚至不合理(吃面问题),还容易出现场景不一致,有时车辆在运动但车轮不转,水流时水花在动水面却是静止的。人物说话口型对不上,表情也僵硬。
通过 AI 3D 引擎与视频大模型的结合,SkyReels 能将分镜自动转换为连续视频,生成的场景和人物更加生动、一致,还支持 1080P 60 帧视频输出,煲剧体验也有保障。
另外,单次可生成视频长度达 180 秒,相比 Sora 单次可生成 60 秒视频、可灵单次可生成 10 秒视频,有显著突破。
SkyReels能将分镜图自动转换为连续视频。
最后,所有流程成果可一键整合,快速生成最终短剧。AI 还会根据剧本题材与具体场景生成并推荐合适的背景音乐和音效,用户也仅需一键添加。
背景音乐和音效也可一键添加。
支持一键导出成片,并可一键发布至抖音等社交媒体平台。
支持角色设计的一键分享。
二、「 一键成剧」背后,三层技术创新
三层技术创新,如三根支柱,支棱起 SkyReels 「 一键成剧」:
自研剧本大模型 SkyScript、自研分镜大模型 StoryboardGen,以及业界首个将 AI 3D 引擎与视频大模型深度融合的创新平台 WorldEngine。
剧本大模型 SkyScript 负责拿捏短剧的「 灵魂」——剧本。事实上,不仅是剧本,文本大模型也是整个创作流程的支撑。
有些微短剧编剧尝试过利用 ChatGPT 生成剧本,但发现最终的结果缺乏情感张力和剧情变化,只是堆砌了一些平面的文字。昆仑万维构建了亿级的高质量短剧结构化数据集 SkyScript-100M ,该数据集针对海量精彩短剧的剧情节奏、爽点、情绪变化进行了高质量标注,专为剧本创作而生。
SkyScript剧本大模型技术原理图
SkyScript剧本大模型的分镜脚本生成原理。
比如,除了从海量数据中学习创作的基本原理和通用模式,要爆款,还要摸清一些百试不爽的「套路」。 观众往往对快节奏、强烈冲突、悬念迭起、多次反转的剧情设计有明显偏好;逆袭改命、霸总娇妻、豪门宅斗、穿越重生、吸血鬼、狼人等主题,也是百看不厌。
ReelShort爆款短剧《The Double Life of My Billionaire Husband》为先婚后爱,单集约1分30秒,截至第12集左右,男女主在密集的剧情交集中,迅速完成了感情升温,且涵盖了恶毒女配、契约婚姻、英雄救美、 财产争夺等情节。来自国海证券中国短剧出海深度报告。
通过精心标注的故事中能引起观众强烈兴趣的「爽点」,如主角外貌、镜头构图、贯穿人物表达的情绪, SkyScript 学会了关注并生成这些细节。
在模型架构上,为了确保生成内容的专业度和可控性, SkyScript 也采用了多智能体框架。透过「创意人」、「选角导演」、「编剧」、「小说作者」、「导演」等智能体的协作,模仿工业制作流程,完成剧本创作。
剧本大模型 SkyScript 的质量评估情况。
短剧,说到底,是一种视觉语言的呈现,因此,另外两层创新—— 分镜 StoryboardGen、 WorldEngine —— 聚焦短剧的「血肉」,也就是拍摄。
和 SkyScript 一样,自研分镜大模型 StoryboardGen 也接受了真实世界中高质量、专业分镜实例训练,专为分镜设计而生,也与通用类图像生成模型拉开了距离。
同样,基于多智能体框架,将分镜的不同元素(场景、镜头、角色、动作等)分解为多个智能体来处理,大大增强了分镜制作过程中的可控性和一致性。
分镜大模型 StoryboardGen 的技术原理图。类似于电影拍摄、动画制作,基于多智能体框架的 StoryboardGen 将整体流程分解成了多个 agent,每个 agent 负责某个专项能力,增强分镜制作过程中的可控性和一致性。
假设有一个剧本,里面描述了一个场景,比如一个人在公园里散步。
LLM Planner 会先把这个剧本拆解成两部分。
其中,全局描述( global prompt ):「一个人在阳光明媚的公园里散步」;
局部描述( local prompt ):「这个人是中年男性,穿着休闲装,手里拿着咖啡杯,步伐悠闲。」
在生成环节,不同智能体各司其职,如场景智能体根据全局描述生成公园的背景、布局等;角色智能体根据局部描述生成男性角色的形象和动作。
最后由 Storyboard 智能体将这些生成的内容整合起来,根据所有的描述信息和条件,生成最终的分镜图。
分镜大模型 StoryboardGen 质量评估情况。
除了可控和一致性,为了让分镜画面更具表现力,StoryboardGen 还大幅提升了画面的复杂程度和细节精度。
如,StoryboardGen 采用了基于 DiT 的渐进式生成框架,通过多次修改和完善来创作最终的图像。相比传统的一次性生成模型,这种框架能够充分利用中间过程产生的信息,生成质量更高、视觉效果更丰富的分镜。
第三层技术创新是一个创新平台 World Engine ,在业界率先将 3D 生成技术与视频生成技术,通过图层融合等方式,无缝衔接在一起,相当于为创作者提供了一部强大的「摄影机」甚至「影棚」。
WorldEngine 结合了引擎的精确可控能力(如光照模拟、物理模拟、3D 空间、实时交互等) 以及 AI 视频大模型的幻想生成能力,提供了全新的线上混合视频创作模式,让视频创作从模糊生成迈向更加精确可控。
假设你正在制作一个场景,一只皮卡丘在喷泉下玩得很开心,可以让 Sky3DGen 创造出精确的喷泉场景;同时让视频大模型生成逼真的皮卡丘。
混合生成视频案例
视频链接:https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
我们知道,Sora 等视频大模型可以轻而易举地生成游戏引擎难以匹敌的、几乎真实的效果,并且充满想象力,但它们不懂物理世界,无法准确模拟一些最基本的物理交互,如玻璃破碎、吃面等。
而游戏引擎的优势在于其对现实物理规律的精准模拟。通过复杂的数学模型,它能创造出时空连贯、符合客观规律的虚拟环境,不仅确保了渲染结果的一致性和可预测性,还展现了对三维空间的深刻理解。
作为中国最大的游戏开发和运营企业之一,昆仑万维自研 Sky3DGen 大模型,并与视频大模型「优势互补」,为创造者提供了一种全新的混合创作模式,也就不算意外。
在 SkyReels 上 ,你可以变化出各种 3D 场景和造型,甚至人物表演。
3D 道具视频生成案例
视频链接:https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
3D 场景视频生成案例
视频链接:https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
人物表演是短剧的核心之一, 昆仑万维自研了 ActorShow 人物表演生成模型,有更强的口型表情和肢体动作的可控生成能力。
视频链接:https://mp.weixin.qq.com/s/4w5eOquY6p2Z7pXIUuKf9w
人物表演生成模型的质量评估情况。
创作过程中,用户还能自由定义 3D 虚拟拍摄影棚。
今天想拍摄在沙漠中的故事?点击几下,整个场景就变成了广袤的沙漠。明天要拍摄在宇宙空间站?再点几下,周围就变成了高科技的空间站内部。
你甚至可以在搭建的虚拟摄影棚里,放置和移动虚拟摄像机,尝试各种拍摄角度。调整光线、添加特效,得到非常专业的拍摄效果。
由于引擎的使用,与传统的视频生成相比,WorldEngine 在成本上实现了革命性的下降,同时,生成速度、可控性都提升了数个量级。
三、押注 AI UGC ,再上牌桌
AI 短剧平台 SkyReels ,是昆仑万维 AI 应用层产品矩阵中的最新成员。
在此之前,他们已经成功构建了包括 AI 搜索、AI 音乐、AI 视频、AI 社交、AI 游戏等在内的多元产品阵列,部分业务已实现商业化落地。
作为最早开拓全球市场的中国企业之一,凭借十多年的内容与娱乐赛道经验,昆仑万维已经洞察到 UGC(用户生成内容)平台在内容和游戏领域一直保持长盛不衰的态势,也预测到 AIGC 的介入,不仅让网文、短剧、动画、游戏的 IP 创作手段更加多样化,更关键的是大幅降低了内容创作的门槛。
正如业内所言,「生产内容的门槛每降低一倍,创作内容的人数就会增长十倍」,这预示着巨大的市场机遇。
因此,昆仑万维致力于打造一个以 IP 为核心的综合 UGC 平台,让所有使用 AI 进行创作的用户都能在其中完成 IP 的全闭环。他们深知,一个能够隐藏所有技术细节、实现端到端内容生成的工具,才真正具有商业价值,这也正是 SkyReels 等「一键生成」式产品的深层逻辑。
除了在上层打造 AI UGC 平台,在底层,昆仑万维还致力于开发通用大模型的底座。这源于一个简单又深刻的洞察:从技术角度来看,人类的智慧是以文本形式沉淀下来,所有的社交、游戏、音乐跟视频的专属模型,都离不开文本大模型的能力支撑。
昆仑万维自研的天工大模型已迭代至 3.0 版本。「天工 3.0 」采用 4,000 亿参数 MoE 架构,是目前全球模型参数最大、性能最强的开源 MoE 模型之一。在 MMBench 等多项权威多模态测评结果中,「天工 3.0 」超越 GPT-4V ,多项评测指标达到全球领先水平。
有了夯实的通用大模型底座,昆仑万维又一步步朝着内容和娱乐领域,横向延伸模型能力——从音乐、文生图、视频生成到短剧生成,相继推出 SkyMusic AI 音乐大模型、Skywork-MM 多模态大模型、SkyScript 剧本大模型、 StoryboardGen 分镜大模型、 Sky3DGen 3D 大模型等。
昆仑万维董事长兼 CEO 方汉曾经预言,就像摄像头带来了拍摄方式的革命,催生出抖音、快手等巨量短视频平台一样,AI 也将催生大量新的 AI UGC 平台。他坚信,只有「免费+ to C 」的模式,才能在 AI 时代孕育出真正的巨头企业。
对于深具 2C 基因的昆仑万维而言,AIGC 的兴起无疑是一次难得的机遇。这个一直梦想成长为领先的人工智能科技公司的企业,原本以为已经错过登上牌桌的机会,却没想到 AIGC 又为他们敞开了一扇新的大门。厉兵秣马,他们正全力以赴。 ?
内测申请地址:https://skyreels.ai/beta