酷玩实验室作品
(资料图片)
首发于微信号 酷玩实验室
微信 ID:coollabs
就在昨天(7 月 28 日),全世界最大的数字娱乐展会,ChinaJoy2023 在上海浦东开展。作为科技博主的我,每年去看 cospaly,不,是去看新游戏以及娱乐产业最新的技术。要说今年 CJ 上什么技术最火,肯定是 AIGC(AI 生成式内容)!
从逆水寒的 AI NPC 到 AI 生成游戏概念图,AIGC 已经变为数字娱乐产业中最重要的关键词。在今年的会场外,CJ 专门召开了 AIGC 大会,会场内,各个展商也抓紧将 AI 部署到自己的产品中:中手游的《仙剑世界》引入 GPT,游戏里的 NPC 对话将变得更加真实和自然;网易更是把 AIGC 开放给更广的玩家,在年轻人中爆火的《蛋仔派对》,玩家不必使用专业工具,在 AIGC 的帮助下,简单几步就可开发出新玩法。
所有的这一切都在显示,AIGC 已经成为所有数字娱乐开发厂家的共识,而 AIGC 的好坏与否,和躲在背后的大模型摆脱不了关系。目前国产最强大模型当中,华为云 " 盘古 " 肯定是 T0 级别。在 CJ 的 AIGC 大会举办的同一时间同一地点,华为云数字文娱 AI 创新峰会举办,首次展示了盘古大模型 3.0 面向数字文娱产业的能力。
盘古大模型具体会对文娱产业带来多么深远的影响,或许仍待进一步观察。不过,盘古大模型在气象领域的成果,可以作为直观的参考。各位可能对盘古气象大模型发表在《Nature》杂志的研究成果有印象,它在业内第一个做到了,用 AI 模型预测天气的精度超越了传统的数值预报方法,超过了之前全球最强的欧洲气象中心的 IFS 系统。
全球每年会形成大约 80 个台风,其中平均会有 7 个台风经过我国。麻烦的是,用原来的预报方法,虽然我们可以提早几天看到台风路径,但因为路径往往是动态的,可能最终只能提前一天甚至几个小时才知道具体登陆位置 … 这就造成了防灾减灾工作的两难处境:提前投入太大结果台风不来,不合适;投入太小,台风可能就会给我们迎头痛击。每年台风给我国造成直接经济损失超过 100 亿元,我记得高中有个暑假我在家里跟同学玩魔兽世界下副本,有个台州的同学突然说他要下线了,我们正要骂,他补了一句 " 我家屋顶没了 "。。。而盘古大模型做到了对全球气象预测 10 秒出结果,预测速度提升了 10000 倍,并且更加精准。
今年上半年,盘古跟国家气象局合作预测台风玛娃的路径,提前十天就准确预测了它的路径,这个时间间隔就足够大家做出充分的准备了,比如把屋顶加固一下。
可以看到这里的蓝线是传统预测方法预测的台风路径,红线是盘古的预测,黑线是台风的实际走向,很显然,盘古大模型的预测精度显著超过了传统方法。
具体到文娱领域,盘古大模型基于同样的模型底座,有同样的惊艳表现。熟悉我们的朋友都知道,酷玩实验室在做一个微信电商,做电商很大的一块工作就是拍图。
比如我们要上新一批服装款式,就需要根据款式对应的性别、年龄段,约模特过来,安排一个影棚,架好灯光布置好背景,然后不停地穿拍脱穿拍脱,忙活一天下来终于拍完了 20 套衣服,拍完之后还要 P,最后才能安排上架。
这一套流程一来是成本很高,二来是很累效率提不上来,它经常电商上架最慢的一个环节。
现在我们在美图公司旗下的" 美图设计室 "官网,找到一个最新推出的创新功能——AI 模特试衣。
用上这个功能之后,整个拍图流程就会变成这样:第一步:我们找个假人模特,批量地先把衣服拍了,这步不用人配合就会很快;
第二步:到这个网站上,可以一键生成几个模特,把衣服给她们穿上去;
第三步:生成照片,大功告成。
这么高效又惊艳的功能,是由华为云盘古大模型与美图视觉大模型 MiracleVision 共同研发的最新成果。在盘古大模型的加持下,这个衣服不是生硬地往人身上一贴,而是从光影效果到材质细节到模特的动作都配合得很好,可以媲美高质量的实拍(特别是你一般找不到那么好看的模特)。
这样一来原本一两天的工作,半个小时之内就可以搞定,这就是生成式 AI 在文创领域带来的指数级效率提升。那这一切是如何做到的呢?
因为一旦 AI 要真的应用于产业,就一定会面临几个绕不开的问题。文娱产业也是如此。
首先,行业应用需要的是专业的知识而不是泛泛的知识。
比如理论上构建游戏的叙事、世界观,和游戏里面的人物的 AI 自主对话,都可以说是 NLP 自然语言生成。但一边背后的知识是游戏、动漫、影视作品的背景设定集,一边背后的知识是角色的人设和语言风格,可以说完全是两回事。
二来,行业应用需要 AI 表现出超强的稳定性和可靠性。
比如说你用 AI 文生图功能去制作游戏的人物原画,那么同一个游戏里面,原画的风格需要保持一致,同一个人物的不同造型,脸和关键特征需要保持一致,甚至不同人物原话里面,一些游戏架空世界的统一设置也需要保持一致。
再比如,你开一个数字人直播卖货,别的闲聊气氛可以不论,但关于货品的介绍信息必须得是准确的,不然你的数字人在那儿扯淡一波,第二天工商局的罚单来了,一个月白做了。
第三点也非常重要,每个行业都会有自己的专业软件和工作流程,新的 AI 应用需要无缝对接到专业软件的数据,嵌入到原本的工作流程当中去。
比如说我们要用 AI 去做大型连锁品牌的运营数据分析,那你必须生成数据库标准的 SQL 代码吧?你得能访问原本的数据库吧?你得能生成运营人员看得懂的图表吧?特别是不同层级的员工肯定有不同的数据访问权限,你得能分级处理加密数据吧?
第四点当然是,在行业应用领域,各家数据都是他们自己的商业数据,他们需要保密、合规。
这就是用 AI 来做处理真正商业问题时困难的地方。很多 AI 大模型只能 " 作诗 " 而不能 " 做事 ",归根结底就是他们搞不定这四个点。
实践出真知,积累足够经验和行业知识,才能够去推进 AI 的行业应用。华为云作为国内头部的云服务厂商,深入行业领域耕耘多年,在 AI 领域已经有超过 1000 个项目。
华为云盘古大模型是怎么解决这些问题的呢?首先,他们做了一个 5+N+X 的分层架构。具体到文娱领域,L0 层的多模态大模型,提供了图像编辑、图像拓展、以文生图、以图生图、文生 3D、文生视频、图生 3D 等基础功能。L1 层满足动漫、游戏、影音等等垂直领域的综合需求。而 L2 层就对应到生成比方说像素游戏,艺术家风格的画作、电商模特这些功能场景。
如何理解所谓的 L0、L1、L2 分层架构呢?这里不妨引用华为轮值董事长胡厚昆曾经在世界人工智能大会上的形象阐述 :L0 层对标的是通用大模型,华为云称之为基础大模型,可理解为读万卷书,就是要做好海量的基础知识的学习。这一层之上,华为云还打造了 L1 层行业模型和 L2 层场景模型,叫做行万里路。从读万卷书到行万里路还有很多的挑战要克服,很关键的一点就是要把各行各业的知识与大模型进行充分的匹配和融合,华为正在和各个行业的伙伴一起进行努力。
其中盘古的 L1 和 L2 层模型,是基于 L0 层模型已经学习了上百 TB 文本,数十亿张图像的基础上,再投喂 5000 多万条题库,辅以行业专家的监督学习反馈,打通十多种行业工具,进行完善的数据分层,精调出来的。
比如说你们公司想做一款数字人,当然你可以基于 L0 层的文生图、文生视频等多模态能力,自己去搭建一个数字人生产线,再去生成数字人,但这个技术门槛会比较高。比较可行的选项是,直接在 L1 层的数字人大模型上进行微调,轻松构建 L2 层的数字人 AI 生成应用;甚至直接使用别人基于 L2 层场景模型开发好的数字人生成应用,只需要输入自己个性化的声音、动作、表情,生成专属的数字人。华为云盘古大模型可以做到基于你输入的 5 分钟历史视频,经过 1 个小时的训练,生成专属于你的个性化数字人。
比如游戏公司,会对自身角色原画的风格有统一的要求,做会展的公司,也会对活动主题物料风格有统一的要求,而且很多时候这种风格,不是市面上流行的风格,而是我们公司主创自己的风格。这时候用盘古多模态大模型,通过在模型精调工具中,投喂已有的风格化的图片,对模型进行二次训练,就可以灵活地构建自己专属的生成式 AI 工具。今年上半年,全球新发布的大模型超过 400 个,中国就有超过 80 个。当然我相信所有的大模型,最终的愿景都是实现所谓 AGI 通用人工智能,也就是像钢铁侠的 AI 助手贾维斯一样,一个模型解决所有的问题。但事实是,谁能更早的用起来,就决定了谁的产业能更快的借助这一波 AI 技术革命加速,也决定了谁的 AI 能被更专业的行业数据所训练,变得更强。而其中最为关键的,当然还有对底层技术的自主掌控。
因为众所周知的原因,华为云没法使用目前市面上那套从芯片到云服务到开发框架的最成熟的 AI 基础设施,但华为全流程搞了一套自己的 AI 生态。
昇腾 AI 芯片,对标英伟达通用 GPU 系列;
MindSpore 开发框架,对应到谷歌的 TensorFlow 和 META 的 Pytorch;
一站式 AI 开发平台 ModelArts配合华为云,对标谷歌云和微软的 Azure;
这些是大面儿上的,细节来说,这套生态还包含 AI 数据采集、标注、清洗、管理工具,模型训练 workflow,提示词 Prompts 优化工具,内容合规审核等等工具。
这套系统的复杂性我很难用言语来形容。举个最简单的例子,为了支撑这套系统,华为云有自己的数据中心,俗称机房。为了支撑大模型的超大训练量,华为云重新设计了机房的液冷总线、电源总线和网络总线的内嵌机柜结构。在千卡(一千张 GPU 卡)的规模下,用谷歌 Pytorch+Megatron 训练,最长 1.5 到 2.8 天就会发生一次故障导致训练停摆,而在华为云天成数据中心,大模型可以无故障训练一个月以上。
据华为云发布会上的披露,这套系统的AI 训练效率比业界主流高出 10%,中国有近一半的 AI 大模型已经在用华为的算力服务。
在中美的产业竞争愈演愈烈的大背景下,去年 10 月 7 日的芯片法案,限制了英伟达 A100 以及以上级别的 AI 训练芯片的对华出口。
虽然英伟达贴心地开发了专供中国的青春版 AI 训练芯片 A800,但是我们知道,制裁的威力从来不体现在制裁本身,而是在于那种刑不可知而威不可测的权力,美国政府可以选择性地让一些中国 AI 公司自由发展,也可以随时掐断任何一家中国 AI 公司的芯片,开发框架和云服务的供应,让它前期的投资全打水漂。
华为云为全中国 AI 公司提供了一种保障," 在外面遇到困难可以随时迁过来 ",昇腾 AI 云服务支持 Tensorflow,Pytorch 等主流 AI 框架。这些框架中的 90% 算子,都可以从 GPU 平滑迁移到昇腾 AI 云服务。比如美图仅用 30 天就将 70 个模型迁移到了昇腾。同时华为云和美图团队一起,进行了 30 多个算子的优化以及流程并行加速,较原有方案,它的 AI 推理性能提升了 30%。
大模型是一个必然深刻改变社会运转的全局变量,显然华为认为这种改变会从 AI 重塑千行百业开始,其中文娱产业必然是最先一批应用升级的产业之一,越 AI 越 FUN!
酷玩实验室整理编辑
首发于微信公众号:酷玩实验室(ID:coollabs)
越 AI 越 FUN!