机器之心原创
作者:吴昕
【资料图】
企业被放在了开往大模型时代列车的驾驶座上。
从 2 月份起,我们就被络绎不绝的大模型发布和各种 AI 新品轰炸。风暴眼当然是 ChatGPT。
除了极少数瞄准通用底层的野心,一众以 AIGC、NLP 技术为名的创业公司后台接入基础大模型底座,前端做 UI 设计,上架应用商店。
还有一些 AI 公司没有通用底层的抱负,但也不满足于 API 式创新,而是瞄准了中间层与应用层的战略价值。他们往往没有参数规模的执念,更关心行业落地的效率。
竹间智能就是其中一员。八年前,前微软(亚洲)互联网工程院副院长简仁贤坚定看好对话机器人在企业级市场的潜力,离开微软创业。最近,竹间智能也官宣了自己大模型产品矩阵「1+4」,希望解决大模型落地行业「最后一公里问题」。
「实际上大部分企业场景不需要 AGI(通用人工智能)来满足,在合理的成本下选择合适的模型才是企业客户需要思考的。」公司 CEO 简仁贤在接受机器之心专访时谈道。
这套「1+4」产品的逻辑关系,简明清晰。「1」指 EmotiBrain ,一个大模型微调训练平台,专注降低大模型训练的成本,提供从模型选择、微调训练、评测、部署到最后接入企业应用的一站式服务。
定制好的模型只是一台强大的发动机,没办法直接上路。为此,竹间智能又推出四款装配先进发动机的「车型」。
如果你体验过微软 Office Copilot ,超级助手 KKbot 的功能几乎与之无异。 Magic Writer 是大模型 AIGC 能力最典型的应用,除了文本生成,还可以文生图。 Emoti Coach 是由大语言模型和生成式 AI 驱动的「教练」,培训效果完胜被动式的 e-learning。
至于 Knowledge Factory 、Bot Factory+,顾名思义,肯定与批量生产有关。
背靠大模型, Bot Factory 能力升级,以更低成本、更高效率批量生产对话机器人。 Knowledge Factory 协助企业在私域数据必须「足不出户」的限制下,更好管理内部知识数据,也为稳定大模型的输出质量打好基础,让知识与模型形成闭环。
一、「中间层」的价值
企业要想享受到大模型的神奇能力,一般有三个办法。
像谷歌、Meta、OpenAI 一样从零开始、全量训练基础大模型。但巨额开发成本(动辄百万甚至千万美金)和顶尖人才(据说全球不过百人)稀缺注定这是一条「少有人走的路」。
第二个办法是在开源预训练模型上面做微调 ( Fine-Tuning ) 。 Vicuna、Alpaca 、Guanaco 羊驼系列预训练模型都是在最初的 LLaMA 上做了微调。目前,大部分国产大模型也是在 GPT、LLaMA 的框架上进行训练与微调,并在此基础上为客户定制行业模型。
「还有一个办法是在与训练好的模型上用 embedding 与 vectorization 做预检索给企业提供私有数据的大模型。」简仁贤说。
这个办法做起来很方便,但弊端也很明显。检索依赖检索的 indexing 及语义匹配效果来获得比较好的输出,如果 indexing 的检索、ranking、语义相似与理解的匹配能力不够,给到大模型的数据也会有误差,这些技术 NLP 厂商相对的做的更好。
在他看来,通过在预训练模型上微调获得定制化行业模型(也就是第二个办法)最适合中国国情,不过成本比只用 embedding 的方式高,技术与数据的门槛也比较高。
「生成式 AI 有一个很重要的特点,它是根据训练数据生成的,所以大模型在中国落地面临的最大挑战就是数据安全,模型安全。」简仁贤认为。
企业不可能把内部数据上传,比如产品设计、技术架构、核心代码、制造工艺、配方、客户隐私,会议纪要,战略文档,业务规划,商业逻辑等,一定要保留在内部,尤其是对于国央企、金融、能源、大型集团企业、先进制造等数据敏感性较高的行业而言。所以,「未来一定是企业拥有自己专属的、定制化、场景化的大模型。」
从成本上来看,在模型微调阶段,可以依据不同任务 ( Task ) 来微调训练大模型,训练数据的多少,模型参数大小以及能力涵盖的范围,如果能有高效的训练方式以及自动化的训练量产,可以达到规模化的低成本,绝大多数中型以上企业足以负担。
国金证券曾做过初步测算,由 8 块 A100 组成的 AI 服务器可为规模达 2,000 人的中大型企业提供 AI 服务,离线部署方案每年的推理算力成本约为 33.2 万元,若采用云计算方案则每年需花费约 66 万元算力成本。
不过,企业负担得起成本是一回事,工程技术上能不能靠自己搞定完全是另一码事。
中国 IT 应用开发的成熟度不像美国那么发达。很多企业有 IT 团队,规模也不小,但主要是在维护内部的业务系统,没有人懂得模型如何落地,外部合格的人才也缺乏。
也许你会说,直接卖给他们模型不就好了?但中国软件和算法领域环境,跟美国差别很大。中国企业会花 2000 万买很多服务器,但很难买一个软件。
「将模型当作一个商品(commodity)卖给企业,就像卖代码一样,不太现实。」简仁贤有过多年的中美从业经验,美国企业能用 SaaS 就用 SaaS,中国企业更喜欢 own (拥有)、control(把控)这个东西。「但如果你能给到一个 total solution ,企业更容易买单。」
这也是竹间智能过去一直坚持「授人以渔」的根本原因。借由他们提供的机器人「工厂」(BotFactory),银行、证券、保险、能源、制造、消费等行业七、八百家客户已经定制出无数个私有的行业模型、特殊任务模型,包括情感分析在内。
现在大语言模型可以做很多不需要再用代码做的事情。未来代码量会越来越少,模型数会越来越多,「模型就是代码」。简仁贤一直强调这一点。
而另一方面,海量场景又需要不断切换和更新、训练、运维模型,那么,中间层会变得很重。「管理数据,管理模型、训练模型、微调模型,评测模型,推理运维,让模型持续迭代就会成为一个非常重要的产业。」他认为。
「这就像盖房子并不难,但要盖一个豪宅还是平民住宅,那就不一样了。」
二、EmotiBrain 如何实现可定制?
有了 EmotiBrain 「金刚钻」,几乎可以解决企业揽下「瓷器活儿」过程中 70% 的问题。
企业只用勾选基础模型、训练数据和微调(Fine-Tuning )方法,然后交给平台自动训练。根据结果评测,选出最适合业务的模型,直接接入企业应用即可。
EmotiBrain 是一个企业定制化大模型的流水线平台,所有复杂微调流程都被封装在里面,内置多个参数高效微调技术 ( Parameter-Efficient Fine Tuning ) 与验证过的训练数据集,包括竹间积累七年的行业训练数据集,透过简单 UI 设计,有「basic understanding 」的人就能马上上手。
当然,「你至少要了解什么样数据合适,还有一些 Fine-Tuning 基本知识,但不需要知道很多细节。」简仁贤补充道。
EmotiBrain 由三个核心部分组成。一个是训练大模型的地方,Model Factory。工厂里,企业可以同时训练二十多个甚至上百个大模型,包括非常前沿的开源 LLM。比如,羊驼系列 ( LLaMA ) 。
「2019 年我们的模型做到了 3.4 亿的参数量,也已开发 Transformer 的模型」,据简仁贤透露,「现在已经训练出来、可用的有 70 亿、130 亿的参数规模,下一步是 330 亿参数与 650 亿参数的模型,650 亿参数的模型微调时间比较久一点,但新的高效方法如 QLoRA 提速了不少。」
模型选好后,就要选择训练数据集,比如指令数据集,法律领域数据集、中医西医领域数据集、医药的数据集、财经类数据集,汽车,电商,企业私有数据。
AI 大模型实现高性能,数据质量比数据体量更重要。因此,竹间智能将过去七年积累下的行业训练语料(包括中英文训练数据)做了优化,放到了平台。
选好训练数据集后,就来到最具挑战的环节——对预训练的模型展开微调。「现在大模型还有一个非常大的缺点,你要会写提示(prompt)才能把大模型用得好,这可不是任何人都能写得好的。」简仁贤说。
让大模型变得聪明起来的办法很多,无论是 Instruct learning、in context learning、Chain of Thought ( CoT ) ,门槛都比较高,模型工程师也要懂得很多技术细节。竹间智能将八年来 NLP 模型训练的 know-how,再加上大语言模型训练的 know-how,以及包括最前沿、最新微调技术在内的许多微调方法(比如 DeepSpeed、LoRA、QLoRA、P-Tuning 等),都做到了模型工厂里,变成帮助企业的工具。即使用户不用懂技术细节,也可以做微调。
用户还可以用 RLHF(Human Feedback Reinforcement Learning)的 Fine-Tuning 方式进行微调,等于赋予企业以「指令微调定制」的方式满足自己的个性化需求。
例如,选出某个模型,询问相关问题,看看输出结果怎么样,给它做标注。以少量标注的高质量模板数据,对模型的输出进行诱导与限制,让模型的输出更加符合企业业务的喜好,同时减少模型的有害输出。
简仁贤反复强调,EmotiBrain 可以帮你构建的,从来不是一个模型,而是同时训练多个模型。例如,当用户选择三个预训练模型进行微调时,又分别选择了三组测试数据、三种微调方法,最后会得到 27 个定制化模型。
如何从多个模型里面选出最合适的?这就离不开平台的第二个核心要件 Benchmark System。在这里,每个模型就像一个个被多维度评分系统加以评估的小朋友,每个人都有自己的一套得分:比如平均分数、推理分数、知识分数、对话分数、上下文,文本生成分数等。每个模型的长处、短板和综合实力,一目了然。
最后,用户可透过平台将选定的定制化模型部署到自己的服务器,或者跑在企业私有云,当然,也支持对接所有厂商的云计算平台。系统会自动产生 API,与既有的企业应用做结合,企业马上就能用起来。
EmotiBrain DEMO 视频
总之,Model factory、Benchmark System 加上 Chat Search,一个大模型驱动的语义搜索引擎,三大要素紧密联动,使 EmotiBrain 可敏捷应用于复杂及多变的场景中,并给予强大灵活的支持。
「EmotiBrain 可以在几天甚至几个小时内帮你选出最适合的大模型,通常需要一个模型工程师花好几个月才能做到,甚至因缺少人才或 know-how 都无法完成可用的模型,白白浪费的资源。」简仁贤说。
另外,EmotiBrain 还有一个非常好用的 GPU 资源调度功能,自动帮你调度云资源或本地 GPU 资源。这样,一般不懂 IT 业务的人员也可以用这个微调平台来训练自己的模型,「他只要需要知道数据从哪来的。」
三、如何可控?四步应对模型幻觉
可定制化实现后,还有一个问题。许多创始人对在他们的产品和工作流程中实施大模型持谨慎态度,因为这些模型有时就像小孩子——会编造事情,对幻想与现实没有牢固的把握。有媒体报道,美国律师使用 ChatGPT 提交法庭简报,结果引用的 6 个案例都是 ChatGPT 编造的虚假案例。
「产生幻觉,其实是生成式 AI 的一个特点。」简仁贤认为,创造力是知识生成的一个主要来源,如果百分百避免幻觉,模型也会失去创造力。不过,EmotiBrain 也有办法帮助企业更好控制模型的输出。
例如,在模型推理阶段,用户可以根据不同业务需求,调整「temperature」的数值,低温度可以生成更加专注、保守和一致的回答。这种方式在营销人员需要准确、精确的答案或者遵循特定格式或品牌指南的信息时非常有用。
中温度的话,能够在创造力和一致性之间取得平衡。这种设置非常适用于一般内容生成,因为需要准确性和创新的结合。高温度可以生成更具创意、多样化和出人意料的输出。营销人员可能会在头脑风暴创新的活动想法、制作引人入胜的社交媒体内容或寻求对某个主题的新鲜视角时更喜欢使用这种设置。
除此之外,模型可控能不能做到 100% 还取决于微调过程。
就企业私域问答部分来说,完全可以做到可控。企业可以花大量精力做好知识准备、知识清洗和审核。训练后,还可以用人类对齐(alignment )的方式控制输出质量。
比如,你可以给输出的答案做标注,告诉模型哪个是对的、哪个是错的,用基于人类反馈的强化学习的方法(RLHF)进行再训练,模型就知道对与错,自动减少胡言乱语的回答,但是 RLHF 要做得好,对使用数据与标准数量和质量就有要求。
值得一提的是, EmotiBrain 还提供审核机制——「用大模型去做 reflection ,把 reflection 放到大模型里」,让大模型拥有自我检视的能力。
「这个咖啡很难喝」,在讲出这句话之前,人们会先问自己这句话对吗?是不是符合商业规范或道德标准?有没有人身攻击?有没有牵扯到政治?
「所有这些环节,一个前面的大模型反思模型、加上基于人类反馈的强化学习、私域数据的掌控,还有 temperature 也可以调。我们都会提供工具和评测去帮助他们做好这些控制。」简仁贤总结道。
四、KKBot 的想象力
除了 EmotiBrain,安装了这台发动机四款「车型」中,最值得关注、也最具想象力的是 KKBot ,你可以将它视为国内版本的 Office Copilot,可以存在任何地方。
它可以是一个浏览器插件,根据你浏览网页的内容,答问题、做总结,任何 web application,KKBot 都是 Copilot。「Chrome 能用,我们现在准备适配 IE 浏览器。」简仁贤告诉我们。
它还会出现在常用企业软件里(例如网页版的办公软件、竹间智能的产品),根据你的 query 自动生成想要的总结、图片、统计表格、数据分析等。在他看来,「传统的 BI 可能会被大模型颠覆掉。」
它甚至可以在企业 DIY 大模型过程中,充当助手。如果企业将自己的私域数据放到 Knowledge Factory ,那么,KK bot 可以在 Knowledge Factory 的文档与知识库里,找出大模型生成的一些令人生疑的回答的来源。如果找不到某句回答出处,大概率是模型在乱讲。
KKBot DEMO 视频
最有意思的是在 KKBot 加持下,公司最畅销的 Bot Factory 脱胎换骨,升级到 Plus。
竹间智能早在 2017 年就推出了 Bot Factory,企业客户可以在这个工厂里做各种机器人——智能客服、对话机器人、问诊机器人、故障排除机器人、专家机器人等。有些企业甚至用 Bot Factory 在企业内部做了 1000 多个机器人。
现在,这些经过行业验证和打磨的产品又成为竹间智能部署在客户侧的「尖兵」,也是接入底层大模型能力的关键入口。如果可以帮助企业轻松定制自己的模型并嵌入到这些入口,无需带着新品教育市场,竹间智能就能将新的底层能力出售出去。
以前我们用小模型去训练可能需要花两天的时间。现在,机器人的问答跟知识全部由大模型生成,只要两个小时,运营成本降低了 90% 以上。简仁贤解释道。
KKBot 可以帮你生成知识,帮你对齐知识。比如,你给它输入《保险法》,输入完以后,它自动从《保险法》里抽出来所有的知识跟所有的问答,抽出来之后,自动训练 Bot Factory+ 的对话机器人,两个小时可以回答上千个问题,95% 以上准确率。
整个过程都是自动的,无需人为干预。跑完以后,再由人工测试。如果对输出结果满意,就能发布上线
Bot Factory+ DEMO 视频
KKBot 作为 Copilot,还有一个很大的优点。简仁贤强调说,「它不是一个模型的 Copilot,而是多个不同模型的 Copilot,可以跟所有模型去兼容,当企业不同部门或项目组有多个模型在运行时,KKBot 可以选择不同模型来回答,完全不受单一模型限制。」
比如,可以接竹间大模型魔力写作与 ChatLLM,华为盘古大模型的 API,海外用户可以去接 GPT-4 或 GPT3.5 Turbo 的 API,甚至包括企业自己训练出来放到 EmotiBrain 里的大模型。
「切换不同的大模型,展现出来的能力也不一样。」
五、「租」得起:99 万包年
竹间智能的目标是将人工智能平民化,让所有的企业都有自己的大模型,都能负担得起的大模型。「工厂(factory)」就是实现这一目标的技术手段。
现在,从「工厂(factory)租金」来看,根据所需 GPU 的数量不同,「1+4」PaaS 年订阅服务的费用也有两个档次。
如果仅需 1-8 个 GPU,一年订阅价格 99 万。超过 8 个 GPU,一年的套餐价格 149 万。具体情况,依据不同行业、不同企业部门要求不同。
例如,训练一个比较复杂的模型,假设 330 亿参数,用一块 GPU 可能需要 1-5 天。很多时候,在预算有限的情况下,99 万的套餐也就够用了。当然,如果预算比较富裕,企业也希望数小时就能训练好,8 个 GPU 可能不够用,可以升级到 149 万元的套餐。
「相比花 2000 万买个行业大模型,还冒着走弯路的风险,我们的产品用起来比较安心」,简仁贤认为,「你只用花 99 万,就可以定制出适合你的模型,而且没有限制模型数量,并可以立刻在现实应用中看到它的价值,也不受云计算厂商的限制,不用绑定任何云计算资源。」
这些工具都是免费升级,而且做出来的模型都属于客户,「我们不 own 这个模型,我们也不卖模型,我们只是把这个 PaaS 租给你用,让人去定制模型。」他补充说,「也就是说,我租给你的是一个模型工厂。」
其实,OpenAI 这样的公司只是给我们指明了一个方向。开源社区会根据这个方向做出更创新的东西,进而成为企业落地大模型的主流。简仁贤预测,未来 6-12 个月,开源社区也会出现更多新的前沿训练和微调技术,不断降低大模型对内存、GPU 依赖,降低微调和训练成本,不断提升训练速度。更新的模型框架也会出现,更多的具备通用能力的指令集也会问世,更多的不同语言的训练集也会在各国地区的努力下开源出来,全球范围内的大模型应用会更加广泛,进而加速 Generative AI 与 LLM 技术的快速迭代。
这个大模型就是每个企业应用的「脑」。未来,每隔一段时间,与「脑」有关的技术都会取得重要进展,比如更好的模型、训练方式、更高质量的数据。
这个时候,大模型的管理和迭代就显得更加重要。他说,有了工厂流水线,换「脑」就变得很容易。
THE END
投稿或寻求报道:content@jiqizhixin.com