华尔街见闻按:
(资料图片仅供参考)
Character.ai 是当下 AI 热潮里最炙手可热的创企明星之一。公司主打产品为可定制的 AI 聊天机器人,面向 C 端消费者娱乐需求,具备情感陪伴与设定虚构人物的能力。Charater.AI 允许用户自行创建具有特定个性、人设和知识储备的聊天机器人,例如世界名人、历史人物、文学影视虚构人物乃至动物,为用户提供新奇、强带入感的聊天体验。
今年年初,Charater.ai 完成 1.5 亿美元 A 轮融资,估值突破 10 亿美元,晋升独角兽,团队仅有 22 人。
4 月份,Character.ai 首席执行官 Noam Shazeer、前谷歌大脑团队成员,接受了播客 No Priors 的采访。
核心观点:
1. 早在 2021 年,谷歌就已经有能力在 OpenAI 之前抢先推出 AI 聊天机器人,但却由于安全方面的顾虑而放弃,大公司畏首畏尾也成了他离开谷歌、选择创业的原因。
2. Character 最大的优势在于其用户导向的产品策略。完全可定制的 AI 聊天机器人成了许多人派遣孤独的方式,一些用户甚至表示,Character 是他们的新任心理咨询师。Noam 认为,AI 在情感支持方面有着巨大的潜力。情感支持工作不需要很高的智力,例如,宠物狗能很好地完成情感支持工作,虽然狗并不聪明,也不会说话,同理,一个参数有限的 AI 也能完成这项任务。
3. 数据要求往往会随着算力而指数级上升,但数据并不稀缺,互联网能提供几乎无限的数据,Character 也在考虑用 AI 生成更多的数据。
4. Character.ai 目前还处在烧钱换规模阶段,商业模式仍在探索中,未来团队规模扩大后考虑开拓 TOB 业务。
5. Noam 认为,AGI 是很多 AI 创企的目标。但他创业的真正原因是想推动技术发展,用技术攻克难题,如医学上的疑难杂症。他指出,AI 能加速许多研究的进程,与其直接研究医学,不如研究 AI。
以下为播客音频逐字稿,ELAD 与 SARAH 为节目主持人,为便于理解,部分段落有删改。
早年谷歌工作经历,与 transformer 的诞生
ELAD:
你在 NLP 和 AI 方面工作了很长时间。你在谷歌断断续续工作了 17 年,在谷歌的面试问题围绕着拼写检查解决方案。当我加入谷歌时,当时用于广告定位的主要系统之一菲尔集群,我想这是你和乔治 · 赫瑞克写的。我想了解一下你在人工智能 NLP 语言模型方面的工作历史,这一切是如何演变的,你是如何开始的,是什么激发了你的兴趣?
NOAM:
谢谢 ELAD。是的,只是,总是自然而然地被吸引到 AI 上。希望它能让电脑做一些聪明的事情。似乎是周围最有趣的游戏。我很幸运地在早期发现了谷歌,参与了很多那里的早期项目,也许你现在不会称之为人工智能。从 2012 年开始,我加入了谷歌大脑团队。和一群非常聪明的人,做一些有趣的事情。我以前从未做过深度学习或神经网络。
你是在 2017 年 transformer 论文的参与者之一,然后你参与了 Mesh-TensorFlow 的工作。你能谈一下所有这些是如何进行的吗?
深度学习之所以成功,是因为它真的很适合现代硬件,你有这一代的芯片,在矩阵乘法和其他形式的东西,需要大量的计算相对于通信。因此,基本上深度学习真的起飞了,它的运行速度比其他任何东西都快成千上万倍。一旦我掌握了这方面的知识,就开始设计那些真正聪明且运行速度快的东西。目前最令人兴奋的问题是语言建模。因为有无限量的数据,只要刮开网络,你就能得到所有你想要的训练数据。
问题的定义非常简单,就是预测下一个词,胖猫咪坐在上面,下一个是什么。它非常容易定义,如果你能把它做得很好,那么你就能得到你现在看到的一切,而且你可以直接和这个东西对话,它真的是人工智能了。因此,大约在 2015 年左右,我开始研究语言建模,并与循环神经网络打交道,这就是当时的伟大之处。然后 transformer 就出现了。
我无意中听到隔壁同事聊天,他们想用更好的东西来取代循环神经网络。我当时想,这听起来不错,我想帮忙,循环神经网络很烦人,这将会更有趣。
你能快速描述一下循环神经网络和基于 transformer 或基于注意力的模型之间的区别吗?
循环神经网络是连续的计算,每一个词你都会读到下一个词,你会根据你大脑的旧状态和下一个词的内容来计算你当前的大脑状态。然后你,你预测下一个词。因此,你有这个非常长的计算序列,必须按顺序执行,所以,transformer 的神奇之处在于,你可以一次处理整个序列。
对后面的词的预测取决于前面的词是什么,但它发生在一个恒定的步骤中,你可以利用这种并行性,你可以一次看完整个事情,就像现代硬件所擅长的并行性。
现在你可以利用序列的长度,你的并行性,一切都工作得非常好。注意力本身。这有点像你在创建这个大的内存键值关联,你就像在建立这个大的表格,在序列中的每个词都有一个条目。然后你就在这个表中寻找东西。这一切都像模糊的、微分的和一个大的、法国的函数,你可以通过它来进行反推。人们一直在使用这个方法来解决有两个序列的问题,在那里你有机器翻译,你就像把英语翻译成法语,所以当你产生法语序列时,你就像在看英语序列并试图注意该序列中的正确位置。但这里的洞察力是,你可以用同样的注意力来回顾你试图制作的这个序列的过去。美中不足的是,它在 GPU 和 GPU 上运行得很好,这与深度学习的发展是并行的,因为它在现有的硬件上很好。而这也给序列带来了同样的东西。
SARAH:
是的,我认为帮助人们想象它的经典例子是,用法语和英语说同一个句子,单词的排序是不同的,你不是在那个序列中一对一的映射,并且要弄清楚如何在没有信息损失的情况下用并行计算做这个。所以这就像一个非常优雅的事情。
似乎该技术也被应用于各种不同的领域。明显的是这些多模态的语言模型。所以它是像聊天 GPT 或你正在做的一个角色。我也对一些应用感到惊讶,比如阿尔法折叠,谷歌所做的蛋白质折叠工作,它实际上是以一种巨大的性能方式工作的。是否有任何应用领域,你发现相对于 transformer 的工作方式和相对于它们能做的事情来说,真的是意想不到的?
我只是在语言上低下了头,就像这里你有一个问题,可以做任何事情。我希望这个东西足够好。所以我就问它,你怎么治好癌症?然后它就像发明了一个解决方案。所以,我一直完全忽略了大家在所有这些其他模式下所做的事情,我认为很多深度学习的早期成功都是在图像方面,人们对图像都很兴奋,但却完全忽略了它。因为,一张图片胜过千言万语,但它有一百万个像素,所以文字的密度是它的一千倍。所以,我是一个大的文字粉丝。但是,看到它在所有这些其他方式中起飞,非常令人兴奋。这些东西是伟大的。它对建立人们想要使用的产品超级有用,但我认为很多核心的智能将来自这些文本模型。
大模型的局限性:算力不是问题,数据也不是
你认为这些模型的局限性在哪里?人们经常谈论的只是规模,就像你只是扔了更多的算力,这个东西将进一步扩展。有数据和不同类型的数据,可能有也可能没有。还有算法上的调整,还有添加新的东西,如内存或回环或类似的东西。你认为什么是人们仍然需要建立的大事情,你认为作为一个架构,它在哪里被挖掘出来?
是的,我不知道它是否会被淘汰。我的意思是,我们还没有看到它退出来。与进入它的工作量相比,可能不算什么。因此,很可能会有各种像两个低效率的因素,人们会通过更好的训练算法、更好的模型架构、更好的构建芯片和使用量化的方法以及像所有这些来获得。然后会有 10 个、100 个和 1000 个的因素,就像扩展和金钱一样,人们会扔到这个东西上,因为嘿,每个人都刚刚意识到这个东西是非常有价值的。同时,我认为没有人看到这东西有多好的一面墙。所以我认为它只是,它只是会继续变得更好。我没有,我不知道是什么阻止了它。
你怎么看这种想法,我们可以增加算力,但最大的模型训练数据不够。我们已经使用了互联网上所有容易获得的文本数据。我们必须去提高质量,我们必须去做人类反馈。你是怎么想的。
100 亿人,每个人产出一千或者一万个单词,就是天量级的数据。大家都会做很多与人工智能系统的对话。所以我,我有一种感觉,很多数据将进入一些人工智能系统,我的意思是以保护隐私的方式,我希望可以去的这些数据。然后,数据要求往往会随着算力而指数级上升,因为你要训练一个更大的模型,然后你要向它扔更多的数据。我并不担心缺少数据,我们也许可以用 AI 生成更多的数据。
然后你认为这些模型今后要解决的主要问题是什么?是幻觉,是记忆,还是别的什么?
我不知道。我有点喜欢幻觉。
这也是一个特点。
我们最想做的是记忆,因为我们的用户肯定希望他们的虚拟朋友能记住他们。你可以在个性化方面做很多事情,你想倾倒大量的数据并有效地使用它。在试图弄清什么是真实的,什么是幻觉方面,有大量的工作正在进行。当然,我认为我们会解决这个问题。
Character.ai 的创业故事
谈一谈 LaMDA 和你在其中的角色,你是怎么想到创办 Character 的?
我的联合创始人丹尼尔 · 弗雷塔斯,是我见过最勤奋、最努力、最聪明的人。他一生都在做这个建立聊天机器人的任务。从他还是个孩子的时候,他就一直在尝试建立聊天机器人。所以他加入了谷歌大脑。他读了一些论文,并认为这种神经语言模型技术是一些可以真正普及和建立真正开放领域的东西。
虽然他并没有得到很多人的支持,所以只把这个项目当成副业,在上面花 20% 的时间。
然后他就招募了一支由 20% 的助手组成的军队,他们帮助他建立系统。
他甚至到处去抢别人的 TPU 配额,他把他的项目称为米娜,因为他喜欢,我猜是在梦中想到的。在某个时候我看着记分牌,想这是什么东西叫米娜,为什么它有 30 个 TPU 积分?
LaMDA 是这样的,我知道它是谷歌在 GPT 之前就做出来的内部聊天机器人。这条新闻很有名,因为一位工程师认为它有智慧。
是的,我们把它放在一些大语言模型上,然后在公司内部轰动一时,米娜被重新命名为 LaMDA,那时候,我们已经离开了,有人相信它有生命。
后来为什么没有发布,有些什么担忧?
对大公司来说,推出一个知无不言的产品有点儿危险。我猜这只是一个风险的问题。所以,想来想去,创业似乎是个正确的想法。
Character 的起源故事是什么样的?
我们只是想打造一个东西,并且把它尽快推向市场。我组建了一个由工程师、研究人员组成的朋克团队,得到了一些算力,然后就开始创业了。
你是怎么做招聘的?
我们在谷歌认识的一些人碰巧被介绍给以前来自 Meta 的 Myat,他推出了很多,以及建立了很多他们的大型语言模型的东西和他们的神经语言模型基础设施,其他一些 Meta 的人跟着他,他们很不错。
你们在寻找人才时是否有具体的要求或测试方式?还是只是常规的面试方式?
NOAM
我觉得很大程度上是看动力的。我认为丹尼尔非常看重动力,他寻找的是一种介于强烈渴望和童年梦想之间的状态,所以有很多优秀的人我们没有聘用,因为他们没有达到那个程度,但我们也聘用了许多人,他们非常适合加入一家初创公司,他们非常有才华和动力。
市面上已经有了 Siri 和 Alexa,别在功能性上和大公司硬碰硬
说到童年的梦想,你想描述一下这个产品吗?你有这些机器人,它们可以是用户创建的,也可以是角色创建的,可以是公众人物,历史人物,虚构的人物,你怎么想到这个模式的?
用户往往比你更清楚,他们想用这个东西做什么。市面上已经有了 Siri 和 Alexa 和谷歌助手,不需要在功能性上和这些大公司竞争。
如果你试图呈现一个大家都喜欢的公众角色,最终产出的只有无聊。而人们不喜欢无聊,大家想与感觉像人的东西互动。
因此,基本上你需要去做多个角色,让人们随心所欲地发明角色,而且有点我喜欢 Character 这个名字,它有几个不同的含义:文字、性格、角色。
那么,人们想要什么?一个朋友?写小说?其他全新的事情吗?
有一些用户会在我们的产品上和虚拟公众人物、网红交谈。用户可以自己创造一个角色,然后和它交谈。有一些用户可能觉得孤独,需要和人倾诉,很多人都没有人可以倾诉。有些人会说,这个角色现在是我的新任心理咨询师。
思考情感的两种方式,对吗?比如人们与角色的关系,或者像我们在表达连贯的情感时处于什么水平,这有多重要?
是的,我的意思是可能你不需要那么高端的智力水平来做情感支持。情感是伟大的,也是超级重要的,但一只狗也可以把情感支持做得很好。狗能提供伟大的情感支持,但几乎没有语言能力,
你认为当你扩大规模时,系统会发生什么变化?
我认为我们应该能够以各种方式使它更聪明。获得更多的算力,训练一个更大的模型,并训练更长时间,应该变得更聪明,更有知识,更好地适应什么,人们想要什么,人们正在寻找什么。
你有一些用户每天都要使用 Character 很多小时。你的目标受众是哪些人?你期望的使用模式是什么。
我们要把这个问题留给用户来决定。我们的目标一直是,把东西拿出来,让用户决定他们认为它有什么用。
我们看到今天在 Character 网站上的人,平均活跃时长为两个小时。这是今天发送消息的人,这很疯狂但意义重大,它说明人们正在发现某种价值。
然后正如我所说的,真的很难准确地说这种价值是什么,因为它真的像一个大的混合的东西。但我们的目标是让这个东西对人们更有用,让人们定制它,决定他们想用它做什么。让我们把它拿到用户手中,看看会发生什么。
正在烧钱换规模 TOC 是第一优先事项
你是如何考虑商业化的?
我们会在每个用户身上赔钱,然后用数量来弥补。
好。这是很好的策略。
不,我是在开玩笑。
像传统的,1990 年代的商业模式,所以这很好。
这也是一种 2022 年的商业模式。
你应该发行一个代币,然后把它变成一个加密货币的东西。
我们很快就会在某个时间点实现货币化。这是一门受益于大量算力的生意。而不是燃烧投资者的钱,我们希望能给足够多的用户提供价值,顺便赚钱。后面可能会尝试一些类似高级订阅类型的服务。随着我们开发一些新功能,后面的收费可能会涨价。
我的意思是,Character 作为一项 TOC 服务,真的以一种非常引人注目的方式起飞了。如果你看一下用户的数量和每个用户的使用时间,这是很疯狂的。后面会不会走上 TOB 业务?比如客户服务机器人?
现在我们有 22 名员工,所以我们需要确定优先次序,我们正在招聘。第一优先事项是 TOC。
所以你说 LaMDA 当时没有立刻推出的一个关键原因是安全。你们是怎么想的?
还有其他原因。比如,谷歌不想让人们伤害自己或伤害其他人,还需要阻止色情内容。围绕这一点,已经有一些抗议了。
你认为这一切是通往 AGI 或超级智能的道路吗?对于一些公司来说,这似乎是目标的一部分,而对于一些公司来说,这似乎不是明确的目标。
是的,AGI 是很多 AI 创企的目标。真正的原因是我想推动技术发展。世界上有那么多的技术问题可以解决,比如医学上的疑难杂症。我们可以想出技术解决方案。
这就是为什么我一直在研究人工智能,因为与其直接研究医学,不如研究人工智能,然后人工智能可以被用来加速其他研究工作。所以基本上这就是为什么我在人工智能方面如此努力工作,我想创办一个既是 AGI 第一又是产品第一的公司。
你的产品完全取决于 AI 的质量。我们产品的质量的最大决定因素是这个东西会有多聪明。因此,现在我们就像有充分的动力,使人工智能更好,使产品更好。
是的,这是一种非常好的购买 - 反馈循环,因为就你的观点而言,当你使产品变得更好时,更多的人与它互动,这有助于使它成为更好的产品。所以这是一个非常聪明的方法。你认为我们离与人一样聪明或比人更聪明的人工智能还有多远?显然,它们在某些方面已经比人更聪明了,但我只是在想一些类似的东西。
我们总是对人工智能在哪些方面比人强感到惊讶。有些 AI 现在可以为你做家庭作业。我希望我小时候也有这种东西。
你会给那些和你有类似背景的人提供什么建议?比如你作为创始人学到的东西,有哪些是你在谷歌或其他地方工作时不一定学到的?
好问题。基本上,你会从可怕的错误中学习。虽然我不觉得我们有犯过非常非常糟糕的错误,或者至少我们已经弥补了。
你在寻找什么样的人才?
到目前为止?22 人中有 21 人是工程师。我们还会雇佣更多的工程师。无论是深度学习还是前端和后端,一定要在业务和产品方面雇用更多的人。
最后两到三个快速的问题,你最喜欢的数学家或计算机科学家是谁。
我在谷歌经常和 Jeff Dean(谷歌大脑负责人)一起工作。他真的很好,工作起来很有趣。我想他现在正在研究他们的大型语言模型。这是离开谷歌的一点遗憾,希望将来能和他合作。
你认为数学是发明的还是发现的?
我想也许是被发现的,也许所有的东西都被发现了,我们只是在发现。