(资料图片仅供参考)
在马斯克的指挥下,X 公司(前推特)近期又整出了新的花活。他们在日前悄然更新了服务条款,其中显示未经其事先的书面许可,无论出于何种目的,哪怕是用于学术研究,任何第三方都不得在 X 上抓取数据来训练 AI 大模型。这也就意味着,X 已经对 AI 大模型关闭了大门。
事实上,马斯克几乎从未掩饰对于第三方 AI 大模型的恶意。早在今年 3 月,彼时还叫 Twitter 的 X 方面就修改了 API 接口的订阅价格,对于第三方访问的价格进行了大幅上调。紧接着到了 4 月,马斯克更是威胁要起诉微软,原因是他认为后者非法使用了 Twitter 的数据来训练 Bing Chat 的人工智能模型。当时间来到 7 月,马斯克指挥 X 方面用法律武器对四家实体提起了诉讼,指控它们从事数据抓取活动,导致其服务器资源严重紧张。就在 7 月初,马斯克还搞出了一个 " 神操作 ",宣布限制 X 用户每日可浏览的推文数量,其中已认证账户、未认证老账户、未认证新账户每日分别最多可浏览 10000 条、1000 条、500 条推文。并且在未注册的用户想要查看一条推文时,平台还会提示他们登录或是注册账户。
其实这一连串操作背后的原因很简单,因为如今数据几乎成为了互联网行业的 " 石油 ",也有着极高的价值。例如 ChatGPT 为什么会表现得比 Siri 等上一代人工智能产品更聪明、更接近人类呢?单纯就是因为 " 力大砖飞 ",而规模更大的语料库则是其中的关键。例如 GPT-3 就拥有的 1750 亿的参数量、45TB 的训练数据,GPT-4 的参数规模更是达到了惊人的 1.8 万亿。也就是说,GPT-4 的数据规模是 GPT-3 的 10 倍以上。那么训练 ChatGPT 的语料是哪里来的呢?抓取包括 Twitter 在内、一切互联网平台上用户的交互内容,这就是 OpenAI 方面一直在干的事情。所以某种意义上来说,ChatGPT 的军功章里除了有 OpenAI 的一半外,也有 Twitter 的一份。可现实是,OpenAI 在今年 4 月完成了一笔 103 亿美元的新一轮融资,估值达到 270 亿 -290 亿美元,反观 X 的估值在马斯克眼中,已经从收购时的 440 亿美元变成了 200 亿美元。
此消彼长之下,马斯克感到心里不平衡简直再正常不过。通过这一系列的措施,X 平台所蕴含的数据甚至还变得更有价值了,因为它更难以被获取。更为重要的问题是,如今已没有更多的高质量语料可供大模型进行训练了。此前 AI 研究团队 Epoch 在今年年初发表的论文中就表明,综合目前人类语言数据的增长率,AI 不出 5 年就会把人类所有的高质量语料用光。由于诸如论文、书籍、新闻、代码等高质量的语料毕竟有限,有统计数据显示,高质量语料数据的存量只剩下约 4.6 × 10^12 至 1.7 × 10^13 个单词,相比当前最大的文本数据集大了不到一个数量级。而 X 等互联网内容平台上的低质量语料却可谓是取之不尽用之不竭,所以他们也已经是 AI 厂商为数不多的选择了,就等于说现在已经是卖方市场。
虽然马斯克此前的打算是将 X 上的这些数据卖个好价钱,毕竟一个新的营收来源对于风雨飘摇中的 X 来说算得上是久旱逢甘霖。事实上,限制第三方 AI 公司抓取数据对 X 的流量其实没多少影响。比如同样是因为对 AI 公司抓取数据收 " 保护费 ",Reddit 被用户抵制,但最终用户的抗议活动并未对该网站的流量造成重大影响。并且在 Meta 的 Threads 诞生前,X 在海外社交平台中也具有不可替代性。既然如此,为什么 X 突然修改了服务条款、拒绝第三方抓取数据呢,毕竟这意味着他们将无法通过这一行为向后者收费。原因当然是因为 AI 的魅力太大,以至于马斯克要让 X 亲自下场来做 AI,而不是只只做 AI 大模型的数据供应商。就在不久前,X 公司突然修改了隐私政策,并新增了如下内容," 我们可能会使用收集到的信息和公开可用的信息,来帮助训练我们的机器学习或人工智能模型。"
此前在今年 7 月,马斯克还成立了一家号称利用 AI 了解宇宙真实本质的新公司 x.AI,并谷歌挖来了 Christian Szegedy、Jimmy Ba 等多位人工智能领域的科学家。彼时马斯克的说法,是 x.AI 的成立将与 OpenAI、谷歌等公司竞争,试图打造一个 " 好的通用人工智能(AGI)",以防止某个公司垄断 AI 领域。既然已经有了属于自己的 AI 公司,X 上的数据显然也就有了更有价值的去处,通过对数据的垄断来为 x.AI 的 AI 大模型或 AGI 提供差异化的竞争力,这并不难理解。所以不得不说马斯克的钞能力真的很好用,未来或许 OpenAI、微软、谷歌等公司就要头疼了。
【本文图片来自网络】