无视用户隐私，大量 AI 应用在共享你的数据

【资料图】

如今距离 OpenAI 第一次将 ChatGPT 带给大众用户已经过去了半年之久，但毕竟再好的东西都有 " 保质期 "，所以随着时间的推移，大众围绕 AI 大模型的狂热也逐渐褪去、其暗面也开始被大量讨论。且不提早已被摆在台面上的 AI 大模型生成内容可能存在版权风险，以及 AI 的伦理道德等过于虚无缥缈的话题，仅仅就其窃取用户隐私这个问题，就足以让外界对大模型提起十二万分的注意了。

近日，美国一家律师事务所向加州北区联邦法院提起集体诉讼，指控 OpenAI 和微软使用互联网抓取的信息来训练 ChatGPT 时，严重侵犯了大量用户的版权和隐私，要求后者赔偿 30 亿美元。在这份长达 157 页的诉状中，原告指责 OpenAI 尽管制定了购买和使用个人信息的协议，但包括账户信息、姓名、联系方式、支付信息、聊天记录等隐私数据都在未经许可的情况下，被 OpenAI 和微软收集、存储、共享和披露。

如果说这家律所指控 OpenAI 和微软更多的是在博眼球，那么网络安全公司 Home Security Heroes 公布的一份研究数据，则可能更具现实意义。在该公司对苹果 App Store 的研究中发现，有四分之三的 AI 相关应用与第三方共享用户数据。而在接受调查的 159 个应用中发现，64% 的应用会跟踪用户的个人数据，其中监控用户数据比例最大的一款 AI 应用是 Brainly（一款数学求解应用）。

除此之外，Google Assistant 与第三方共享了超过 35.71% 的用户数据，语言教育应用 Duolingo、图像生成应用 AI Arta 和 DaVinci，以及 AI 医疗应用 K Health 则分别与第三方共享了多达 28.57% 的用户数据。根据 Home Security Heroes 方面的说法，从整体来看，有 54% 的 AI 应用会跟踪用户数据。

毫无疑问，这样的一组数字是相当惊人的，毕竟 App Store 应该是目前对应用审核最为严格的应用商店，而苹果也是当下对用户隐私保护力度最强的消费电子企业。因此也可想而知，在 Android 生态中，AI 应用窃取用户数据的情况大概率只会更加严重。

事实上，与第三方分享用户数据自 Meta 的 " 剑桥门 " 以来，就是被整个行业非常忌讳的一件事，也很容易让用户联想到企业本身对于个人隐私持漠视态度，因此近年来也是各大应用商店严防死守的一点。

比如苹果在 App Store 的审核指南中就明确写到，" 从 App 中收集的数据不能与第三方共享，用于与提升用户体验、软件 / 硬件性能无关的功能，自助广告必需遵守《苹果开发者计划许可协议》"。既然向第三方分享用户数据是一个被苹果禁止的行为，那么为什么这一大批 AI 应用会选择糊弄苹果的审核人员，冒着被移出 App Store 的风险也要这样干呢？

其实这是因为 AI 应用对于数据有着几乎永无止境的渴求，它们像饕餮一般吞噬数据、以训练自家的模型。而 AI 的智能则是以数据为支撑的，机器学习 / 深度学习技术的底座就是大量数据，也就是著名 AI 科学家吴恩达教授倡导的 Data-centric AI，它是一种以数据为中心的人工智能理念，强调数据在人工智能开发和应用中的重要性。

传统搭建 AI 模型的方法主要是聚焦迭代模型，数据也相对固定，通常会聚焦于几个基准数据集，然后设计各式各样的模型去提高预测准确率。但这一模式的缺陷也非常突出，准确率高的模型只能确保 " 拟合 " 数据，并不一定意味着实际应用中会有很好的表现，如今也已经被边缘化，目前用更大规模和更高质量的数据来训练 AI，则成为了主流。

以 OpenAI 的 GPT 模型为例，从 GPT-1 到 ChatGPT、再到 GPT-4，所用的训练数据大体经历了以下变化，小数据规模数据——大规模数据——更大规模、更高质量的数据——大规模的人类标注的高质量数据。毕竟所谓语言模型的训练和学习，就是从大量的数据中学习复杂的上下文联系。而为了获得更多的数据，OpenAI 更是四处出击，例如它就以每年 200 万美元的价格获得了推特推文数据的访问权限。

如果没有持续的数据输入，ChatGPT 就不可能完成向 GPT-4 的 " 进化 "，而两者间的一个显著区别，就是 ChatGPT 的数据只截止到 2021 年、缺乏 2022 年及之后的数据。没错，随着 AI 大模型概念的走红，AI 相关企业如今已然成为了数据交易市场的大买家。

也正是因为这一事实，导致了现阶段数据本身的价格水涨船高，掌握数据源头的企业已经开始哄抬物价。以前段时间闹出不小风波的 Reddit 为例，其所给出第三方抓取 5000 万次内容需支付 12000 美元的价格，显然就已经很高。

出于对数据的渴求，以及数据本身的价格原因，AI 应用的开发者自然就有了强烈的从应用内收集用户数据、并分享给第三方的动力。对于当下的绝大多数 AI 应用而言，变卖数据或许是它们现阶段所能找到、最具可行性的挣钱方式。而且目前会去下载 AI 应用的用户，基本都是对 AI 感兴趣的人群，如何让这一部分用户的价值变得更大，显然开发者没有理由不动心。

事实上，肆意挖掘用户隐私现象的泛滥，对于尚且稚嫩的 AI 生态本身而言有着极大的伤害，因此有识之士也纷纷站出来疾呼。谷歌 DeepMind 的首席商务官 Colin Murdoch 就表示，督促 AI 开发者专注于构建一个 " 强大而负责任 " 的社群。只是想要遏制 AI 应用的开发者违规挖掘用户数据，还得应用商店加强审核才行。

【本文图片来自网络】