大公司日报 2024-05-02 19:07

data and people

人工智能的繁荣,包括大型语言模型(llm)及其相关聊天机器人的出现,给隐私带来了新的挑战。我们的个人信息是模型训练数据的一部分吗?我们的提示是否与执法部门共享?聊天机器人会连接我们在线生活中的各种线程,并将它们输出给任何人吗?

为了更好地理解这些威胁,并寻找潜在的解决方案,斯坦福大学以人为中心的人工智能研究所(Stanford HAI)的隐私和数据政策研究员詹妮弗·金(Jennifer King)和斯坦福大学以人为中心的人工智能研究所的政策研究经理卡罗琳·迈因哈特(Caroline Meinhardt)发表了一份白皮书,题为《重新思考人工智能时代的隐私:以数据为中心的世界的政策挑衅》。在这里,King描述了他们的主要发现。

当我们的数据被人工智能系统买卖和使用时,我们会面临什么样的风险?

首先,人工智能系统带来了许多与我们在过去几十年的互联网商业化和大多不受限制的数据收集中所面临的隐私风险相同的风险。不同之处在于规模:人工智能系统是如此的数据饥渴和不透明,以至于我们无法控制我们的哪些信息被收集,这些信息被用于什么目的,以及我们如何纠正或删除这些个人信息。今天,使用在线产品或服务的人基本上不可能逃脱生活中大多数方面的系统数字监控——人工智能可能会让事情变得更糟。

其次,其他人可能会将我们的数据和人工智能工具用于反社会目的。例如,用从互联网上抓取的数据进行训练的生成式人工智能工具可能会记住人们的个人信息,以及他们的家人和朋友的关系数据。这些数据有助于实现鱼叉式网络钓鱼,即故意以个人为目标进行身份盗窃或欺诈。坏人已经在使用人工智能语音克隆来冒充人,然后通过老式手机敲诈他们。

第三,我们看到我们为了一个目的分享或发布的简历或照片等数据被重新用于训练人工智能系统,通常是在我们不知情或不同意的情况下,有时还会直接涉及民权问题。

预测系统被用来帮助筛选候选人,并帮助雇主决定谁来面试空缺职位。然而,在某些情况下,用于帮助选择候选人的人工智能存在偏见。例如,亚马逊建立了自己的人工智能招聘筛选工具,结果却发现它对女性员工有偏见。

另一个例子涉及使用面部识别来识别和逮捕犯罪的人。人们很容易认为,“拥有面部识别这样的工具是件好事,因为它可以抓住坏人。”但是,由于用于训练现有面部识别算法的数据中固有的偏见,我们看到了许多黑人男性的错误逮捕。算法只是错误地识别了它们。

我们是否已经对公司拿走我们所有数据的想法麻木了,以至于现在做任何事情都为时已晚?

我是个乐观主义者。当然有很多关于我们所有人的数据被收集,但这并不意味着我们不能建立一个更强大的监管系,要求用户选择是否收集他们的数据,或者强迫公司在数据被滥用时删除数据。

目前,几乎任何你上网的地方,你在不同网站的活动都被跟踪。如果你在使用手机应用,并且手机上开启了GPS,你的位置数据就会被收集。这种默认是大约20年前行业说服联邦贸易委员会的结果,如果我们从选择退出转向选择加入数据收集,我们就永远不会有商业互联网。在这一点上,我认为我们已经建立了互联网的效用。我认为公司不需要这个借口来收集人们的数据。

在我看来,当我在网上浏览时,我的数据不应该被收集,除非或直到我做出一些肯定的选择,比如注册服务或创建一个账户。即便如此,我的数据也不应该被认为是公开的,除非我同意分享。

十年前,大多数人在网上购物时会想到数据隐私。他们想,“我不知道我是否关心这些公司是否知道我买什么,我在寻找什么,因为有时这很有帮助。”但现在我们已经看到公司转向这种无处不在的数据收集,以训练人工智能系统,这可能对整个社会产生重大影响,尤其是我们的公民权利。我觉得现在挽回还不晚。这些默认规则和做法并不是一成不变的。

作为数据隐私保护的一般方法,为什么通过数据最小化和目的限制法规还不够只收集有限目的所需的数据?

这些类型的规则是至关重要和必要的。它们在欧洲隐私法(GDPR)和加州同等隐私法(CPPA)中发挥着关键作用,也是联邦隐私法(ADPPA)的重要组成部分。但我担心监管机构最终实施这些规则的方式。

例如,监管机构如何评估一家公司为其想要使用这些信息的目的收集了太多信息?在某些情况下,很明显,一家公司收集了它不需要的数据,这完全是越权了。但是,当公司(比如亚马逊或谷歌)能够实事求是地说,他们做了很多不同的事情,这意味着他们可以证明收集大量数据是合理的,这是一个更困难的问题。这些规则并不是一个无法克服的问题,但它确实是一个问题。

您的白皮书确定了人工智能带来的数据隐私问题的几种可能解决方案。首先,你提议将数据共享从“选择退出”转变为“选择加入”,这可以通过软件实现更加无缝。这怎么可能呢?

我认为默认情况应该是,除非我们明确要求,否则我们的数据不会被收集。在这个方向上已经有了一些运动和技术解决方案。

其中之一是苹果于2021年推出的应用程序跟踪透明度(Apple ATT),以解决对第三方应用程序收集多少用户数据的担忧。现在,当iPhone用户下载一个新应用程序时,苹果的iOS系统会询问他们是否希望允许该应用程序在其他应用程序和网站上跟踪他们。市场营销行业报告估计,80%到90%的人在面临这个选择时都会说不。

另一种选择是让网络浏览器拥有内置的选择退出信号,比如全球隐私控制,它可以防止第三方放置cookie或出售个人数据,而无需勾选复选框。目前,《加州隐私保护法案》(California Privacy Protection Act, CPPA)规定浏览器可以包含此功能,但并不是强制性的。虽然有些浏览器(比如Firefox和Brave)有内置的输出信号,但大型浏览器公司(比如微软的Edge、苹果的Safari和谷歌的Chrome)没有。有趣的是,一位加州立法者最近提议对CPPA进行修改,要求所有浏览器制造商尊重第三方选择退出信号。这正是我们所需要的,这样数据就不会被每一个可能的参与者和你去的每一个地方收集。

您还建议采用供应链方法来保护数据隐私。你觉得这意味着什么?

当我谈到数据供应链时,我指的是人工智能系统在数据输入端和数据输出端提出问题的方式。在输入方面,我指的是训练数据部分,这是我们担心个人的个人信息是否从互联网上被抓取并包含在系统的训练数据中。反过来,我们个人信息在训练集中的存在可能会对输出端产生影响。例如,生成式AI系统可能会记住我的个人身份信息并将其作为输出。或者,生成式人工智能系统可以根据多个数据点的推断来揭示关于我的一些信息,这些数据点与训练数据集中的任何个人身份信息无关。

目前,我们依靠人工智能公司从他们的训练数据中删除个人信息,或者设置护栏,防止个人信息出现在输出端。这真的是一个不可接受的情况,因为我们依赖于他们选择做正确的事情。

监管人工智能需要特别关注数据的整个供应链——不仅是为了保护我们的隐私,也是为了避免偏见和改进人工智能模型。不幸的是,我们在美关于监管人工智能的一些讨论根本没有涉及到数据。我们一直专注于围绕公司算法系统目的的透明度要求。即使是已经将GDPR作为隐私基准的欧洲人工智能法案,也没有全面审视人工智能的数据生态系统。它只在高风险人工智能系统的背景下被提及。所以,这是一个有很多工作要做的领域,如果我们要意识到我们的个人信息不被纳入人工智能系统,包括非常大的系统,如基础模型。

你在报告中指出,对个人隐私权的关注太过有限,我们需要采取行动内部集体解决方案。你是什么意思?

如果我们想让人们在一个大量数据正在生成和收集的环境中对他们的数据有更多的控制权,我很清楚,在个人权利上加倍是不够的。

在加州,我们有数据隐私法,我们大多数人甚至不知道我们拥有什么权利,更不用说花时间去弄清楚如何行使这些权利了。如果我们真的想要行使这些权利,我们就必须向我们接触过的每一家公司提出要求,要求他们不要出售我们的个人信息——考虑到这些“不出售”的选择不是永久性的,我们必须每两年提出一次要求。

这一切都表明需要一个集体的解决方案,这样公众就有足够的杠杆来大规模地谈判他们的数据权利。对我来说,数据中介的概念是最有意义的。它包括将你的数据权利的谈判权力委托给一个为你工作的集体,这给了消费者更多的杠杆。

我们已经看到数据中介在一些企业对企业的环境中形成,它们可以采取各种形式,例如数据管家、信任、合作、协作或公共。在消费者领域实现这些将更具挑战性,但我并不认为这是不可能的。

更多信息:重新思考人工智能时代的隐私:数据中心世界的政策挑衅。引文:人工智能时代的隐私:我们如何保护我们的个人信息?(2024年3月20日)检索自https://techxplore.com/news/2024-03-privacy-ai-era-personal.html本文受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。