Meta使用公开的Facebook、Instagram帖子来训练新的人工智能虚拟助手_财经

财经 2024-05-16 08:36

meta- q公司的最高政策主管在接受路透社采访时表示，meta- q使用Facebook和Instagram上的公开帖子来训练其新的meta AI虚拟助手的部分功能，但为了尊重消费者的隐私，它排除了只与家人和朋友分享的私人帖子。

meta全球事务总裁尼克•克莱格(Nick Clegg)本周在公司年度Connect会议间隙表示，meta也没有使用其即时通讯服务上的私人聊天记录作为模型的训练数据，并采取措施从用于训练的公共数据集中过滤私人细节。

克莱格说，“我们试图排除那些个人信息占绝大多数的数据集。”他还说，meta用于培训的“绝大多数”数据都是公开的。

他以linkedIn为例，该网站的内容元出于隐私考虑故意选择不使用。

克莱格发表上述言论之际，包括meta、OpenAI和Alphabet旗下的谷歌(Google)在内的科技公司因未经许可使用从互联网上抓取的信息来训练它们的人工智能模型而受到批评，这些模型会吸收大量数据，以总结信息并生成图像。

这些公司正在权衡如何处理在这一过程中被吸走的私人或受版权保护的材料，它们的人工智能系统可能会复制这些材料，同时面临作者指控它们侵犯版权的诉讼。

周三，在meta年度产品大会Connect上，首席执行官马克·扎克伯格发布了该公司首批面向消费者的人工智能工具，meta AI是其中最重要的产品。与以往专注于增强现实和虚拟现实的会议不同，今年的大会主要讨论的是人工智能。

meta表示，这款助手的定制模型是基于该公司7月份发布的强大的大型语言模型Llama 2，以及一款名为Emu的新模型，该模型可以根据文本提示生成图像。

该产品将能够生成文本、音频和图像，并将通过与微软必应搜索引擎的合作获得实时信息。

克莱格说，用于训练元人工智能的Facebook和Instagram公开帖子既包括文字，也包括照片。

meta的一位发言人告诉路透社，这些帖子是用来训练Emu的图像生成元素，而聊天功能是基于Llama 2的，并添加了一些公开可用的注释数据集。

发言人说，与元人工智能的互动也可能用于改进未来的功能。

克莱格说，meta对meta人工智能工具可以生成的内容施加了安全限制，比如禁止创建公众人物的逼真图像。

在受版权保护的材料方面，克莱格表示，他预计会有“相当数量的诉讼”，涉及“创造性内容是否受现有合理使用原则的保护”，该原则允许出于评论、研究和恶搞等目的，有限地使用受保护的作品。

“我们认为是这样，但我强烈怀疑这将在诉讼中发挥作用，”克莱格说。

一些拥有图像生成工具的公司有助于复制米老鼠等标志性人物，而其他公司则为这些材料付费，或者故意避免将它们包括在训练数据中。

例如，OpenAI今年夏天与内容提供商Shutterstock签署了一项为期六年的协议，将使用该公司的图像、视频和音乐库进行培训。

当被问及meta是否采取了任何此类措施来避免复制受版权保护的图像时，一位meta发言人指出，新的服务条款禁止用户生成侵犯隐私和知识产权的内容。

Meta使用公开的Facebook、Instagram帖子来训练新的人工智能虚拟助手