谷歌刚刚宣布,它为网站发布者提供了一种方法,可以选择不将其数据用于训练该公司的人工智能模型,同时仍然可以通过谷歌搜索进行访问。这个名为Google-Extended的新工具允许网站继续被Googlebot等爬虫抓取并编制索引,同时避免随着时间的推移将其数据用于训练人工智能模型。
该公司表示,谷歌扩展将让出版商“管理他们的网站是否有助于改进Bard和VertexAI生成API”,并补充说网络出版商可以使用该开关来“控制对网站内容的访问”。谷歌在7月份证实,它正在利用从网络上抓取的公开数据来训练其人工智能聊天机器人Bard。
Google扩展可通过robots.获得,该文件也称为通知网络抓取工具是否可以访问某些网站的文本文件。谷歌指出,“随着人工智能应用的扩展”,它将继续探索“为网络出版商选择和控制的其他机器可读方法”,并且很快将有更多内容可供分享。
许多网站已经开始屏蔽OpenAI用于抓取数据和训练ChatGPT的网络爬虫,包括《纽约时报》、CNN、路透社和Medium。然而,人们一直担心如何屏蔽谷歌。毕竟,网站不能完全关闭谷歌的爬虫,否则它们不会在搜索中被索引。这导致一些网站(例如《纽约时报》)通过更新其服务条款来合法阻止谷歌,以禁止公司使用其内容来训练人工智能。