首页 » 生成式人工智能蓬勃发展,如何重新定义网络爬虫的道德规范

生成式人工智能蓬勃发展,如何重新定义网络爬虫的道德规范

  • 必须遵循当前的监管环境来获取公共网络数据生成式人工智能蓬勃发展。
  • 企业应遵循确保流程和收集数据的整体安全的原则。
  • 人工智能市场的增长引发了有关使用网络数据生成式人工智能蓬勃发展训练人工智能和创建人工智能产品的疑问。
公共网络数据用于各种目的,从有影响力的研究到创造和改进产品。

获取此类数据的最常见方法之一是通过网络抓取。由于它涉及收集企业或个人在线发布的大量数据,因此会引发诸如“这合乎道德吗?”之类的问题。简而言之,如果您遵循某些做法,答案是肯定的,但在一头扎进去之前,我们需要打好基础。

本文旨在阐明道德网络抓 谎言数据​​ 取的话题,并探讨围绕使用公共网络数据开发人工智能的激烈争论。在继续阅读之前,请注意,这是一篇信息性文章生成式人工智能蓬勃发展,并不构成法律建议。

为什么网络抓取很重要?

抓取是一种从网络上大规模收集数据的自动化方法。如今,互联网上大约有2.02 亿个活跃网站,每个网站都包含大量信息,以及对个人和企业有价值的各种数据,其规模难以用语言描述。网站可以是小型旅游博客、世界领先的在线市场,也可以是介于两者之间的任何东西。

所有这些网站都有一个共同点,那就是它们中的大多数都包含公开数据。以自动化方式收集这些数据符合当前的监管环境,但是,需要满 因此更有可能购买高价 足某些条件,企业需要谨慎小心地处理公开数据。

组织使用网络抓取或从专门从事网络抓取的数据提供商处购买服务。网络上的大量有价值的数据被用于各种目的,例如:

  • 市场调研
  • 投资见解
  • 人力资源技术
  • 搜索引擎
  • 价格聚合
  • 威胁情报

如果没有网络抓取,一些最常用的服务(例如一些流行的在线搜索工具)就不会存在。网络抓取在研究领域也有许多应用,例如环境研究

之前,我指出,获取公共网络数据必须遵循当前的监管环境以及确保流程和所收集数据整体安全的原则。然而,有时,由于法律和道德原则被忽视,或者行动的目的是恶意的,网络抓取会出现负面的情况。

现行网络抓取法规

让我们研究一下问题的法律方面,以帮助我们了解哪些网络抓取活动符合当前的监管标准。

网站的服务条款。在本文中,我将讨论从公开的在线资源中抓取专门的公共网络数据,这意味着任何人都可以访问这些数据,而 汤加营销 无需注册或登录网站。通常,位于登录安全区域后面的数据受网站条款和条件的约束。

版权。某些公共网络数据可能包含受版权保护的材料。使用此类数据时,您必须遵守适用的版权法。

隐私法。与受版权保护的材料类似,一些公共网络数据可能包含受隐私法保护的数据。世界各地的隐私法规不断发展,并因司法管辖区而异。

例如,美国大部分州的法规,如《加州消费者隐私法案》(CCPA),并不将公开信息归类为个人数据。然而,欧洲法规,如《通用数据保护条例》(GDPR),并不豁免公开数据。因此,在收集网络数据时必须考虑与GDPR相关的数据安全和隐私措施。

现在您已经熟悉了网络抓取的法律方面,我将提到最著名的法庭案件之一,该案件说明这些法律要求如何适用于网络抓取技术的实际使用。 

LinkedIn 与 hiQ Labs

2017 年,LinkedIn 向数据科学公司 hiQ Labs 发出了一封停止函,因为该公司抓取了 LinkedIn 的公开数据,并利用这些数据创建工具和见解。此案最终演变成一场长达 6 年的法律纠纷,如今已成为网络抓取行业的里程碑案件。

第一次法庭裁决有利于 hiQ Labs,但 LinkedIn 提起上诉,称 hiQ Labs 违反了《计算机欺诈和滥用法案》(CFAA)。不过,当时法院裁定,由于 hiQ Labs 从 LinkedIn 抓取的数据是公开的,因此该公司没有违反 CFAA 的条款。

随着法律纠纷的持续,案件的焦点转移到 hiQ Labs 使用虚假个人资料抓取 LinkedIn 数据。2022 年的第二项裁决指出,使用虚假个人资料抓取登录墙后面的网络数据违反了网站的条款和条件。最终,公司达成和解,hiQ Labs 同意停止抓取 LinkedIn。

然而,需要强调的是,第二项裁决并没有推翻之前关于 CFAA 和公共数据抓取的先例。相反,该判决决定了另一个法律问题,主要涉及用户协议和从 LinkedIn 收集数据时使用虚假账户的问题。

值得注意的是,通过创建虚假账户,hiQ Labs 在访问 LinkedIn 在线服务之前也接受了 LinkedIn 的用户协议,该协议禁止创建虚假身份。

因此,美国地方法院于 2022 年 10 月 27 日作出的命令裁定,LinkedIn 的用户协议禁止抓取和未经授权使用抓取的数据,并且 hiQ 通过 turkers 在 LinkedIn 平台上创建虚假身份违反了 LinkedIn 的用户协议。

您仍应注意,公共网络数据抓取领域在不断变化,并且应关注涉及网络数据公司的相关判例法发展。

我建议就与之相关的任何商业活动咨询法律专家。

滚动至顶部