最新的加密货币新闻

专家:人工智能系统“应该有偏见”,但不是我们想象的那样

0 3

有一天,当我向 ChatGPT 询问一个关于西西里人的笑话时,它暗示西西里人很臭。

作为一个在西西里岛出生和长大的人,我对 ChatGPT 的笑话感到厌恶。 但与此同时,我的计算机科学家大脑开始围绕一个看似简单的问题旋转:是否应该允许 ChatGPT 和其他人工智能系统存在偏见?

图片来源:Emilio Ferrara,CC BY-ND

你可能会说“当然不是!” 这将是一个合理的回应。 但有些研究人员,比如我,持相反的观点:像 ChatGPT 这样的人工智能系统确实应该有偏见,但不是你想象的那样。

消除人工智能中的偏见是一个值得称赞的目标,但盲目消除偏见可能会产生意想不到的后果。 相反,可以控制人工智能的偏见以实现更高的目标:公平。

发现人工智能中的偏见

随着人工智能越来越多地融入日常技术,许多人都认为解决人工智能中的偏见是一个重要问题。 但“人工智能偏见”到底意味着什么?

计算机科学家表示,如果人工智能模型意外地产生了有偏差的结果,那么它就是有偏见的。 这些结果可能会对个人或群体表现出偏见,或者不符合公平和真理等积极的人类价值观。 即使与预期行为的微小偏差也可能产生“蝴蝶效应”,即看似微小的偏差可能会被生成人工智能放大,并产生深远的影响。

生成式人工智能系统中的偏差可能有多种来源。 有问题的培训数据可能会将某些职业与特定性别联系起来或使种族偏见长期存在。 学习算法本身可能存在偏差,然后会放大数据中现有的偏差。

但系统也可能因设计而存在偏差。 例如,一家公司可能会设计其生成式人工智能系统,优先考虑正式写作而不是创意写作,或者专门为政府行业服务,从而无意中强化了现有偏见并排除了不同观点。 其他社会因素,例如缺乏监管或财政激励措施失调,也可能导致人工智能偏见。

消除偏见的挑战

目前尚不清楚人工智能系统是否可以——甚至应该——完全消除偏见。

想象一下,你是一名人工智能工程师,你注意到你的模型产生了一种刻板的反应,比如西西里人“很臭”。 您可能认为解决方案是删除训练数据中的一些不良示例,例如关于西西里食物气味的笑话。 最近的研究已经确定了如何进行这种“人工智能神经外科手术”,以淡化某些概念之间的关联。

但这些善意的改变可能会产生不可预测的、甚至可能是负面的影响。 即使训练数据或人工智能模型配置中的微小变化也可能导致显着不同的系统结果,并且这些变化无法提前预测。 你不知道你的人工智能系统由于“忘却”你刚刚解决的偏见而学到了哪些其他关联。

其他减轻偏见的尝试也存在类似的风险。 经过训练可以完全避免某些敏感话题的人工智能系统可能会产生不完整或误导性的响应。 误导性的监管可能会恶化而不是改善人工智能偏见和安全问题。 不良行为者可能会逃避防护措施,引发恶意人工智能行为——使网络钓鱼诈骗更具说服力,或使用深度造假来操纵选举。

考虑到这些挑战,研究人员正在努力改进数据采样技术和算法公平性,特别是在某些敏感数据不可用的情况下。 OpenAI 等一些公司选择让人类工作人员对数据进行注释。

一方面,这些策略可以帮助模型更好地符合人类价值观。 然而,通过实施任何这些方法,开发人员也面临着引入新的文化、意识形态或政治偏见的风险。

控制偏见

在减少偏见和确保人工智能系统仍然有用和准确之间需要权衡。 包括我在内的一些研究人员认为,生成式人工智能系统应该允许存在偏见——但要以一种仔细控制的方式。

例如,我和我的合作者开发了一些技术,让用户指定人工智能系统应该容忍的偏见程度。 该模型可以通过考虑群体内或文化语言规范来检测书面文本中的毒性。 虽然传统方法可能会错误地将非裔美国人英语写的一些帖子或评论标记为冒犯性的,并将 LGBTQ+ 社区的帖子或评论标记为有毒的,但这种“可控”人工智能模型提供了更公平的分类。

可控且安全的生成式人工智能对于确保人工智能模型产生符合人类价值观的输出非常重要,同时仍然允许细微差别和灵活性。

走向公平

即使研究人员能够实现无偏见的生成人工智能,这也只是朝着更广泛的公平目标迈出的一步。 追求生成人工智能的公平性需要采取整体方法——不仅需要更好的数据处理、注释和去偏差算法,还需要开发人员、用户和受影响社区之间的人类协作。

随着人工智能技术的不断普及,重要的是要记住,消除偏见并不是一次性的解决办法。 相反,这是一个持续的过程,需要不断的监控、改进和适应。 尽管开发人员可能无法轻松预测或遏制蝴蝶效应,但他们可以在应对人工智能偏见的方法中继续保持警惕和深思熟虑。


本文根据知识共享许可从 The Conversation 重新发布。 阅读计算机科学和传播学教授 Emilio Ferrara 撰写的原始文章, 南加州大学

本网站使用 cookie 来改善您的体验。 我们假设您对此表示满意,但如果您愿意,您可以选择退出。 接受 阅读更多

隐私和 Cookie 政策