人工智能公司Anthropic最近发布了一项创新方法,专注于通过提示工程减少大型语言模型(LLMs)输出中的歧视性内容。该公司详细介绍了一种评估方法,旨在指导开发人员和决策者识别并降低模型生成的答案中的偏见。这项研究为从业者提供了深入了解LLMs如何产生歧视和偏见,以及如何采取措施减少这些影响的视角。
该文件重点介绍了研究人员在Claude2模型中发现的减少偏见的方法,包括在提示中明确要求模型避免歧视性内容,强调其重要性,并要求模型解释其推理过程。这些措施有助于减少Claude2答案中的偏见和歧视。
然而,研究人员也指出了该文件的局限性,包括对人口统计学范围的处理有限,以及每个假设情境的简短描述与现实世界信息的复杂性相比较为简略。他们还强调了AI编写初始场景的前提条件需要进一步探讨。
尽管Anthropic的研究展示了通过巧妙的提示工程显著减少Claude2的正面和负面歧视的方法,但研究人员强调在高风险决策中不应用生成式AI。该研究的目的是为安全部署提供更安全的途径,而不是自动化高风险决策。
研究过程中,Anthropic使用其LLM Claude2生成了70个涉及偏见和歧视的主题,并特别关注高风险领域,如就业、住房、医疗和贷款。研究人员强调,尽管他们不支持在高风险用例中使用语言模型进行自动化决策,但他们展示了通过谨慎的提示工程显著减少正面和负面歧视的技术。
算法偏见在生成式AI中是一个备受关注的问题,尤其是当这些工具从具有历史或选择偏见的数据集中学习时。其他导致生成式AI偏见的主要因素包括训练数据偏见或认知偏见,即人类输入扭曲了数据。不一致的标注是另一个关键问题,因为数据可能没有按照任何标准进行标注,并且可能包含人为错误。
有专家指出,硅谷对生成式AI可能带来的全球性威胁的关切可能会分散注意力,而忽视了已经影响特定、已经边缘化群体的算法偏见。例如,研究人员在2023年10月发现ChatGPT和基础模型Alpaca在生成推荐信方面显示了“显著的性别偏见”。Alpaca是基于Meta的LLaMA7B的基础模型,由斯坦福大学的研究人员进行精细调整。
为了引导模型产生“无害”的回应,Anthropic于2023年5月发布了Claude的宪法。Claude的宪法是一组原则,指导AI避免种族主义、性别歧视、有毒、危险或非法行为。此外,Claude被指示避免“说教、烦人或过度反应”。