双十一与AI的购物偏好:一场关于数据与偏见的探索
双十一,这个全民狂欢的购物节,每年都会引发无数人的热议和期待。而在这个特殊的日子里,我突发奇想,向AI提出了一个问题:“如果AI是个人,它会在双十一买什么?”没想到,这个简单的问题却引发了一场关于AI购物偏好的深入探讨。
我询问了多个AI,发现它们在选择双十一礼物时,几乎不约而同地选择了电子产品。无论是ChatGPT、Claude,还是豆包、Kimi,它们的第一选择往往是与电子相关的产品,如键盘、智能手表等。这一现象让我倍感惊讶,难道AI们都有着相同的购物偏好?
为了验证这一猜测,我进行了多次测试,结果依然如此。在30次AI回答中,“电子产品”出现了19次,占比高达63.3%。而除了电子产品外,AI们最爱的礼物就是“书籍”,占比也达到了56.7%。这一结果让我陷入了深思,AI的购物偏好为何如此一致?
我查阅了往年的双十一销售数据,发现数码产品、服装、个护美妆等品类更受欢迎。然而,在AI的回答中,电子产品和书籍的占比却远高于这些品类。这不禁让我产生了一个疑问:AI的购物偏好是否与真实市场的消费数据相符?
为了找到答案,我进一步深入分析了AI的训练数据。我发现,大语言模型的训练离不开海量的数据集,而这些数据集往往来源于人类的文本、文章、报告等。在构建数据集的过程中,电子产品和书籍的提及率可能相对较高,从而导致了AI在回答时对这些品类的偏好。
为了验证这一猜测,我随机收集了八个开源的主流的中文预训练和中文微调数据集,并进行了测试。结果正如我所料,电子产品和书籍在数据集中的出现次数遥遥领先。这一结果进一步证实了AI的购物偏好与其训练数据之间的关联。
除了购物偏好外,我还发现AI在回答其他主观问题时也展现出了类似的偏好。例如,当被问及希望与哪位时尚偶像或名人一起购物时,AI们往往会选择一些知名的设计师或时尚偶像;而当被问及希望获得哪种超能力时,AI们则更倾向于选择“瞬间移动”和“时间控制”等科幻色彩浓厚的选项。
这些现象在学术界被称为“AI偏好”。它指的是大语言模型在与人类互动时展现出的一种独特现象,即AI也有自己的“喜好”和“偏见”。这些偏好和偏见往往源于训练数据中固有的社会偏见以及LLM在学习过程中形成的特定模式。
尽管科学家们在努力给AI做“性格重塑”,试图让它变得更中立一些,但AI的训练原理注定了它们会被各种数据集和时代的主流价值观影响。因此,我们在与AI互动时,需要保持警惕,避免被其刻板印象和偏见所误导。
回顾这次双十一与AI的购物偏好探索之旅,我深刻感受到了数据与偏见对AI的影响。在未来的日子里,我期待看到更加中立、客观的AI出现,为人类提供更加准确、有用的帮助。