AIGC的"知识污染":大型模型受到互联网上不良内容的影响

AI泛滥导致互联网污染:生成式AI对知识平台的造成负面影响

随着AI技术的迅猛发展,生成式人工智能在互联网上的应用也日益普及。然而,一种令人担忧的现象逐渐浮现,那就是AI正在污染整个互联网。

知乎这样的知识分享社区已经成为生成式AI滥用的重灾区。这些生成的答案通常简短、概括性强,但在仔细观察时却充满了逻辑混乱和错误。另外,在今日头条等平台上,使用AI生成的虚假新闻也层出不穷,其内容夸张耸人,足以吸引公众眼球。

在AI的助力下,虚假、无意义和同质化的内容呈指数级增长,并获得大量曝光。据莱斯大学和斯坦福大学的科学家研究发现,如果不对这些低质、同质化且未经证实的“AI语言”进行筛选和甄别,它们还可能被用作训练AI模型的语料库,这将进一步加剧AI大模型的崩溃风险。

另外,生成式AI的低成本化也催生了大量“垃圾网站”。据外媒NewsGuard发布的数据报告显示,目前已经追踪到了约277个并不断增加的“垃圾网站”。这些网站产生大量标题诱饵来优化广告收入。

国内同样存在类似情况,AI生成的低质内容也在一些平台上泛滥。知乎,作为一个“中文互联网高质量的问答社区和创作者聚集的原创内容平台”,如今却成为AI无脑答案的重灾区。很多回答明显呈现出机器翻译的特点,文字感觉迥异、逻辑混乱,并偶尔出现事实错误。尤其在金融、医学等专业领域,缺乏经验的用户更容易被误导。

这种AI机器生成的垃圾信息泛滥的现象给整个互联网带来了严重的负面影响,对知识传播和用户体验构成了威胁。因此,对于生成式AI技术的使用和管理,需要加强监管和规范,以保障互联网的健康发展。AIGC的有知乎用户运用人工智能技术,每隔一两分钟就能产生几百字的回答。尽管该用户已被禁言,但其生成的错误信息仍然存在于互联网中。如果你足够细心,你会发现,在中文世界中,带有AI问答功能的搜索引擎Bing经常引用知乎的内容。一些从未经过人工审核的错误回答就被Bing的AI抓取,并导致了低质量的中文信息大量传播。

人工智能对互联网内容的侵蚀不仅仅局限于文字。在小红书、淘宝和抖音等平台上,越来越多的"AI真人美女"的照片和视频被批量生成,还出现了大量"AI摄影"类账号。

只需一挥AI的魔法棒,制作成本低、效率高的"AI美女"立刻成为电商行业的热门。AI模特和AI主播频繁登场。她们十分吸引眼球,但也缺乏个性,使得"网红脸"队伍中又增加了一类AI面孔。

如果仅仅是利用人工智能生成图片供人评鉴和学习,或许还可以接受。但是,AI图像生成工具开始侵害与人们生活直接相关的领域。

在淘宝上,一些商家直接使用AI生成图来替代商品实物图。一张由Midjourney生成的卡通少女图,被商家贴上"绿色衬衫"的标签,并以218元的价格售卖。与之风格相似甚至完全相同的AI生成图,在网上随处可见。借助Midjourney的垫图功能,任何人都可以轻易生成大量类似图片,与卖家展示出的差别非常大,给买家带来了很多困扰。AIGC的

淘宝商家使用人工智能生成的图片(右侧)来描述商品.在中文互联网上,人们通过AI生成的内容来吸引流量已经成为一种趋势。然而,这也导致了许多低质量、同质化甚至虚假信息的产生,给网络环境带来了污染。

那么,这种AIGC内容“垃圾”是否会带来危害呢?

目前,使用AI识别真假内容的技术还不够成熟。大量的AIGC内容已经泛滥在互联网上,对于人类获取有效信息的效率产生了影响。同时,生成这些内容的AI工具也面临着崩溃的风险。

莱斯大学和斯坦福大学的科学家进行了相关研究,证明了使用人工智能生成的内容作为输入,会导致输出质量的下降。他们将这一现象称为“模型自噬障碍”(MAD),即当AI只学习其他AI生成的内容时,在经过几代训练后,AI将会输出无意义的垃圾信息,最终导致“模型崩溃”。研究人员表示,对于大型语言模型而言,保持数据的清洁十分重要。

研究者还指出:“未来将迎来生成式AI的爆发,这将导致合成数据在互联网上快速超过真实数据。”因此,区分合成数据和真实数据变得势在必行,无论对人类本身还是大型模型的发展都非常重要。

近期 ,中国首个AIGC监管文件《生成式人工智能服务管理暂行办法》已经出台,该法规明确指出AIGC服务提供者应加强训练数据的真实性、准确性、客观性和多样性。这一法规意在规范AIGC内容的产生与传播,以保证互联网环境的健康与良好。在中文互联网上,人们通过AI生成的内容来吸引流量已经成为一种趋势。然而,这也导致了许多低质量、同质化甚至虚假信息的产生,给网络环境带来了污染。AIGC的生成式人工智能服务者有责任确保数据质量

根据相关法规的指导,国内的内容平台已经推出了管理措施来应对AI生成内容,知乎、抖音、小红书等平台都发布了针对AIGC内容的规定。

《抖音关于人工智能生成内容的平台规范暨行业倡议》提到,对于由人工智能生成的视频、图片以及虚拟人直播等内容,发布者应该明确标识出人工智能生成的特点,帮助其他用户区分该内容与其他形式的内容,尤其是易混淆的场景。该倡议还提到,平台会提供统一的人工智能生成内容标识能力,帮助创作者进行标识,方便用户进行区分。同时,平台也提供用户反馈渠道,让用户可以方便地举报违规的生成内容。

知乎也发布了《关于应用AIGC能力进行辅助创作的社区公告》,公告指出,如果创作者发布了使用AIGC生成的内容却没有主动使用“包含AI辅助创作”标签进行声明,平台会添加相关标识并限制其流量。此外,知乎鼓励用户对利用AIGC技术扰乱社区秩序的内容和账号进行举报,在举报类型中新增了“AI生成内容”的选项。

虽然规则已经出台,但在实际操作中仍然存在Bug。AIGC的

有知乎用户反馈自己的原创内容被错误地标记为AI生成的。这些用户对平台进行了质疑,认为平台在打标签(审核)方面的能力存在问题。他们表示,自己的原创内容被错误地标记为AI生成,甚至有人因此被禁言。这种“误判”现象背后隐藏着一个令人担忧的问题。如果平台采用机器来识别AI生成的内容,机器对同类内容的“宽容度”可能会很高,导致机器无法准确识别出AI内容的错误。最近,某公司推出的AI文本识别工具AI-Text-Classifier因准确率太低而被官方下架。同时,Detect***、***Zero等AI生成检测工具的误报率也很高,这是令人惊讶的。

随着AIGC技术不断迭代升级,AI生成内容的迷惑性将越来越强。尝试通过AI识别工具来遏制AI内容垃圾的滋生,从技术成果上看成功率还不高。

可以看出,在充斥着人工智能的未来,实现良性发展和有效避免内容垃圾的滋生是一个重要的挑战。在AIGC技术的巨大冲击下,如何保持人工智能的力量和智能的强大并实现双赢,将成为AI发展的下一阶段的重要课题。

版权声明:AI导航网 发表于 2023-07-31 14:51:45。
转载请注明:AIGC的"知识污染":大型模型受到互联网上不良内容的影响 | AI导航网

暂无评论

暂无评论...