OpenAI的AI语音转写工具Whisper,尽管标榜接近“人类水平”,却遭遇严重幻觉问题——
工程师发现,在长达100多小时的转录中,约半数内容存在错误解读。
更令人震惊的是,美联社揭露,有医疗机构已采用基于Whisper的工具来转录医患对话,这一消息迅速在网络上引起轩然大波。
据报道,包括明尼苏达州曼卡托诊所和洛杉矶儿童医院在内的超过30000名临床医生和40个卫生系统,已开始使用法国AI诊疗公司Nabla基于Whisper打造的工具,并已完成了约700万次医疗就诊的转录。
这一消息引发了网友的广泛担忧。
值得注意的是,OpenAI此前已明确警告,该工具不宜在“高风险领域”使用。
针对此次曝光的问题,OpenAI发言人回应称,公司将在模型更新中纳入相关反馈机制以改进性能。
Whisper:OpenAI的开源语音识别系统遭遇挑战
Whisper是OpenAI于2022年9月推出的开源自动语音识别(ASR)系统,采用编码器-解码器Transformer架构,经过68万小时多语言和多任务监督网络数据的训练,能够进行多语言转录。
该系统发布后迅速获得广泛应用,GitHub上已收获70.2k个星标,并被集成在ChatGPT的某些版本中,同时成为Oracle和微软云计算平台的内置服务,为全球数千家公司提供支持。
然而,近期多位研究人员和工程师反映,在工作中频繁遇到Whisper产生的幻觉问题。
例如,密歇根大学的一位研究员在检查音频转录时,发现每10份中有8份存在幻觉;一位机器学习工程师指出,在他分析的超过100小时转录中,约半数内容出现错误;还有开发者表示,在他创建的26000份转录中,几乎每一份都发现了幻觉问题。
这种问题甚至出现在录制良好的短音频样本中,计算机科学家在审查的超过13000个清晰音频片段中发现了187个幻觉现象。
工程师和研究人员表示,他们从未见过其他AI驱动的转录工具像Whisper这样频繁地产生幻觉。
幻觉原因尚不清楚,但开发者指出,这些虚构内容往往发生在停顿、有背景声音或音乐播放时。
OpenAI曾提醒不要在决策情境中使用Whisper
尽管OpenAI此前已提醒不要在决策情境中使用Whisper,因其准确性上的缺陷可能导致结果出现明显偏差,但仍有医疗机构选择采用基于Whisper的工具。
Nabla公司表示,其针对医疗语言对模型进行了微调,用于转录和总结患者交流。然而,在得知Whisper可能存在幻觉问题后,Nabla表示正在解决此问题,但由于“数据安全原因”,其工具会删除原始音频,无法将生成的AI文本与原始录音进行比较。
此外,Whisper还被用于为聋人和听力障碍者创建字幕。此次幻觉问题曝光后,有人敦促OpenAI尽快解决此问题。
OpenAI研究员William Saunders表示,如果公司愿意优先考虑,这个问题似乎是可以解决的。他强调,如果过于自信于Whisper的功能并将其集成到其他系统中,将引发更多问题。
OpenAI发言人回应称,公司持续研究如何减少幻觉现象,并感谢研究人员的发现。同时表示,公司将在模型更新中融入相应反馈机制以改进性能。