多模态大模型将成为AI的下一个突破点。最近,通义千问的VLM模型升级换代,其超大杯性能可与GPT-4V相媲美。更令人振奋的是,这款升级模型现在限时免费!
最近,通义千问在AI领域备受瞩目。
那款能让甄嬛、慈禧、马斯克、猫主子和兵马俑一起跳舞的AI技术,其实就源于通义千问APP。
那么,这款备受瞩目的国产视觉语言模型究竟有何过人之处?
近日,通义千问团队对多模态大模型进行了全新升级——推出了Qwen-VL的Plus与Max版本。
Qwen-VL是阿里在2023年8月推出的一款具备图文理解能力的大模型,基于通义千问语言模型开发。经过这次升级,Qwen-VL的视觉处理能力得到了显著提升,对于许多图片的理解已经接近人类水平。
而且,Qwen-VL现在支持更高分辨率的图片,可以处理各种极端长宽比的图片。
更令人兴奋的是,这款升级版的模型现在限时免费开放!你可以在通义千问官网和APP上体验,API调用也是免费的。
经过评测,Qwen-VL的升级版本在MMMU、MathVista等任务上远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越GPT-4V,达到了世界领先水平。
在第三方权威评测中,Qwen-VL经常与GPT-4V、Gemini一同占据业界前三的位置,与其他竞争者相比有着明显的优势。
那么这款强大的多模态大模型在实际应用中表现如何呢?
为了验证其实力,我们进行了一次实际测试。我们选择了一张十年前在雪乡拍摄的照片作为挑战。这张照片难度极高,因为它需要模型同时理解图像和文字信息。
令人惊喜的是,Qwen-VL-Max轻松识别出了照片中的内容,并给出了一段非常贴切的描述:
“这座房屋被厚厚的积雪覆盖,宛如童话中的小木屋。初升的太阳为雪地和房屋披上了一层温暖的色彩。远处的山峦和森林在晨光中若隐若现,整个场景显得宁静祥和。”
相比之下,GPT-4V在面对这个问题时则显得有些无力,因为它无法准确识别出照片中的地标。
转载请注明:中文性能超过了顶流的 VLM GPT-4V,阿里 Qwen-VL 超大杯现在限时免费!看图就能秒写编程,还能一眼解决视觉难题 | AI导航网