阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频

快科技8月30日消息,阿里通义千问发布第二代视觉语言模型Qwen2-VL。其中,旗舰模型Qwen2-VL-72B的API已上线阿里云百炼平台。据了解,Qwen2

2023年8月,统一钱文开源的第一代视觉语言理解模型Qwen-VL成为开源社区最受欢迎的多模态模型之一。

短短一年内,该模型的下载量已超过1000 万次。目前,多模态模型在手机、汽车等各种视觉识别场景的落地正在加速,开发者和应用公司也格外关注Qwen-VL的升级迭代。

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频

与上一代机型相比,Qwen2-VL的基本性能得到了全面提升。它可以读取不同分辨率和长宽比的图像,并在MathVista、DocVQA、RealWorldQA、MTVQA等基准测试中取得了世界领先的性能。

此外,Qwen2-VL可以理解20分钟以上的长视频,支持基于视频的问答、对话和内容创作应用。同时,它具有强大的视觉智能能力,可以独立操作手机和机器人。凭借复杂的推理和决策能力,Qwen2-VL可以集成到手机、机器人等设备中,根据视觉环境和文本指令进行自动操作。

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频

该模型还可以理解图像和视频中的多语言文本,包括中文、英语、大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

统一钱文团队从大学综合题、数学能力、文档、表格、多语言文本和图像的理解、通用场景问答、视频理解、代理能力等六个方面评估了模型的能力。

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频

Qwen2-VL-72B在大部分指标上都达到了最优水平,甚至超越了GPT-4o、Claude3.5-Sonnet等闭源模型。在文档理解方面优势尤为明显。它只能与大学综合题相媲美。 GPT-4o 中有一个缺口。

用户可以通过阿里云百联平台调用Qwen2-VL-72B的API:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

用户评论

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
别在我面前犯贱

哇,这个模型太厉害了!能看懂长视频,我再也不用担心错过重要信息了。

    有19位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
优雅的叶子

阿里巴巴这步棋下得真漂亮,视觉理解模型太酷了,期待它能应用到更多场景。

    有11位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
浮光浅夏ζ

20分钟以上的长视频都能看懂,这模型得有多强大啊!阿里这技术真是让人佩服。

    有8位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
追忆思域。

听说这个模型能看懂长视频,那我们这些追剧党有福了,再也不用担心剧透啦!

    有9位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
仅有的余温

这个模型如果能应用到教育领域,那孩子们学习英语、语文是不是会更容易呢?

    有10位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
♂你那刺眼的温柔

20分钟以上的长视频?这模型得有多聪明啊,感觉未来的人工智能要变得更智能了。

    有19位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
(り。薆情海

阿里巴巴统一钱文发布这个模型,看来他们要引领视觉理解的新时代了。

    有19位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
←极§速

这个模型如果能应用到安防监控,那是不是能更好地保护人民的生命财产安全呢?

    有18位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
素衣青丝

20分钟以上的长视频,我之前都没法坚持看完,这个模型出来,我的观影体验要提升了!

    有18位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
轨迹!

阿里巴巴这技术太前沿了,感觉离科幻电影里的场景又近了一步。

    有14位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
相知相惜

钱文发布这个模型,阿里是不是要进军影视行业了?感觉未来影视作品会变得更智能。

    有20位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
呆萌

20分钟以上的长视频,能看懂真是太厉害了,这模型得有多聪明啊!

    有11位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
凝残月

这个模型能看懂长视频,那它对视频编辑和剪辑行业有没有什么影响呢?

    有8位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
小清晰的声音

阿里巴巴统一钱文发布这个模型,看来他们是要在人工智能领域大展拳脚了。

    有11位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
大王派我来巡山!

这个模型如果真的能看懂20分钟以上的长视频,那它对我们的生活会有哪些改变呢?

    有20位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
tina

20分钟以上的长视频,这个模型能看懂,那它对老年人观看视频有没有帮助呢?

    有19位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
心安i

阿里巴巴统一钱文发布这个模型,看来人工智能的发展真的不可估量。

    有14位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
愁杀

这个模型如果能应用到广告行业,那是不是能提高广告的投放效果呢?

    有19位网友表示赞同!

阿里巴巴统一钱文发布最强视觉理解模型!能看懂20分钟以上的长视频
酒笙倾凉

20分钟以上的长视频,这个模型能看懂,那它对视频创作者来说是个大福利啊!

    有19位网友表示赞同!

综合资源

等一下:奥斯卡获奖短片,只有20分钟,感觉20天过去了,很煎熬

2024-8-31 16:41:00

综合资源

张译梁静联袂主演20分钟剖析人类欲望的惊悚悬疑短片《盲钻》

2024-8-31 16:43:58

购物车
优惠劵
搜索