根据报道,“ Sinan”全面的定量模型在五个主要能力方面执行,包括知识,语言,理解,推理和考试。评估列表涉及150多种大型语言模型和多模式大型模型,在客观上和中立地为大型模型技术的创新提供了可靠的技术支持。到目前为止,包括Meta,Alibaba,Tencent,Baidu在内的30多家国内外公司以及科学研究机构已采用“ Sinan”来帮助进行技术研究和发展。
同一天,还宣布了年度大型模型评估清单,并在过去一年中对主流大型模型进行了全面的评估和诊断。分析结果表明,GPT-4 Turbo在所有评论中都取得了最佳性能,国内制造商最近发布的模型密切发布,包括Zhipu Qingyan GLM-4,Alibaba Qwen-Max和Baidu Wenxin Yiyan 4.0。

记者了解到,基于新升级的能力系统和工具链,“ Sinan”已在中文和英语中构建了一组高质量的双语评估基准,涵盖了多个方面,例如语言和理解,常识和逻辑推理,数学计算,数学计算和应用程序,多编程语言代码能力,质量代码能力,质量,代理,创建和对话。通过高质量和多层次的全面能力评估基准,“ Sinan”创新了许多能力评估方法,以实现对模型真正能力的全面诊断。
总体而言,大语言模型的总体功能仍然有很大的改进空间。复杂的与推理相关的功能仍然是大型模型面临的常见问题,而国内大型模型和GPT-4之间仍然存在差距。在中国情况下,最新的国内大型模型显示出独特的优势,在某些方面接近GPT-4涡轮增压水平。此外,开源模型已取得了迅速的进步,以较小的体积达到较高的性能水平,显示出更大的发展潜力。

用户评论
荒野情趣
哇,上海人工智能实验室的这个“Sinan”系统听起来很厉害啊!我一直对人工智能感兴趣,看看这个系统能不能让我学到更多。
有7位网友表示赞同!
铁树不曾开花
“Sinan”系统开源,这太好了!希望能有更多开发者参与进来,共同推动技术的发展。
有15位网友表示赞同!
白恍
大型技术哪家强?我觉得“Sinan”系统挺有潜力的,期待看到它带来的实际应用。
有11位网友表示赞同!
尘埃落定
这个“Sinan”系统是干什么的?我只知道开源和开放评估,能具体说说吗?
有14位网友表示赞同!
短发
听说“Sinan”系统是上海人工智能实验室发布的,那肯定不错,我准备去详细了解了解。
有17位网友表示赞同!
あ浅浅の嘚僾
开源系统确实好,不过开放评估系统能具体解决哪些问题呢?期待看到详细的介绍。
有5位网友表示赞同!
青衫故人
对于我这个门外汉来说,“Sinan”系统有点复杂,不过我会试着去研究的。
有9位网友表示赞同!
龙吟凤
看到“Sinan”系统,我有点激动,毕竟人工智能是未来的趋势,希望这个系统能推动行业发展。
有7位网友表示赞同!
念安я
大型技术之争,我觉得“Sinan”系统有优势,关键是看实际应用效果。
有16位网友表示赞同!
海盟山誓总是赊
这个“Sinan”系统发布,我猜会有很多开发者加入,看来我得赶紧提升自己的技能了。
有14位网友表示赞同!
病态的妖孽
上海人工智能实验室的这个项目,真是让人眼前一亮,期待看到更多相关的研究成果。
有9位网友表示赞同!
心安i
开源加开放评估,这让我对“Sinan”系统有了更高的期待,希望它能为行业带来革命性的改变。
有18位网友表示赞同!
全网暗恋者
“Sinan”系统,听起来就像是人工智能界的“三体”,期待看到它的表现。
有19位网友表示赞同!
┲﹊怅惘。
大型技术哪家强?我觉得“Sinan”系统有实力一较高下,希望它能成为行业标杆。
有5位网友表示赞同!
七级床震
这个“Sinan”系统,对于像我这样对人工智能感兴趣的人来说,是个不错的起点。
有17位网友表示赞同!
若他只爱我。
上海人工智能实验室发布“Sinan”,这说明我国在人工智能领域又有新进展了,为我国科研人员点赞!
有12位网友表示赞同!
∞◆暯小萱◆
“Sinan”系统,名字听起来很有意境,不知道它的性能如何,期待测试报告。
有9位网友表示赞同!
墨染天下
大型技术之争,“Sinan”系统能否成为黑马,让我们拭目以待吧!
有18位网友表示赞同!