阿里云通义千问系列 AI 开源模型升至 Qwen2：五种尺寸，最高

2024-06-07

软件教程

来自：未知

　　6月7日消息，通义千问(Qwen)今日公布了一项重大升级，即Qwen系列模型已从Qwen1.5版本成功跃升至Qwen2版本，并在Hugging Face和ModelScope平台上同步开源。

　　据悉，Qwen2.0带来了诸多创新和改进。该版本推出了5种不同尺寸的预训练和指令微调模型，覆盖从0.5B到72B的广泛范围，以满足不同场景和需求。其次，在原有的中英文基础上，Qwen2.0新增了27种语言的高质量训练数据，进一步提升了模型的多语言处理能力。

　　据本站了解，Qwen2.0还在多个评测基准上展现出领先性能。其代码理解和数学计算能力得到了显著提升，这对于开发人员和科研工作者来说无疑是一个好消息。此外，Qwen2-72B模型更是支持高达128K tokens的上下文长度，为处理更复杂、更长的文本提供了可能。

　　在模型基础信息方面，Qwen2系列的所有模型都采用了GQA技术，这项技术能够带来推理加速和降低显存占用的优势。在之前的Qwen1.5系列中，仅有32B和110B的模型使用了这项技术，而现在在Qwen2.0中，所有尺寸的模型都得以应用。

　　在模型评测中，Qwen2-72B表现尤为出色。与当前最优的开源模型相比，Qwen2-72B在自然语言理解、知识、代码、数学以及多语言等多项能力上都实现了显著超越，包括Llama-3-70B和Qwen自身的前一版本Qwen1.5-110B。这一飞跃性的进步无疑将推动AI技术的更广泛应用和发展。