背景
阿里达摩院近期对通义千问大模型 Qwen-14B进行了开源(之前开源的是Qwen-7B模型),目前在ModelScope和HuggingFace上均可直接下载。关于Qwen-7B的搭建可以参考我们之前的文章:数据缓存系列分享(四):开源大语言模型通义千问快速体验版,本文将使用一样的方式打开Qwen-14B,快速体验一下。
注:除了模型缓存创建稍有不同,其他流程都是完全相同,无需任何变化。
创建千问模型缓存
进入 Qwen-14B 主页,找到模型信息:
然后进入ECI数据缓存 控制台,选择URL类型的数据源,参数参考如下:
repoSource: ModelScope/Model
repoId: qwen/Qwen-14B-Chat
revision:v1.0.4
所有ModelScope、HuggingFace上标准模型缓存创建流程都是类似,只需找到对应的repoId即可。
关于数据缓存更多详情可以参考:https://help.aliyun.com/zh/eci/user-guide/data-caching-overview
部署千问webui
因为只需替换模型即可,所以应用部署跟7B完全一致,可以直接参考我们之前的文章,数据缓存系列分享(四):开源大语言模型通义千问快速体验版,包含k8s api、openApi、控制台等多种部署方式。如果已经熟悉基本流程,文章后续可以跳过。
本文将主要介绍控制台部署千问的方式,进入ECI售卖页
1、选择GPU规格
14B对显存要求更高,根据官方测评数据,40+GB显存会比较安全,我们直接用了60GB
2、选择千问的容器镜像
容器配置 -> 选择容器镜像 -> 常用镜像
如果是非杭州地域,直接填入镜像,效果是一样的。
registry.cn-hangzhou.aliyuncs.com/eci_open/qwen-webui
版本:1.0.0
3、挂载模型缓存进容器
使用前面刚创建好的模型缓存,挂载进容器的/data/model/目录
bucket: test
path: /model/test/qwen-14b
4、打开公网(如果通过公网地址访问webui)
至此,通义千问就已经部署完成,通过ip:8888就可以访问界面了:
忽略logo,因为我是直接用之前制作好的7B的容器镜像。
注:
1、确保安全组放开了8888端口,如果想换端口,覆盖容器的启动命令即可,比如:
python Qwen-7B/web_demo.py --server_port xxx
2、目前控制台还不支持打开缓存burst load方式,模型加载速度会略慢一些,耐心等待。
体验
总结
本文基于数据缓存系列分享(四):开源大语言模型通义千问快速体验版制作的webui镜像无需做任何修改,就可以直接替换成14B模型,也是我们一直在主推的应用与模型解耦的方式。
对于公共开源大模型,我们可以利用公共缓存的优势,实现一次缓存,全网加速,节省所有用户下载、打包、上传的时间,而且可以做到大规模秒级分发,应用启动时按需载入内存即可,尤其是弹性场景非常稳定、便捷。
附录
数据缓存系列分享(二):23秒完成从零开始搭建StableDiffusion