函数计算,有个问题 就是我之前设计的是排队机制 就一个模型实例 来多少请求排队执行 您现在的高并发是支持不用排队就能并发推理的是吧?
每个模型占用2-3G显存,项目刚上线,目前18个AI产品在运行,量不是很大,接下来在准备凑足100个,您给分析一下推荐哪款付费方式划算。
您可以先在函数计算上将模型推理服务POC跑一下,看看有没有问题,特别是首次推理的冷启动能否接受
如果冷启动满足业务要求:建议使用函数计算的按量模式,仅对请求阶段进行计费
如果冷启动不满足业务要求:建议使用函数计算的弹性预留模式,通过合理的设置弹性预留策略(按时伸缩、按并发度伸缩等),来进行降本。
具体可见:https://help.aliyun.com/zh/fc/use-cases/scenarios/?spm=a2c4g.11186623.0.0.515f6c9bPb8eF4
建议优先在函数计算上POC一下,实际跑一下看看。
此答案来自钉钉群“阿里函数计算官网客户”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。