前言
Istio Ingress Gateway作为服务网格的核心组件,对外提供服务统一的服务入口,gateway的能力对业务至关重要,但由于涉及到资源配置及费用开销等问题,ACK集群中默认安装istio的相关组件,不会做在资源层面做特定的配置,所以存在如下可能影响性能的点:
- 默认部署资源规格小
- 默认replica实例数少
- 默认入口service slb实例规格低
- 默认和其他业务pod混部
- 默认宿主机内核sysctl部分参数并未调整到最适合大流量场景
如果只是简单开发测试体验下istio的功能,无需为这些点做专门的调优;但是如果以生产为目标,为了使ingress gateway能够拥有更强的能力,我们需要根据我们的业务场景,有选择性的对每个点进行适当的调整。
调整资源规格
默认的istio ingress gateway deployment中pod的资源规格如下:
resources:
limits:
cpu: '2'
memory: 2G
requests:
cpu: 200m
memory: 256Mi
我们可以根据实际情况,将该资源的规格适当调大,gateway是计算敏感型业务,资源可适当多分配一些CPU资源
resources:
limits:
cpu: '4'
memory: 4G
requests:
cpu: '4'
memory: 4G
扩充实例个数
默认的istio ingress gateway deployment中replica的个数为1,默认有80% cpu阈值做hpa,建议上来2个replica起步,另外加上hpa使之具备一定弹性。如果考虑采用本文所述的独立部署,可不做hpa弹缩gateway。
spec:
replicas: 1
调优入口service slb实例规格
默认ingress gateway的service对应的slb规格是slb.s1.small,该规格实例的最大连接数为5000,每秒查询数为1000 QPS,建议可按照实际需求调整slb实例规格,具体slb实例规格可参考:
https://help.aliyun.com/document_detail/27695.html
注意:修改slb实例规格请不要在SLB控制台上手动修改,规格的变更请在service的yaml中以annotation方式进行修改,例如:
annotations:
service.beta.kubernetes.io/alibaba-cloud-loadbalancer-spec: slb.s3.small
独立部署
为避免ingress gateway和其他业务pod混部场景下出现南北向及东西向流量互相干扰的场景,可考虑将ingress gateway独立部署于某几台规格较高的节点上,使得gateway和业务pod之间只存在南北向的流量,在此处,我们建议独立部署于计算型ECS资源上(如前所述,gateway是计算型业务,cpu开销较大),步骤可参考如下:
-
在集群中扩容两新ECS节点,扩容时可同时给节点打上label及污点taint(添加已有节点,也请做同样的操作)
kubectl label node nodename app=istio-ingressgateway
kubectl taint node nodename istio=ingressgateway:NoExecute
-
给ingress gateway的deployment添加node selector及对应的容忍:
nodeSelector: app: istio-ingressgateway
tolerations: - effect: NoExecute key: istio operator: Equal value: ingressgateway
- 重启gateway的pod,使之能调度到专属的独立节点上去。
优化sysctl内核参数
为了使ingress gateway能有更强的处理高并发的能力,建议可在ingress gateway所在的节点上调整一下内核参数:
sysctl -w net.netfilter.nf_conntrack_max=2097152
sysctl -w net.ipv4.tcp_mem="786432 2097152 3145728"
sysctl -w net.ipv4.tcp_rmem="4096 4096 16777216"
sysctl -w net.ipv4.tcp_wmem="4096 4096 16777216"
sysctl -w net.ipv4.tcp_max_syn_backlog=65535
terway容器网络Pod独占ENI(可选)
如果我们选择的ACK集群容器网络为terway,且集群中的机型能够支持足够多的弹性网卡ENI,我们的业务也允许我们使用Terway容器网络下独占ENI的模式(每台机器支持ENI的个数有限,慎用独占模式,参考,https://help.aliyun.com/document_detail/25378.html ),那我们可以给ingress gateway及需要高性能的业务pod分配独占ENI以提高性能。
总结
经过以上几个点的调整后,可以有效提升istio ingress gateway的承载能力,为生产环境下可能出现的流量峰值提前做好准备,另外,为了应对峰值流量,gateway后端的服务也需要做相应的资源规划及hpa的配套,实测结果显示,端到端的优化配置可有效提升ingress gateway的可靠性及性能,推荐有istio生产需求的用户参照本文提升istio的承载能力。