备案控制台

开发者社区开发与运维文章正文

记录一次 CLOSE_WAIT 问题排查和梳理

2017-10-21 6597

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文记录了一次排查CLOSE_WAIT过多问题的经历和事后梳理学习的过程

环境描述

要说清楚事情，不介绍下背景和环境好像不行啊

背景

公司内部有一套RPC服务框架，java开发的，rpc协议用的redis
我所在的部门没java人手，但夸部门的数据交互又越来越多，一开始用http 接口性能不好，qps到2-3千的时候调用方经常发生各种curl 网络错误，导致拿不到数据，影响很不好
所以后来自己拿 php+swoole 实现RPC服务，延用公司的框架，协议和服务注册啥的都保持一致，就是具体业务用php来实现

数据流转示意图

moa_

绿色那块-中间椭圆的就是这次出问题的服务
我们可能会被PHP-FPM和其他RPC服务请求，也可能请求其他RPC服务和DB, 这样说应该清楚了吧

发现和排查解决

发现：收到zabbix发的报警 PROBLEM: system close_wait [9522>5300], 首次报警
脑子想了下，通常如果出问题都是调用方反馈，这次调用方没反馈应该没影响到具体业务，也没啥其它好确认的，直接上服务器看吧
ss -ant | grep CLOSE-WAIT 确认下果然是这样
close-wait 具体含义简单说下，看图
这是tcp的挥手图，当主动关闭的一方发出FIN包，被动方回复ACK后自己就进入CLOSE_WAIT状态，正常情况下，被动方稍后就应该发出FIN包，并确认收到ACK回复，然后连接就可以正常关闭了
很显然由于某些原因，我们的swoole程序（被动方)没能发出FIN包，这个为什么回头再分析，先把报警解决了
close_wait 是不会自动消失的，根据上面ss -ant 结果配合 lsof -i :{$port} 查到具体的服务，隔离-重启-恢复这个服务, 当然了ss -ant 的结果要保存下来，等下要分析具体谁跟我断了。。。

原因分析和调整

分析

ss -ant 的结果看了下，close_wait 的 Foreign Address 基本都是RPC(java), 很多都是常用服务，整个公司都在用，基本排除是对方的原因
这次有2台机器都出现了问题，但2台机器上引起close_wait的service进程是不一样的，但有个特征就是请求量很少

所以大胆推测对方主动断开的原因是这样的

因为 swoole 不忙，导致建立的socket连接超过了闲置时间,然后对方就觉得timeout了，然后主动断开了
还注意到close_wait 对方很多是按理不应该用到的rpc服务，我猜这个应该是php代码没写好有关系。看开头的背景也知道，用swoole搭服务时间还是很紧张的，业务逻辑基本都是直接用的http api那套代码，而swoole是常驻内存的，本来某些变量/连接在api那套里面随着请求结束就回收了，但是在swoole里不会

接着在分析下swoole为什么在被动关闭时为什么没发FIN

看了下官方的onClose说明，有说到onClose回调函数如果发生了致命错误，会导致连接泄漏。通过netstat命令会看到大量CLOSE_WAIT状态的TCP连接
我觉得基本就是onClose这里出了问题；我看了下php的error log，没发现fatal error；
我们4台机器，其中2台发生问题，而且是不同的服务。加上用关键字swoole close wait google 没有发现案例。基本排除是swoole的问题，还是我使用的姿势不对然后有几率导致发生这个问题
然后就没有然后了，这4个机器的服务也跑了一年多了，第一次发生这个情况，我又不懂系统原理和c，加上案发现场现在也关闭了

调整

这2个不活跃的服务配置的worker num 都是96个，其中一个是同事开发的，使用的默认配置（默认配置是有个配置文件，我弄的，我好像没讲过要调低），另一个一开始请求量多，后来业务下了，也忘了调低
整理了下，请求量低的服务 worker number 都调低

经验总结

系统原理 、 网络、 c语言 要尽量多学习，不然承担这种基础架构服务，万一出了底层问题，你就不太能搞的定了，都是只能治标，不能治本

文章标签：

PHP

Java

C语言

NoSQL

监控

网络协议

Redis

API

花家地赌王

目录

相关文章

cheems~

|

7月前

|

Kubernetes 测试技术 Go

sealos issue #2157 debug 思路流程记录

sealos issue #2157 debug 思路流程记录

cheems~

67 0 0

huc_逆天

|

存储 Java

2021年了，生产环境的问题你怎么解决呢？快学习下线程Dump分析（上）

2021年了，生产环境的问题你怎么解决呢？快学习下线程Dump分析

huc_逆天

395 0 0

2021年了，生产环境的问题你怎么解决呢？快学习下线程Dump分析（上）

萝卜丝丸子

|

4月前

|

消息中间件负载均衡调度

异步任务处理系统问题之自动重试是如何在Level 3的系统中实现的问题如何解决

异步任务处理系统问题之自动重试是如何在Level 3的系统中实现的问题如何解决

萝卜丝丸子

63 1 1

萝卜丝丸子

|

4月前

|

负载均衡算法网络协议

异步任务处理系统问题之Level 1的异步任务处理系统的问题如何解决

异步任务处理系统问题之Level 1的异步任务处理系统的问题如何解决

萝卜丝丸子

33 1 1

嘟嘟嘟嘟嘟嘟

|

5月前

|

SQL DataWorks 关系型数据库

DataWorks操作报错合集之执行读取任务时遇到报错：“ERROR: failed to acquire resources on one or more segments”，该怎么解决

DataWorks是阿里云提供的一站式大数据开发与治理平台，支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中，可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。

嘟嘟嘟嘟嘟嘟

262 2 2

真的很搞笑

|

6月前

|

消息中间件监控前端开发

函数计算操作报错合集之当遇到错误信息为Concurrent request count exceeded时，该如何解决

在使用函数计算服务（如阿里云函数计算）时，用户可能会遇到多种错误场景。以下是一些常见的操作报错及其可能的原因和解决方法，包括但不限于：1. 函数部署失败、2. 函数执行超时、3. 资源不足错误、4. 权限与访问错误、5. 依赖问题、6. 网络配置错误、7. 触发器配置错误、8. 日志与监控问题。

真的很搞笑

128 0 0

小白学大数据

|

7月前

|

数据采集 Java Python

深入分析爬虫中time.sleep和Request的并发影响

深入分析爬虫中time.sleep和Request的并发影响

小白学大数据

99 0 0

禹迹

|

弹性计算负载均衡监控

记一次socket read导致业务线程阻塞的案例分析

记一次socket read导致业务线程阻塞的案例分析

禹迹

462 3 4

我想问问天

|

网络协议应用服务中间件

服务器CLOSE_WAIT请求太多的问题

服务器CLOSE_WAIT请求太多的问题

我想问问天

628 0 0

游客scyturumm2baa

|

安全 Shell Linux

如何解决fork: retry: 资源暂时不可用

当出现/bin/sh: fork: retry: 资源暂时不可用这样的报错时，说明Linux的open file最大连接数已满。

游客scyturumm2baa

743 0 0

热门文章

最新文章

天猫精灵开放平台-之小百科测评

语义检索系统：基于Milvus 搭建召回系统抽取向量进行检索，加速索引

3D立方体图片切换动画

模态对话框和非模态对话框

Windows XP客户端加域操作手册上

微信 6.5.1 for iOS发布可以在朋友圈分享相册中的视频

Chapter 1: Creating the GUI Form and Adding Widgets

【Mockplus教程】帐号和购买

「Mac畅玩鸿蒙与硬件43」UI互动应用篇20 - 闪烁按钮效果

转载：【AI系统】AI的领域、场景与行业应用

记录一次holo视图与物化视图的区别

Selenium IDE：Web自动化测试的得力助手

活动实践 | 西游再现，函数计算一键部署 Flux 超写实文生图模型部署

【实践】体验RDS通用云盘核心能力

活动实践 | 告别资源瓶颈，函数计算驱动多媒体文件处理测评

产品测评 | ECS的健康保障新助手——云服务诊断

如何构建媲美通义千问在线接口的qwen-max智能体

R中单细胞RNA-seq分析教程 (5)

相关电子书

更多

面向失败设计

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云无影云电脑免费试用，最长可试用3个月