1. 引言
随着数据服务中发布的API的增加,调用API的应用的增加,数据服务平台的运维人员的压力越来越大,对于数据服务的稳定性和可运维性的要求越来越高,平台方也收到了来自于不同的人员的不同问题:
- 我在数据服务上创建了一个应用,但是写了代码调用一个API的时候虽然看到了错误码,但是不清楚是我的代码写错了,还是服务端就没有接收到这个请求,请问是不是怎么识别?
- 我是一个API开发人员,最近收到业务方的反馈,说这个API很慢,我想看一下到底是哪些应用调用或者是什么参数导致了API变慢
- 我负责数据服务的平台运维,我想看一下最近一段时间的API的稳定性,哪些API异常调用最多,影响的应用是哪些
面对这些问题,我们该如何回答呢?
在Dataphin V4.4中,我们升级了Dataphin数据服务的明细日志及运维统计日志,让您更好的回答这些问题。
2. 日志采集准备
在不同的部署环境中,Dataphin数据服务可支持采用不同的网关:
- 公共云共享模式:无需配置,平台集成了阿里云API网关
- 公共云独享模式(半托管)、公共云的独立部署:可选择阿里云API网关 或 Dataphin内置网关
- 私有云及其他云平台下独立部署:Dataphin内置网关
- 阿里云专有云:专有云API网关
Dataphin的调用的日志需要采集来自API网关及Dataphin数据服务应用的日志。以下步骤仅当使用API网关时需要操作;其他的网关,Dataphin系统已经集成,无需额外操作。
2.1 在API网关配置日志服务
API网关上需要开通日志采集,将日志推送到sls审计日志服务。可查看帮助文档:https://help.aliyun.com/zh/api-gateway/traditional-api-gateway/user-guide/use-log-service-to-manage-logs-of-api-calls#section-rrz-apj-5km
在配置过程中,请注意记录sls的服务接入点、Project和Logstore
2.2 网关日志采集到Dataphin中
进入Dataphin元仓租户(可联系Dataphin运维人员),进入 【管理中心 - 系统设置 - 数据服务设置 - 阿里云API网关】,在配置好API网关后,可开启网关日志采集
3. 日志存储设置
接下来就可以开启明细日志和统计日志的采集了。
可明细日志和统计日志的分别配置存储数据库(当前仅支持PostgreSQL)及存储时长,可分别对成功/失败日志、 1分钟/5分钟统计设置不同的存储时长,可选择内置存储(元数据库)及其他的PostgreSQL实例。建议使用独立的实例进行存储,已保证系统的稳定性。另外不同的环境支持保存的时长和数据量不同。
4. 查看明细日志
开通明细日志的存储后,就可以查看API的调用日志啦。可根据调用结果、响应耗时、所属数据服务项目、应用名称、API名称及ID、返回数据条数进行筛选,并可查看API调用的请求开始/结束时间、响应耗时、调用结果(成功/失败)、请求参数、返回结果条数、状态码、业务状态码、错误详情等信息。
5. 查看运维统计
还可以根据选择的时间区间内,进行汇总级的查看。可查看异常的调用次数、错误率等关键指标,并查看异常影响最大的应用,以及异常调用次数最多的API,还可进行访问趋势分析、应用调用分析、API运行分析。
6. 总结
通过配置和开通API运维统计及明细日志,能够更有效地监控和管理其数据服务API的运行状况。这不仅有助于快速识别和解决API调用中的问题,还能够为性能优化、错误排查提供强有力的支持。