TOC
监控
可用监控:
- 硬件资源使用用。
- ClickHouse 服务器指标。
资源使用
ClickHouse本身并不监控硬件资源的状态。
强烈建议设置以下监控:
- 处理器负载和温度。
可用使用
dmesg
,turbostat
或者其他工具。
- 存储系统、内存、网络的使用。
ClickHouse服务器指标
ClickHouse服务器中内嵌了用于监控自身状态的工具。
使用服务器日志来追踪服务器事件。参考配置文件的日志章节。
ClickHouse采集:
- 服务器如何使用计算资源的不同指标。
- 查询处理的常用统计信息。
可以在system.metrics
,system.events
以及system.asynchronous_metrics
表中找到指标。
可以配置ClickHouse导出指标到Graphite。参考ClickHouse服务器配置文件中Graphite章节。在配置指标导出之前,应该遵循Graphite官方指引设置Graphite。
可以配置ClickHouse导出指标到Prometheus。参考ClickHouse服务器配置文件中Prometheus章节。在配置指标导出之前,应该遵循Prometheus官方指引设置Prometheus。
此外,可以通过HTTP API监控服务器可用性。发送HTTP GET请求到/ping
。如果服务器是可用的,会返回200 OK
响应。
在集群配置中监控服务器,应该设置max_replica_delay_for_distributed_queries
参数,然后使用HTTP资源/replicas_status
。请求发到/replicas_status
,如果副本是可用的并且其他副本间没有延迟,会返回200 OK
。如果副本存在延迟,会返回503 HTTP_SERVICE_UNAVAILABLE
和间隙的信息。
「如果这篇文章对你有用,请支持一下哦」
如果这篇文章对你有用,请支持一下哦
使用微信扫描二维码完成支付