在微服务架构盛行的当下,Kubernetes(K8s)凭借其强大的容器编排能力,成为了部署和管理应用的首选平台。而 Sentinel Dashboard 作为阿里巴巴开源的流量控制、熔断降级的可视化监控平台,为微服务的稳定运行提供了有力保障。Consul 服务网格则进一步增强了服务间的通信管理和安全性。然而,在将 Sentinel Dashboard 部署到 K8s 并集成 Consul 服务网格的过程中,遇到了一个棘手的问题:telnet 客户端能够正常连接,但通过 metric 接口却无法抓取数据。
问题背景
在我们的项目中,采用了 K8s 集群来部署各种微服务,同时引入了 Consul 服务网格来实现服务发现、流量管理和安全控制。Sentinel Dashboard 作为关键的监控组件,也被部署到了 K8s 集群中。我们期望通过 Sentinel Dashboard 的 metric 接口来获取微服务的流量指标数据,以便进行实时监控和分析。
问题表现
在完成 Sentinel Dashboard 的部署后,我们使用 telnet 命令测试与 Sentinel Dashboard 服务的连接,发现可以正常连接到指定的端口。然而,当尝试通过 metric 接口(如 http://<sentinel-dashboard-ip>:<port>/metric
)来抓取数据时,却始终无法获取到任何有效信息,请求返回空响应。
curl: (52) Empty reply from server
排查过程
网络连通性检查
起初,我怀疑是网络方面的问题导致无法获取 metric 数据。于是,我使用 telnet
命令再次确认客户端与 Sentinel Dashboard 服务之间的网络连通性。结果显示,能够成功连接到 Sentinel Dashboard 的指定端口,这表明网络层面基本正常。
telnet <sentinel-dashboard-ip> <port>
服务状态检查
接着,我检查了 Sentinel Dashboard 的 Pod 状态,确保其正常运行。使用 kubectl get pods
命令查看 Pod 的状态,发现所有 Pod 均处于 Running
状态,并且日志中没有明显的错误信息。
kubectl get pods -l app=sentinel-dashboard
kubectl logs <sentinel-dashboard-pod-name>
配置文件审查
既然网络和服务状态都没有问题,我开始审查 Sentinel Dashboard 的配置文件。在查看 K8s 的 Deployment 和 Service 配置时,没有发现明显的配置错误。但在检查 Consul 相关的注解配置时,我注意到了 consul.hashicorp.com/transparent-proxy-exclude-inbound-ports
和 consul.hashicorp.com/connect-service-port
这两个注解。
apiVersion: apps/v1
kind: Deployment
metadata:
name: sentinel-dashboard
annotations:
consul.hashicorp.com/transparent-proxy-exclude-inbound-ports: "9101"
consul.hashicorp.com/connect-service-port: "9101"
...
仔细观察后发现,这两个注解中只配置了 9101
端口,而没有配置 8719
端口。而 Sentinel Dashboard 的 metric 接口可能是通过 8719
端口提供服务的,这可能就是无法获取 metric 数据的原因。
原因分析
在 Consul 服务网格中,consul.hashicorp.com/transparent-proxy-exclude-inbound-ports
注解用于指定哪些入站端口不应被 Consul 透明代理所拦截,consul.hashicorp.com/connect-service-port
注解用于指定服务在 Consul 中注册时所使用的端口。由于没有配置 8719
端口,导致该端口的流量可能被 Consul 透明代理拦截或者未正确注册到 Consul 中,从而使得客户端无法通过该端口访问 metric 接口。
解决方案
为了解决这个问题,我对 Deployment 配置文件进行了修改,添加了 8719
端口的配置。
apiVersion: apps/v1
kind: Deployment
metadata:
name: sentinel-dashboard
annotations:
consul.hashicorp.com/transparent-proxy-exclude-inbound-ports: "9101,8719"
consul.hashicorp.com/connect-service-port: "9101,8719"
...
然后,使用 kubectl apply
命令更新 Deployment。
kubectl apply -f sentinel-dashboard-deployment.yaml
验证结果
在更新配置后,我再次尝试通过 metric 接口抓取数据。这次,成功获取到了微服务的流量指标数据,问题得到了解决。
总结
其实这次的问题很简单,只不过排查的过程有些忐忑,consul的这个配置在排查问题的过程中也多次注意到了,只不过一直没有往这方面想,最后偶然间才恍然大悟。
其实说到底还是基础功力不够扎实,没能第一时间想到这里,白白耽误了大半天的时间。