Go RPC性能监控需串联pprof、trace、Prometheus与压测工具:pprof定位CPU/内存瓶颈,trace分析调度与GC影响,Prometheus实现指标告警闭环,压测验证优化效果,四者时间戳与标签需对齐。
Go 的 RPC 性能监控不是“配个指标就完事”,而是得把 pprof、trace、Prometheus 和压测工具串成一条链——缺哪一环,都可能让你在高负载时抓瞎。
:6060/debug/pprof/ 快速定位 CPU 和内存瓶颈这是最轻量、最直接的现场诊断入口。RPC 服务一旦变慢,第一反应不该是改代码,而是先看它在忙什么。
top 查看哪个函数吃掉了最多 CPU 时间(注意:要采样 30 秒以上才准,go tool pprof http://localhost:6060/debug/pprof/profile?seconds=30)heap 看是否有 goroutine 持有大量响应体没释放,或反复 json.Marshal 生成新字节流goroutine 如果数量持续 >1k 且不回落,大概率是连接没关、channel 没收、context 没 cancelrpc.(*Server).ServeConn 下游的序列化或锁竞争里runtime/trace 捕捉调度与 GC 对 RPC 延迟的真实影响pprof 告诉你“谁慢”,trace 告诉你“为什么慢”。尤其当平均延迟稳定但 P99 突然飙升时,trace 是唯一能还原时间线的工具。
handleRPC 或拦截器开头)启动 trace:trace.Start(f);不能只在 main 启动——那样会混入初始化噪音trace.NewTask),否则所有请求堆在一起,看不出单次耗时分布sync.Pool 缓冲结构体go tool trace trace.out 打开,按 w 键放大到某次请求,再按 l 键查看该 goroutine 生命周期grpc-prometheus + Prometheus 实现可告警的指标闭环光看实时数据不够,得让系统自己发现异常。错误率、P95 延迟、QPS 这三类指标必须能被 Prometheus 拉取并触发告警。
grpc.UnaryInterceptor(grpc_prometheus.UnaryServerInterceptor) 必须在自定义日志拦截器之后——否则日志里看不到真实耗时(Prometheus 拦截器会提前结束计时)/metrics 的 HTTP server 不能和 RPC 端口共用一个 net.Listener,否则健康检查失败会导致整个服务不可用;推荐独立端口如 :8080
rate(grpc_server_handled_total{code!="OK"}[5m]) / rate(grpc_server_handled_total[5m]) > 0.1 在低流量时段极易误报,应加条件 rate(grpc_server_handled_total[5m]) > 10 过滤噪声grpc_health_v1),并在 Prometheus 中配置 up == 0 告警——很多“性能问题”本质是服务已僵死,只是没被发现ghz 压测 + 实时 pprof 采样验证优化效果改完代码后不压测,等于没改。但压测方式不对,结果就全是假象。
ghz 直接打满——网络栈和客户端 CPU 会先瓶颈。至少用 2–3 台机器分布式压测,或用 k6 控制并发模型profile:curl -s "http://localhost:6060/debug/pprof/profile?seconds=30" > cpu-$(date +%s).pprof,最后对比前后火焰图grpc_server_handling_seconds_bucket 的直方图指标——如果 le="0.1"(100ms 内完成)占比从 95% 掉到 70%,说明小延迟请求开始排队,可能是锁或数据库连接池不足goroutines:如果数量随 QPS 线性上涨且不回收,基本确认是 context 泄漏或 defer 里忘了 cancel()
真正卡住人的从来不是“怎么加监控”,而是指标之间互不说话——trace 里看到 GC 停顿长,prometheus 却没报警,pprof 又没采到那一秒。把这三者的时间戳对齐、标签打通(比如都带上 service_name 和 deployment_version),才是监控落地的关键一步。