在这个教程中,我们会一步步地教您使用 OpenResty XRay 来识别普罗米修斯(Prometheus)应用中最耗 CPU 的 Go(golang)代码路径。这些代码路径消耗最多的 CPU 时间,严重影响普罗米修斯应用的性能。

问题:高 CPU 使用率

首先运行 top 命令检查 CPU 使用情况。

Screenshot

可以看到,这个 Prometheus 进程消耗了超过 160% 的 CPU 核心资源。

Screenshot

运行 ps 命令来查看这个进程的完整命令行。

Screenshot

可以看到这是一个 Linux 发行版自带的标准 Prometheus 二进制可执行文件。

Screenshot

使用 OpenResty XRay 的引导式分析功能定位 CPU 最热的 Go 代码路径

让我们使用 OpenResty XRay 来检查这个未经修改的进程。您可以对它进行实时分析,并找出原因。

在浏览器中打开 OpenResty XRay 的 Web 控制台。

Screenshot

确保当前分析的机器是正确的。

Screenshot

如果不对,我们可以在下面的列表重新选择。

Screenshot

进入 “Guided Analysis” 页面。

Screenshot

这里可以看到系统能分析的不同类型的问题。

Screenshot

选择 “High CPU usage”.

Screenshot

点击 “Next”。

Screenshot

选择之前的那个 Go 应用。

Screenshot

选择消耗 125% CPU 资源的进程。也就是我们之前在 top 中看到的。

Screenshot

确保应用的类型是正确的。

Screenshot

通常默认值就是对的。

这里的语言级别就只有 “Go” 了。

Screenshot

我们还可以设置最长的采样时间。这里保持默认的 300 秒不变。

Screenshot

开始分析。

Screenshot

系统将持续执行多轮分析。目前它正在运行第一轮分析。

Screenshot

前两轮分析已经完成,现在进入第三轮分析。对这个例子来说,运行两轮分析就够了。

Screenshot

停止分析。

Screenshot

这里显示系统正在为本次分析生成报告。

Screenshot

可以看到自动生成了一份分析报告。

Screenshot

这是我们要分析的问题类型,“CPU”。

Screenshot

可以看到,Go 垃圾回收消耗了超过 99% 的 CPU 时间。

Screenshot

例如,这条在执行垃圾回收的 Go 代码路径占用了超过 21% 的 CPU 时间。

Screenshot

scanobject 是 Go 语言的一个运行时函数,它负责垃圾回收的工作。它会在堆内存中寻找 GC 对象,并把它们能够访问到的对象都标记出来。

Screenshot

gcDrain 函数的作用是把工作队列中的 GC 对象都标记并清除掉。

Screenshot

快速分配众多的 GC 对象会导致 GC 开销很高。所以,报告给出了那些分配对象最多最快的 Go 代码路径。

Screenshot

看一下这条 Go 代码路径,它分配了最多的 GC 对象。

Screenshot

函数 loadWAL 是从 Prometheus 的预写日志中加载数据。

Screenshot

函数 Series 函数从缓冲区中解码出时序数据,并将其添加到指定的切片中。

Screenshot

函数 slicebytetostring 将字节切片转换为字符串。

Screenshot

点击 “More” 查看更多细节。

Screenshot

这条代码路径是从这个 Go GC 对象分配火焰图中自动推导出来的。

Screenshot

下面是对当前问题更详细的解释和建议。

Screenshot

它提到了函数 loadWAL.

Screenshot

这个函数从预写日志中加载数据。

Screenshot

它也提到了函数 Series

Screenshot

和函数 slicebytetostring

Screenshot

让我们回到刚才的代码路径上来。把鼠标放在函数 loadWAL 的绿色框上。

Screenshot

可以看到这个函数的源文件名。在提示框中还可以看到文件的完整路径。

Screenshot

源代码行号是 141。

Screenshot

点击这个图标,复制这个函数完整的 Go 源文件路径。

Screenshot

使用 vim 编辑器打开源文件,查看这个文件里的 golang 代码。

Screenshot

正如 OpenResty XRay 建议的那样跳转到第 141 行。

Screenshot

函数 dec.Series 是从一个记录中解码一组时间序列。

Screenshot

在状态栏中可以看到这行代码也确实在 loadWAL 函数中,正如之前报告中提到的。

Screenshot

Prometheus 的 TSDB 创建内存序列用来管理最新的数据。这条代码路径新分配的 GC 对象数目超过了新分配总数的 19%。

Screenshot

这里可以看到,动态分配新 GC 对象的操作占用了将近 11% 的 CPU 时间。这不仅增加了垃圾回收器的负担,本身也消耗大量的 CPU 资源。

Screenshot

全自动分析与报告

OpenResty XRay 也可以自动监控在线进程,并生成分析报告。

进入 “Insights” 页面。

Screenshot

您可以在 “Insights” 页面中找到以日和周为周期的报告。

Screenshot

所以您不是非得用 “Guided Analysis” 功能。当然,“Guided Analysis” 对于应用的开发和演示是很有用的。

Screenshot

如果您喜欢这个教程,请订阅这个博客网站和我们的 YouTube 频道B 站频道。谢谢!

关于 OpenResty XRay

OpenResty XRay 是一个动态追踪产品,它可以自动分析运行中的应用程序,以解决性能问题、行为问题和安全漏洞,并提供可行的建议。在底层实现上,OpenResty XRay 由我们的 Y 语言驱动,可以在不同环境下支持多种不同的运行时,如 Stap+、eBPF+、GDB 和 ODB。

关于作者

章亦春是开源 OpenResty® 项目创始人兼 OpenResty Inc. 公司 CEO 和创始人。

章亦春(Github ID: agentzh),生于中国江苏,现定居美国湾区。他是中国早期开源技术和文化的倡导者和领军人物,曾供职于多家国际知名的高科技企业,如 Cloudflare、雅虎、阿里巴巴, 是 “边缘计算“、”动态追踪 “和 “机器编程 “的先驱,拥有超过 22 年的编程及 16 年的开源经验。作为拥有超过 4000 万全球域名用户的开源项目的领导者。他基于其 OpenResty® 开源项目打造的高科技企业 OpenResty Inc. 位于美国硅谷中心。其主打的两个产品 OpenResty XRay(利用动态追踪技术的非侵入式的故障剖析和排除工具)和 OpenResty Edge(最适合微服务和分布式流量的全能型网关软件),广受全球众多上市及大型企业青睐。在 OpenResty 以外,章亦春为多个开源项目贡献了累计超过百万行代码,其中包括,Linux 内核、Nginx、LuaJITGDBSystemTapLLVM、Perl 等,并编写过 60 多个开源软件库。

关注我们

如果您喜欢本文,欢迎关注我们 OpenResty Inc. 公司的博客网站 。也欢迎扫码关注我们的微信公众号:

我们的微信公众号

翻译

我们提供了英文版原文和中译版(本文)。我们也欢迎读者提供其他语言的翻译版本,只要是全文翻译不带省略,我们都将会考虑采用,非常感谢!