在本教程中,我们展示了如何分析一个 Python Web 应用内部的内存使用细节。该应用基于 Python 的 Django 框架。我们可以通过 OpenResty XRay 找到的详细数据引用路径来定位最占用内存的 Python 对象或值。OpenResty XRay 会自动生成并解释 Python GC 对象内存分布火焰图;这是我们自己发明的火焰图类型。可以精确到某一个具体的 Python 对象,比如某一个 Python 字符串或字典。

django.png

问题: 内存占用量高

运行 ps 命令,查看所有 Python3 进程。可以看到,有一个进程占用了 86MB 的内存。

Screenshot

这个 Python 二进制可执行文件是 Linux 发行版自带的。

Screenshot

使用 OpenResty XRay 的引导式分析功能分析 Django 应用

让我们使用 OpenResty XRay 来检查这个未经修改的进程。我们可以对它进行实时分析,查看内存具体消耗在哪里了。

在浏览器中打开 OpenResty XRay 的 Web 控制台。

Screenshot

确保我们当前分析的是正确的机器。

Screenshot

如果当前的机器不对,您可以从下面的列表中选择正确的。

Screenshot

进入 “Guided Analysis” 页面。

Screenshot

这里可以看到系统能分析哪些类型的问题。

Screenshot

选择 “High memory usage”。

Screenshot

点击 “Next”。

Screenshot

选择 Python Django 应用。

Screenshot

选择消耗超过 84MB 内存的进程。也就是我们之前在 ps 命令输出中看到的。

Screenshot

确保应用的类型是正确的。

Screenshot

通常默认值就是对的。

Screenshot

OpenResty XRay 可以同时分析多种语言级别。这里我们保持 Python 和 C/C++ 都选中的状态。

Screenshot

我们还可以设置最大分析时间。这里保持默认的 300 秒不变。

Screenshot

开始分析。

Screenshot

系统将持续执行多轮分析,现在它正在运行第一轮分析。

Screenshot

第一轮分析已经完成,现在进入第二轮分析。对这个例子来说,分析一轮就够了。

Screenshot

现在停止分析。

Screenshot

这里显示了系统正在为本次分析生成报告。

Screenshot

可以看到自动生成了一份分析报告。

Screenshot

这是现在我们要分析的问题类型,Memory。

Screenshot

这条数据引用路径告诉我们,解释器加载的 Python 模块一共占用了 38MB 的内存。

Screenshot

点击 “More” 查看细节信息。

Screenshot

这条数据引用路径是从这个 Python GC 对象内存分布火焰图中自动推导出来的。

Screenshot

下面是对当前问题更详细的解释和建议。

Screenshot

它提到了 .modules

Screenshot

并提到它包含了所有与 Python 模块相关的内容。

Screenshot

接下来,我们放大火焰图,找出哪些 Python 模块占了较多内存。

Screenshot

可以看到这里有 1521 个 Python 模块被合并在一起。其中每一个模块都只占用了不到 1% 的内存。

Screenshot

这个模块占用了较多内存。我们可以点击它进行放大,查看更多的细节。

Screenshot

这里我们可以看到 openpyxl.utils.cell 模块占用了超过 2.6MB 的内存。openpyxl 是一个处理 Excel 文件的 Python 库。

Screenshot

复制模块名。

Screenshot

现在打开终端,使用 find 命令,在项目目录中搜索这个模块对应的源代码文件。项目目录是 Python 模块安装路径的根目录。

Screenshot

粘贴我们刚刚复制的模块名。

Screenshot

Screenshot

这里我们把模块名中的圆点当作 grep 命令的通配符使用。

Screenshot

复制这条完整的文件路径。

Screenshot

使用 vim 编辑器打开源文件,查看这个文件里的 Python 实现代码。您可以使用任何您喜欢的编辑器。

Screenshot

返回火焰图。

openpyxl 模块定义了两个字典,_COL_STRING_CACHE_STRING_COL_CACHE。它们用于在 Excel 单元格坐标和列名之间进行转换。这两个变量占用了较多的内存。

Screenshot

复制第一个变量的名字。

Screenshot

然后搜索 _COL_STRING_CACHE,就可以找到这个对象。我们还可以找到这个文件中所有使用这个变量的地方。

Screenshot

_STRING_COL_CACHE 变量也可以通过同样的方法找到。

Screenshot

我们还可以用类似的方法分析火焰图上其他占用内存较多的模块。

比如说 linecache 模块。这是一个缓存文件内容的 Python 标准模块。它占用了 648KB 的内存。

Screenshot

它有一个叫做 cache 的变量,使用了很多内存。

Screenshot

Python 使用 Libc 分配器和 mmap 系统调用来分配内存。报告显示,Libc 分配器使用了 18.7MB 的内存。

Screenshot

全自动分析与报告

OpenResty XRay 也可以自动监控在线进程,并显示分析报告。

进入 “Insights” 页面。

Screenshot

您可以在 “Insights” 页面中找到以日和周为周期的报告。

Screenshot

所以您不是非得用 “Guided Analysis” 功能。当然,“Guided Analysis” 对于应用的开发和演示是很有用的。

Screenshot

关于 OpenResty XRay

OpenResty XRay 是一个动态追踪产品,它可以自动分析运行中的应用程序,以解决性能问题、行为问题和安全漏洞,并提供可行的建议。在底层实现上,OpenResty XRay 由我们的 Y 语言驱动,可以在不同环境下支持多种不同的运行时,如 Stap+、eBPF+、GDB 和 ODB。

关于作者

章亦春是开源 OpenResty® 项目创始人兼 OpenResty Inc. 公司 CEO 和创始人。

章亦春(Github ID: agentzh),生于中国江苏,现定居美国湾区。他是中国早期开源技术和文化的倡导者和领军人物,曾供职于多家国际知名的高科技企业,如 Cloudflare、雅虎、阿里巴巴, 是 “边缘计算“、”动态追踪 “和 “机器编程 “的先驱,拥有超过 22 年的编程及 16 年的开源经验。作为拥有超过 4000 万全球域名用户的开源项目的领导者。他基于其 OpenResty® 开源项目打造的高科技企业 OpenResty Inc. 位于美国硅谷中心。其主打的两个产品 OpenResty XRay(利用动态追踪技术的非侵入式的故障剖析和排除工具)和 OpenResty Edge(最适合微服务和分布式流量的全能型网关软件),广受全球众多上市及大型企业青睐。在 OpenResty 以外,章亦春为多个开源项目贡献了累计超过百万行代码,其中包括,Linux 内核、Nginx、LuaJITGDBSystemTapLLVM、Perl 等,并编写过 60 多个开源软件库。

关注我们

如果您喜欢本文,欢迎关注我们 OpenResty Inc. 公司的博客网站 。也欢迎扫码关注我们的微信公众号:

我们的微信公众号

翻译

我们提供了英文版原文和中译版(本文)。我们也欢迎读者提供其他语言的翻译版本,只要是全文翻译不带省略,我们都将会考虑采用,非常感谢!