我們最近使用 OpenResty XRay 幫助一個銷售 CDN 和流量閘道器服務的企業客戶最佳化了他們的 OpenResty/Nginx 伺服器的記憶體使用。這個客戶在他們的 OpenResty/Nginx 配置檔案中定義了許多虛擬伺服器和 URI location。OpenResty XRay 在客戶的生產環境中自動進行了大部分分析,基於分析結果給出的方案讓 nginx 程序的記憶體佔用減少了大約 30%

改進結果

和我們的 OpenResty Edge 的 nginx worker 程序相比顯示, 進一步的最佳化將會繼續減少約 90%

進一步改進

OpenResty XRay 是一個動態追蹤產品,它可以自動分析正在執行中的應用程式,以排除效能問題、行為問題和安全漏洞,並提供可行的建議。在底層實現上,OpenResty XRay 由我們的 Y 語言驅動,可以在不同環境下支援多種不同的執行時,如 Stap+, eBPF+, GDB 和 ODB。

挑戰

這個 CDN 供應商使用一個超大的“nginx.conf”配置檔案來為他們的 OpenResty 伺服器中的近萬個虛擬主機服務。每個 nginx 主程序在啟動後佔用了好幾個 G 的記憶體,在一次或多次 HUP reload 後,記憶體幾乎翻倍。從下面 OpenResty XRay 生成的圖中可以看出,最大記憶體佔用約為 4.60GB。

我們可以從 OpenResty XRay 的應用層面記憶體使用明細表中看到,Glibc 分配器佔用了大部分常駐記憶體,有 4.55GB。

應用層面記憶體使用明細

OpenResty XRay 發現 Nginx cycle pool 佔用了大量的記憶體:

記憶體池大小按池型別明細

當 Nginx 載入配置檔案時,我們都知道它為這個 cycle pool 內的配置資料分配了資料結構。雖然龐大到有 1.62GB,但遠遠小於上面提到的 4.60GB。

RAM 依然是昂貴和稀缺的硬體資源,特別是在 AWS 和 GCP 這樣的公有云上。客戶希望透過降級到記憶體較小的機器來節約成本。

分析

OpenResty XRay 對客戶的線上程序進行了深入分析。它不需要客戶的應用程式進行任何協作。

  • 沒有額外的外掛、模組或庫。
  • 沒有程式碼注入或補丁。
  • 沒有特殊的編譯或啟動選項。
  • 甚至不需要重新啟動應用程式程序。

分析完全是以“事後”的方式進行的。多虧了 Openresty XRay 採用的動態追蹤技術。

太多的空閒區塊

OpenResty XRay 用 Glibc 記憶體分配器的分析器自動對線上 nginx 程序進行取樣。分析器生成了以下柱狀圖,顯示了分配器管理的空閒塊的大小是如何分佈的。

Glibc空閒塊大小分佈

Glibc 分配器通常不會立即釋放空閒塊給作業系統(OS)。它可能會保留一些空閒塊,以加快後續的分配速度。但有意保留的通常很小,不可能到上 G 位元組。這裡我們看到空閒塊的大小累計已經達到 2.3GB。因此,更常見的原因是記憶體碎片。

檢視普通堆中的記憶體碎片問題

大多數小的記憶體分配透過 brk Linux 系統呼叫,發生在“普通堆”中。這個堆就像一個線性的 “堆“,只能透過移動其”頂部"指標來增加或減少。在堆中間的所有空閒塊不能被釋放給作業系統。直到它們上面的所有塊也變成空閒,它們才會被釋放。

OpenResty XRay 的記憶體分析器可以幫助我們檢視這種堆的狀態。請看下面的堆圖,它是在 nginx 主程序響應 HUP 訊號載入新配置後的取樣圖。

釋放舊 cycle 前的堆

我們可以看到,堆是向上增長的,也就是說,向高位記憶體地址增長。注意 brk top 指標,這是唯一可以移動的東西。綠色框屬於 Nginx 的新 “cycle pool“,而粉色框屬於舊 ”cycle pool”。一個有趣的現象是,Nginx 會保留舊的 cycle pool 或舊的配置資料,直到新的 cycle pool 被成功載入。這種行為是由於 Nginx 的保護機制,當新的配置載入失敗時,會優雅地退回到舊的配置。不幸的是,正如我們在上面看到的,舊的配置資料的盒子(綠色)在新的資料(粉色)下面,因此只有當新的配置資料也被釋放後,它們才能釋放到作業系統。

事實上,在 Nginx 釋放了舊的配置資料和舊的 cycle pool 後,它們原來的位置變成了空閒塊,被卡在新的 cycle pool 的塊下面。

釋放舊 cycle 後的堆

這是一個教科書式的記憶體碎片化的例子。普通堆只能在頂部釋放記憶體;因此,它比其他記憶體分配機制,如 mmap 系統呼叫,更容易受到記憶體碎片的影響。但是,mmap 會在這裡拯救我們嗎?不一定。

mmap 的世界

Glibc 分配器也可以透過 mmap 系統呼叫來分配記憶體。這些系統呼叫分配離散的記憶體塊或記憶體段,這些記憶體塊或記憶體段可能位於程序地址空間的幾乎任何地址,並跨越任何數量的記憶體頁。

這聽起來是一個緩解上述記憶體碎片問題的好方法。但是當我們有意阻斷普通堆的增長方式時,根據 OpenResty XRay 的分析器所產生的圖表,類似程度的記憶體碎片仍然發生。

釋放舊 cycle 後的 mmap 段

當應用程式(這裡是 Nginx)請求分配較小記憶體塊的時候,Glibc 傾向於分配相對較大的記憶體段,這裡是 1MB。因此,記憶體碎片仍然會發生在這些 1MB 的 mmap 段內。如果一個小記憶體塊仍在使用,那麼整個記憶體段就不會被釋放給作業系統。

在上圖中,我們可以看到舊的 cycle pool 塊(粉紅色)和新的 cycle pool 塊(綠色)仍然在許多 mmap 段中交錯。

解決方案

我們為客戶提出了幾個解決方案。

簡單方式

最簡單的方式是直接解決記憶體碎片的問題。根據上面我們使用 OpenResty XRay 做的分析,我們應該做以下一個或多個變動。

  1. 避免在“普通堆”中分配 cycle pool 記憶體(即取消這種分配的 brk 系統呼叫)。
  2. 要求 Glibc 使用適當的 mmap 段記憶體大小(不要太大!)來滿足 cycle pool 的記憶體分配請求。
  3. 將不同 cycle pool 的記憶體塊乾淨地分離到不同的 mmap 段中。

我們為 OpenResty XRay 的付費客戶提供詳細的最佳化說明。因此根本就不需要編碼。

更好的方式

是的,還有一個更好的方式。開源的 OpenResty 軟體提供了 Lua APIs 和 Nginx 配置指令,以動態載入(和解除安裝)Lua 層面的新的配置資料,而不需要透過 Nginx 配置檔案機制。這使得使用一個小的恆定大小的記憶體來處理更多的虛擬 server 和 location 的配置資料成為可能。同時,Nginx 伺服器的啟動和重新載入時間也大大縮短(從很多秒到幾乎為零)。事實上,有了動態配置載入,HUP reload 操作本身變得非常罕見。這種方式的一個缺點是,這需要在我們使用者側進行一些額外的 Lua 編碼。

我們的 OpenResty Edge 軟體產品以 OpenResty 作者所設想的最佳方式實現了這種動態配置載入和解除安裝。它不需要使用者進行任何編碼。所以這也是一個容易的選項。

結果

這位客戶決定先嚐試簡單的方式,結果在幾次 HUP reload 後,總的記憶體佔用減少了 30%

改進結果

仍然有一些剩餘的片段值得進一步關注。但我們的客戶已經很滿意了。此外,上面提到的更好的方式可以節省超過 90% 的總記憶體佔用(就像在我們的 OpenResty Edge 產品中一樣):

進一步改進

關於作者

章亦春是開源 OpenResty® 專案創始人兼 OpenResty Inc. 公司 CEO 和創始人。

章亦春(Github ID: agentzh),生於中國江蘇,現定居美國灣區。他是中國早期開源技術和文化的倡導者和領軍人物,曾供職於多家國際知名的高科技企業,如 Cloudflare、雅虎、阿里巴巴, 是 “邊緣計算“、”動態追蹤 “和 “機器程式設計 “的先驅,擁有超過 22 年的程式設計及 16 年的開源經驗。作為擁有超過 4000 萬全球域名使用者的開源專案的領導者。他基於其 OpenResty® 開源專案打造的高科技企業 OpenResty Inc. 位於美國矽谷中心。其主打的兩個產品 OpenResty XRay(利用動態追蹤技術的非侵入式的故障剖析和排除工具)和 OpenResty Edge(最適合微服務和分散式流量的全能型閘道器軟體),廣受全球眾多上市及大型企業青睞。在 OpenResty 以外,章亦春為多個開源專案貢獻了累計超過百萬行程式碼,其中包括,Linux 核心、Nginx、LuaJITGDBSystemTapLLVM、Perl 等,並編寫過 60 多個開源軟體庫。

關注我們

如果您喜歡本文,歡迎關注我們 OpenResty Inc. 公司的部落格網站

我們也在 B 站上也有 OpenResty 官方的影片分享空間,歡迎訂閱。

同時歡迎掃碼關注我們的微信公眾號:

我們的微信公眾號