本教程向您展示瞭如何利用 OpenResty XRay 對崩潰的 OpenResty/Nginx 應用的 core dump 檔案進行自動和全面的分析。OpenResty XRay 可以為您生成一份詳細的分析報告,涵蓋了 C 和 Lua 的呼叫棧軌跡、Lua 的 GC 物件引用圖、Lua 協程、併發的 HTTP 請求和 libc 的記憶體分配。它利用動態跟蹤和火焰圖的強大功能,對死亡程序即 core dump 檔案進行分析,幫助您快速找出線上應用崩潰的根因。

檢視 core dump 檔案

執行 ls 命令,列出當前目錄下面的所有檔案。

Screenshot

這裡發現了一個新的 core dump 檔案。新的 core 檔案不是一定存放在這個目錄下,只是我們的應用提前配置好了用這個目錄存放。

Screenshot

執行 readlink 命令檢視該檔案的絕對路徑。

Screenshot

下面我們將使用 OpenResty XRay 對這個 core 檔案進行實時分析,找出程序崩潰的原因和上下文資訊。 複製這個 core 檔案的路徑。

Screenshot

使用 OpenResty XRay 的引導式分析功能分析 core dump 檔案

在瀏覽器中開啟 OpenResty XRay 的 Web 控制檯。

Screenshot

確保當前分析的機器是正確的。

Screenshot

如果不對,我們可以在下面的列表重新選擇。

Screenshot

進入 “Guided Analysis” 頁面。

Screenshot

這裡可以看到系統能分析的不同型別的問題。

Screenshot

選擇 “Core dumps or process crashes”.

Screenshot

點選 “Next”.

Screenshot

把我們剛剛複製的 core 檔案路徑名貼上到這裡。

Screenshot

OpenResty XRay 會自動從這個 core 檔案提取可執行檔案路徑,並顯示到這個文字框裡。

Screenshot

確保應用的型別是正確的。通常預設值就是對的。

Screenshot

開始分析。系統正在執行分析。

Screenshot

分析完成,正在生成報告。

Screenshot

可以看到自動生成了一份分析報告。

Screenshot

報告右上方顯示了 core 檔案的路徑和生成時間。

Screenshot

我們先看一下執行上下文。

Screenshot

看看機器碼層面的資訊。

Screenshot

可以看到程序被訊號 SEGV 中止。

Screenshot

下面是對這個訊號的詳細解釋。SEGV 的中文翻譯是“段錯誤”,當一個程式試圖訪問的記憶體區域沒有許可權,或者根本不存在時,就會產生該訊號。

Screenshot

這裡列出了當前執行指令附近的反彙編程式碼。

Screenshot

這一行是當前正在執行的指令,可以透過該行指令前面的紅色箭頭識別。正是在執行這條指令時發生了段錯誤,

Screenshot

而這條指令正在讀取一個記憶體地址。

Screenshot

這是 core dump 發生時 CPU 暫存器的值。

Screenshot

這裡是崩潰發生時的 C 呼叫棧軌跡.

Screenshot

這個函式是 GNU C 庫中的一個函式,用於實現記憶體複製操作。

Screenshot

這是 LuaJIT 中的一個函式,它執行 FFI 元表的索引操作。

Screenshot

ngx_http_lua_run_thread 執行 Nginx 中的 Lua 協程。

Screenshot

ngx_http_core_content_phase 執行 Nginx 的內容處理階段。

Screenshot

這裡是當前正在執行的 Lua 呼叫棧軌跡.

Screenshot

這個 C 函式是在進行記憶體複製。我們在 C 呼叫棧軌跡中已經看到過這個函式。

Screenshot

這兩個元方法會在訪問 cdata 內部的欄位成員時被呼叫。

Screenshot

decode_order_data 是業務程式碼裡的 Lua 函式。

Screenshot

點選 “More” 檢視更多細節。

Screenshot

上面的呼叫棧軌跡是從這個 Lua CPU 火焰圖自動推匯出來的。

Screenshot

下面是完整的呼叫棧軌跡,包含了每一個 Lua 函式幀裡的所有引數和區域性變數的值。

Screenshot

點選這裡可以檢視函式 decode_order_data 的所有區域性變數和引數變數。

Screenshot

讓我們回到業務級別函式 decode_order_data 上來。把滑鼠放在函式的綠色框上。

Screenshot

可以看到這個函式的原始檔名。在提示框中還可以看到檔案的完整路徑。

Screenshot

原始碼行號是 79。

Screenshot

點選這個圖示,複製這個函式完整的原始檔路徑。

Screenshot

使用 vim 編輯器開啟原始檔,檢視這個檔案裡的 Lua 程式碼。您可以使用任何您喜歡的編輯器。

Screenshot

正如 OpenResty XRay 建議的那樣跳轉到第 79 行。

Screenshot

由於 order_cdata 可能為空指標,程式在訪問它的 user_id 欄位時發生了段錯誤並崩潰。因此,訪問之前應該先判斷 order_cdata 是否為空指標。

Screenshot

從這裡可以看到這行程式碼也確實在 decode_order_data 函式中,正如之前報告中提到的。

Screenshot

這是在所有仍然存活著的 LuaJIT 協程中最常見的呼叫棧軌跡。

Screenshot

sleep 是 C 語言中的一個函式,用於將當前執行緒的執行暫停一段時間。

Screenshot

這裡顯示了崩潰發生時正在處理的所有 HTTP 請求。

Screenshot

這是崩潰發生時,Nginx 程序正在處理的那一個 HTTP 請求的資訊。

Screenshot

這裡顯示了發起請求的客戶端的 IP 地址。

Screenshot

請求方法是 POST。

Screenshot

這是請求的 URI。

Screenshot

我們可以進一步檢視所有其他併發的 HTTP 請求。

Screenshot

報告中還包含了記憶體分析。

Screenshot

這是 Lua GC 物件記憶體分佈的最熱資料引用路徑。

Screenshot

該路徑的意思是:前往 registry 登錄檔,

Screenshot

找到 _LOADED 表,

Screenshot

在其中找到 engines.sre.sre_lib 模組,

Screenshot

並在該模組中,訪問 run_rules 函式或資料。

Screenshot

這條路徑是從這個 Lua GC 物件記憶體分佈火焰圖中自動推匯出來的。

Screenshot

全自動分析與報告

OpenResty XRay 還可以監控線上應用產生的任何新的 core dump,分析這些檔案,並自動生成分析報告。切換到 “Insights” 頁面,

Screenshot

您可以在 “Insights” 頁面中找到以日和周為週期的自動報告。

Screenshot

所以您不是非得用 “Guided Analysis” 功能。當然,“Guided Analysis” 對於應用的開發和演示是很有用的。

Screenshot

關於 OpenResty XRay

OpenResty XRay 是一個動態追蹤產品,它可以自動分析執行中的應用程式,以解決效能問題、行為問題和安全漏洞,並提供可行的建議。在底層實現上,OpenResty XRay 由我們的 Y 語言驅動,可以在不同環境下支援多種不同的執行時,如 Stap+、eBPF+、GDB 和 ODB。

關於作者

章亦春是開源 OpenResty® 專案創始人兼 OpenResty Inc. 公司 CEO 和創始人。

章亦春(Github ID: agentzh),生於中國江蘇,現定居美國灣區。他是中國早期開源技術和文化的倡導者和領軍人物,曾供職於多家國際知名的高科技企業,如 Cloudflare、雅虎、阿里巴巴, 是 “邊緣計算“、”動態追蹤 “和 “機器程式設計 “的先驅,擁有超過 22 年的程式設計及 16 年的開源經驗。作為擁有超過 4000 萬全球域名使用者的開源專案的領導者。他基於其 OpenResty® 開源專案打造的高科技企業 OpenResty Inc. 位於美國矽谷中心。其主打的兩個產品 OpenResty XRay(利用動態追蹤技術的非侵入式的故障剖析和排除工具)和 OpenResty Edge(最適合微服務和分散式流量的全能型閘道器軟體),廣受全球眾多上市及大型企業青睞。在 OpenResty 以外,章亦春為多個開源專案貢獻了累計超過百萬行程式碼,其中包括,Linux 核心、Nginx、LuaJITGDBSystemTapLLVM、Perl 等,並編寫過 60 多個開源軟體庫。

關注我們

如果您喜歡本文,歡迎關注我們 OpenResty Inc. 公司的部落格網站 。也歡迎掃碼關注我們的微信公眾號:

我們的微信公眾號

翻譯

我們提供了英文版原文和中譯版(本文)。我們也歡迎讀者提供其他語言的翻譯版本,只要是全文翻譯不帶省略,我們都將會考慮採用,非常感謝!