在本教程中,您將學習如何診斷線上 OpenResty 或 Nginx 伺服器中 HTTP 504 閘道器超時錯誤的根本原因。透過只捕獲有問題的 TCP 連線內的網路包,OpenResty XRay 減少了效能損耗。這個特性使它非常適合對效能開銷和延遲有高要求的生產環境。這是我們強大的智慧抓包技術。

504.png

問題:HTTP 504 閘道器超時錯誤

首先我們來看一下應用的訪問日誌。

Screenshot

可以看到日誌裡出現了 504 錯誤。

Screenshot

執行 ps 命令來檢視應用的完整命令列。

Screenshot

可以看到這是由 OpenResty 官方的包倉庫提供的標準 nginx 二進位制可執行檔案。

Screenshot

使用 OpenResty XRay 的引導式分析功能排查錯誤

我們可以使用 OpenResty XRay 來對這些 504 錯誤響應進行實時分析,並找出根本原因。

在瀏覽器中開啟 OpenResty XRay 的 Web 控制檯。

Screenshot

確保當前分析的機器是正確的。

Screenshot

如果不對,我們可以在下面的列表重新選擇。

Screenshot

進入 “Guided Analysis” 頁面。

Screenshot

這裡可以看到系統能分析的不同型別的問題。

Screenshot

選擇 “Errors & exceptions”。

Screenshot

點選 “Next”。

Screenshot

選擇之前看到的 OpenResty 應用。

Screenshot

這裡我們不指定某一個程序。

Screenshot

選擇 “整個應用”。

Screenshot

確保應用的型別是正確的。通常預設值就是對的。

Screenshot

OpenResty XRay 可以在多種不同語言的級別上進行分析。這裡保持 Lua 和 C/C++ 都選中。

Screenshot

我們還可以設定最長的取樣時間。這裡保持預設的 300 秒不變。

Screenshot

開始分析。

Screenshot

系統將持續執行多輪分析。目前它正在執行第一輪分析。

Screenshot

第一輪分析已經完成,現在進入第二輪。對這個例子來說,執行一輪分析就夠了。

Screenshot

停止分析。

Screenshot

這裡顯示了系統正在為本次分析生成報告。

Screenshot

可以看到自動生成了一份分析報告。

Screenshot

這是我們要分析的問題型別,“Errors & Exceptions”。

Screenshot

第一個問題就是關於 HTTP 響應狀態碼 504 的。

Screenshot

整個 HTTP 請求耗時超過了 3 秒。

Screenshot

相對於前一個網路包,延時最長的網路包是這個 TCP 包 “Push 和 ACK”。

Screenshot

前一個網路包是 ACK 包。

Screenshot

這兩個包之間的延時超過 3 秒。

Screenshot

延時最長的網路包是由上游伺服器傳送給當前伺服器的。上游伺服器的端點地址顯示在這裡。

Screenshot

您也可以看到當前伺服器的端點地址。

Screenshot

OpenResty XRay 只對實際發生 504 錯誤的 TCP 連線進行抓包,因此效能損耗極低。這非常適合對效能和延時有極高要求的生產環境。

點選 “More” 檢視更多細節。

Screenshot

這是 HTTP 請求的 URI。

Screenshot

橫座標是網路包的序號,從 1 開始單調上升。

Screenshot

縱座標顯示了網路包相對於前一個網路包的延時。值越大,延時越長。

Screenshot

小方塊代表了由當前伺服器向外傳送的網路包。

Screenshot

而小圓圈則表示當前伺服器接收到的網路包。

Screenshot

把滑鼠移到這個延時最長的網路包上。可以看到延時資料,它是當前伺服器接收到的。

Screenshot

基於以上資料,系統得出結論:當前伺服器在等待上游伺服器的網路包時觸發了超時錯誤。

Screenshot

它也給出了針對這個問題的根本原因分析:上游伺服器速度慢。

Screenshot

或者當前伺服器與其上游伺服器之間的網路連線慢。

Screenshot

或者當前伺服器對那個上游伺服器的超時設定太短了。

Screenshot

它也給出了詳細的建議。

Screenshot

這是另一種 HTTP 504 錯誤。當前伺服器在上游伺服器長時間未響應後,主動關閉了當前連線。

Screenshot

從這裡您可以清楚地看到,帶有 FIN 和 ACK 標誌的 TCP 網路包相對於前一個網路包有最長的延時。這表示當前伺服器主動發起了關閉連線的操作。

Screenshot

所以結論是,當前伺服器在等待上游伺服器的網路包時觸發了其配置的超時保護,因而放棄等待並主動關閉了當前連線。

Screenshot

系統給出了針對這個問題的根本原因分析:上游伺服器速度慢。

Screenshot

或者上游和當前伺服器之間的網路連線慢。

Screenshot

或者當前伺服器對那個上游伺服器的超時設定太短了。

Screenshot

全自動分析與報告

OpenResty XRay 也可以自動監控線上程序,並生成分析報告。進入 “Insights” 頁面。

Screenshot

您可以在 “Insights” 頁面中找到以日和周為週期的報告。

Screenshot

所以您不是非得用 “Guided Analysis” 功能。

Screenshot

當然,“Guided Analysis” 對於應用的開發和演示是很有用的。

如果您喜歡這個教程,請訂閱這個部落格網站和我們的 YouTube 頻道B 站頻道。謝謝!

關於 OpenResty XRay

OpenResty XRay 是一個動態追蹤產品,它可以自動分析執行中的應用程式,以解決效能問題、行為問題和安全漏洞,並提供可行的建議。在底層實現上,OpenResty XRay 由我們的 Y 語言驅動,可以在不同環境下支援多種不同的執行時,如 Stap+、eBPF+、GDB 和 ODB。

關於作者

章亦春是開源 OpenResty® 專案創始人兼 OpenResty Inc. 公司 CEO 和創始人。

章亦春(Github ID: agentzh),生於中國江蘇,現定居美國灣區。他是中國早期開源技術和文化的倡導者和領軍人物,曾供職於多家國際知名的高科技企業,如 Cloudflare、雅虎、阿里巴巴, 是 “邊緣計算“、”動態追蹤 “和 “機器程式設計 “的先驅,擁有超過 22 年的程式設計及 16 年的開源經驗。作為擁有超過 4000 萬全球域名使用者的開源專案的領導者。他基於其 OpenResty® 開源專案打造的高科技企業 OpenResty Inc. 位於美國矽谷中心。其主打的兩個產品 OpenResty XRay(利用動態追蹤技術的非侵入式的故障剖析和排除工具)和 OpenResty Edge(最適合微服務和分散式流量的全能型閘道器軟體),廣受全球眾多上市及大型企業青睞。在 OpenResty 以外,章亦春為多個開源專案貢獻了累計超過百萬行程式碼,其中包括,Linux 核心、Nginx、LuaJITGDBSystemTapLLVM、Perl 等,並編寫過 60 多個開源軟體庫。

關注我們

如果您喜歡本文,歡迎關注我們 OpenResty Inc. 公司的部落格網站 。也歡迎掃碼關注我們的微信公眾號:

我們的微信公眾號

翻譯

我們提供了英文版原文和中譯版(本文)。我們也歡迎讀者提供其他語言的翻譯版本,只要是全文翻譯不帶省略,我們都將會考慮採用,非常感謝!