このチュートリアルでは、OpenResty XRay を活用して、オンラインの Rust アプリケーションにおけるディスク I/O の高負荷問題を定量的に分析する方法をご紹介いたします。OpenResty XRay が生成する Rust レベルのディスク書き込み回数、遅延、およびスループットのフレームグラフを通じて、ディスクの読み書きに最も時間がかかり、最大のデータ量を扱う Rust コードパスを特定できます。さらに、具体的な Rust コードまで深堀り、問題を素早く突き止め、最適化を導くことができます。

問題:ディスク I/O の高負荷

まず、ps コマンドを実行してアプリケーションをチェックします。

Screenshot

sled-service という名前の Rust アプリケーションが確認できます。これは Sled という Rust で書かれた組み込み型 KV データベースをベースにしています。

Screenshot

OpenResty XRay を使用して、このアプリケーションのディスクの動作状況を確認しましょう。

問題のある Rust コードパスの特定

OpenResty XRay の Web コンソールに移動します。現在分析中のマシンが正しいことをご確認ください。

Screenshot

「Guided Analysis」ページに進みます。

Screenshot

ここでは、システムが分析可能な様々な種類の問題を閲覧できます。

Screenshot

「High disk IO」を選択します。

Screenshot

「Next」をクリックします。

Screenshot

sled-service という名前の Rust アプリケーションを選択します。

Screenshot

この rust プロセスを選択します。

Screenshot

正しいアプリケーションのタイプを確認してください。通常、デフォルト値が適切です。

Screenshot

ここでの言語レベルは 「Rust」 のみとなっています。

Screenshot

最長分析時間を設定することも可能です。ここではデフォルトの 300 秒のままにします。

Screenshot

分析を開始します。

Screenshot

システムの分析は継続的に複数回実行します。現在、初回の分析を実行中です。

Screenshot

初回の分析が完了し、現在 2 回目のラウンドに入っております。この例では、1 回の分析で十分です。

Screenshot

分析を停止します。

Screenshot

自動生成された分析レポートをご確認しましょう。

Screenshot

これが分析対象の問題タイプ、「Disk I/O」です。

Screenshot

これはディスク書き込み操作回数の分析結果です。

Screenshot

このコードパスがディスク書き込み操作を最も多く行っています。

Screenshot

これらの 2 つの __libc_pwrite64 関数は、ファイルの特定の位置にデータを書き込むための C 関数です。

Screenshot

Rust の標準ライブラリにおいて、write_atwrite_at_all はどちらもファイルの特定の位置にデータを書き込む関数です。

Screenshot

pwrite_all 関数は、ページ全体のデータをファイルに並列で書き込むことをサポートしています。

Screenshot

write_to_log 関数は、永続的なストレージや他の操作のために、データをログファイルに書き込むために使用されます。

Screenshot

詳細を表示するにはクリックしてください。

Screenshot

このホットコードパスは、Rust レベルのディスク書き込み回数のフレームグラフから自動的に導き出されたものです。

Screenshot

以下は、問題に関するより詳細な説明と提案です。

Screenshot

pwrite64 関数について言及しています。

Screenshot

元のコードパスに戻りましょう。この関数の緑色のボックスにマウスを合わせてください。ツールチップにソースファイル名の完全なパスが表示されます。

Screenshot

このソースコードの行番号は 730 です。

Screenshot

このアイコンをクリックして、この関数のソースファイルパスをコピーしてください。

Screenshot

vim エディタでソースファイルを開きます。ファイル内の Rust コードをご確認ください。お好みのエディタをご使用いただいて構いません。

Screenshot

OpenResty XRay が提案したように、730 行目をチェックします。

pwrite_all 関数は、Sled ライブラリ内でデータをログファイルに書き込むために使用される関数です。その役割は、データブロックをファイルの特定のオフセットにアトミックに書き込むことです。

Screenshot

これはディスク書き込み遅延の分析結果です。

Screenshot

このコードパスはデータベースのデータファイルに書き込みを行っています。

Screenshot

これがディスク書き込み遅延のほぼ全ての原因となっています。

Screenshot

これはディスク書き込みスループットの分析結果です。

Screenshot

データベースのデータファイルに書き込むコードパスと同じです。

Screenshot

書き込み速度は約 12 メガバイト/秒です。

Screenshot

これらは最も頻繁に書き込まれているファイルです。

Screenshot

このファイルの書き込みデータ量が最大です。これは Sled アプリケーションのデータベースファイルです。

Screenshot

その読み取り速度は 6.4MB/秒に達しています。

Screenshot

これらは累積書き込み遅延が最も長いファイルです。

Screenshot

このファイルもまた、データ書き込みの遅延が最も高いファイルです。

Screenshot

遅延の割合は約 40% です。

Screenshot

自動生成レポート

OpenResty XRay はオンラインプロセスを自動的に監視し、分析レポートを生成することができます。「Insights」ページに切り替えてください。

Screenshot

「Insights」ページでは、日次および週次の自動レポートをご確認できます。そのため、「Guided Analysis」機能を必ずしも使用する必要はないですが、

Screenshot

その機能はアプリケーションの開発やデモンストレーションに非常に有用です。

Screenshot

OpenResty XRay について

OpenResty XRay動的トレーシング製品であり、実行中のアプリケーションを自動的に分析して、パフォーマンスの問題、動作の問題、セキュリティの脆弱性を解決し、実行可能な提案を提供いたします。基盤となる実装において、OpenResty XRay は弊社の Y 言語によって駆動され、Stap+、eBPF+、GDB、ODB など、様々な環境下で複数の異なるランタイムをサポートしております。

著者について

章亦春(Zhang Yichun)は、オープンソースの OpenResty® プロジェクトの創始者であり、OpenResty Inc. の CEO および創業者です。

章亦春(GitHub ID: agentzh)は中国江蘇省生まれで、現在は米国ベイエリアに在住しております。彼は中国における初期のオープンソース技術と文化の提唱者およびリーダーの一人であり、Cloudflare、Yahoo!、Alibaba など、国際的に有名なハイテク企業に勤務した経験があります。「エッジコンピューティング」、「動的トレーシング」、「機械プログラミング」 の先駆者であり、22 年以上のプログラミング経験と 16 年以上のオープンソース経験を持っております。世界中で 4000 万以上のドメイン名を持つユーザーを抱えるオープンソースプロジェクトのリーダーとして、彼は OpenResty® オープンソースプロジェクトをベースに、米国シリコンバレーの中心部にハイテク企業 OpenResty Inc. を設立いたしました。同社の主力製品である OpenResty XRay動的トレーシング技術を利用した非侵襲的な障害分析および排除ツール)と OpenResty XRay(マイクロサービスおよび分散トラフィックに最適化された多機能ゲートウェイソフトウェア)は、世界中の多くの上場企業および大企業から高い評価を得ております。OpenResty 以外にも、章亦春は Linux カーネル、Nginx、LuaJITGDBSystemTapLLVM、Perl など、複数のオープンソースプロジェクトに累計 100 万行以上のコードを寄与し、60 以上のオープンソースソフトウェアライブラリを執筆しております。

翻訳

英語版の原文と日本語訳版(本文)をご用意しております。読者の皆様による他の言語への翻訳版も歓迎いたします。全文翻訳で省略がなければ、採用を検討させていただきます。心より感謝申し上げます!