squid2.6のCOSSの話(その２) - 最速配信研究会(@yamaz)

COSSのパフォーマンスのよさに関して「俺だまされてない?」というモヤモヤ感が高かったんだけど,あちこちの方々と議論した結果これが正解だろうという結論に行き着いた.

ありがとう！＞あちこちの方

友人との会話.

yamaz: おっすおっす。いる？
xxxxx: お久しぶりです!
yamaz: squid2.6のCOSSって知ってる?
xxxxx: 初耳です。＜COSS
yamaz: http://blog.nomadscafe.jp/archives/000705.html
yamaz: http://wiki.squid-cache.org/SquidFaq/CyclicObjectStorageSystem
yamaz: このあたりの話なんだけど、
yamaz: なぜコレが速いかっていう見解って持ってる?
xxxxx : 3年ぐらい前、apacheをプロファイリングしたら、select()の次にopen()がコストを食ってました。で、そのときは、open("/home/xxxx/hoge/hoge/hoge.gif") とかしたとき、/home, /home/xxxx,...のディレクトリファイルを読みに行って、そこでDISK IOが詰まってるんじゃないか？と思ってました。
yamaz : なかなか説得力あるなｗ

ぴろさんとの会話

ぴろさん: それは一般的なrawデバイス使うメリットだよね
yamaz: そうですね。
ぴろさん: open()/stat()は激遅いので、なるべく使わないですむようにするのは基本じゃね？ｗ
ぴろさん: Squidあんまりしらないんだけど、他のストレージ形式は
ぴろさん: オブジェクトごとに１ファイルなの？
yamaz: apacheのmod_proxyはそうですね。
ぴろさん: それはフツーに最悪だと思う
yamaz: squid2.5も1オブジェクト1ファイル
ぴろさん: ディレクトリエントリの検索だけで、オブジェクト数増えたらシャレにならん
yamaz: それでもメモリに載ってる分には速いと思ってたんですが、実はそうでもないくらいopen/statは遅いってのがCOSSの出発点なのかも知れないですね。

selectが遅いのはともかくopenが遅いのは私にとっては結構意外で,この話を元に下記の実験をしてみた.

1. open/closeは1回だけ
open(2KB) + (read 2k + rewind) x 1000万回 + close
3.65s user 26.89s system 99% cpu 30.605 total

2. open/closeを繰り返し
(open + read 2k + close) x 1000万回
6.11s user 79.89s system 99% cpu 1:26.17 total

3. メモリに載るファイルサイズでCOSSもどき
open(0.5GB) + (ramdom lseek + read 8k) x 1000万回 + close
4.50s user 35.25s system 99% cpu 39.839 total

4. メモリに載らないファイルサイズでCOSSもどき
open(8GB) + (random lseek + read 8k) x 1000万回 + closes
戻ってこなかったので中断.

5. メモリに載らないファイルサイズだけど,アクセスする場所を
メモリに載る程度に絞ってCOSSもどき.
6.00s user 271.49s system 66% cpu 6:54.40 total

これらの結果から類推すると下記のような考察ができる.

open/closeのコストはやっぱり高い
バッファキャッシュにのらないと(ディスクにアクセスにいくため)やっぱり遅い
mod_proxyは1キャッシュURLに対して1ファイルを消費するという実装になっている一方でCOSSはopen/closeのコストがないので,キャッシュ量が同じならCOSSの方が速そう.
open/closeのコストは比較的バカにできないので、そこで稼げた分だけディスクに多少余分にアクセスがあってもいいのかもしれない.
なので、あまりにキャッシュヒットが悪いケースではCOSSもやっぱり遅そう
実験5が実験4と比べて非常に遅いのは,lseekがランダムでブロックサイズにあわせたアクセスになってないとかそういう理由が考えられる.なので、ここは改善の余地がありそう(というかそれこそがCOSSがやってることだ).

上記実験は非常に単純なものなので,さらなる考察は必要だと思うが,これなら感覚的にも納得ができる.

COSSはいつキャッシュがあふれて遅くなるのかが読みにくいので,ちょっと癖がある感じだが,なぜ速いかの理由がわかったので,うまく使えばよさそうというのがわかってよかった.

(おしまい)