アクセス履歴を利用したWebサーバの状態の推定

佐藤 進也, 風間 一洋, 清水 奨
{sato,kazama,shimizu}@ingrid.core.ntt.co.jp

NTT 光ネットワークシステム研究所

要旨
本論文では、ユーザのWWWアクセス記録を調べることによってWebサーバの状態 を推しはかる方法を示す。本方法で知り得る状態とは、成長、成熟、衰退といっ た活性度であり、従来人気をはかるために用いられてきたアクセス数などとは 別の観点からサーバを特徴付けるものである。また、本方法で得られたサーバ の状態をアクセス者集団の特徴として捉え、その効率的な情報流通への適用に ついて議論する。

1. はじめに

World Wide Web(WWW)はハイパーテキストに基づいた情報システムであり、リ ソースを指し示すポインタとしてUniform Resource Locator(URL)を導入した。 これにより計算機やネットワーク、さらには国といった境界を越えたシームレ スなブラウジングという新しい情報参照スタイルを実現した。WWWの発展によ り、我々が置かれている情報アクセス環境は随分と変化してきた。

従来「情報検索」という研究分野が対象としてきたのは閉じた、静的な世界で ある。例えば、検索システムの評価は、予め決められた文書集合に対して問い 合わせと正解を用意しておき、どのぐらいの割合で正解を出せるかを調べる、 という手順で行なう。

一方、WWWは開かれた動的な世界で、文書(あるいはもっと一般にリソース)の 数、そこに記述されている内容など、刻々と変化する。さらに、ネットワーク によって取り払われつつあるのは、計算機や国の境界だけではない。個人の知 的生産活動の場と外部の情報源とをシームレスにつなげることさえも不可能で はない。

このような環境において、従来の情報検索の技術を応用したキーワード検索と いったものも重要な要素技術ではあるが、それだけでは不十分である。情報の “動き”に対応した情報検索/流通の仕組みが必要になっている。 PointCast[1]などのプッシュ型システムの成功は、実際にそのような需要があ ることを示している。

情報の動きを捉えることは、人間が情報にアクセスする時の振舞いを調べるこ とでもある。我々は、ユーザがWWWをアクセスした記録(アクセス履歴)を解析 し、Webサーバ間にどのような関係が成り立っているのか、あるいはそれぞれ のWebサーバが情報提供者としてどのように振舞うかを調べている(なお本論文 では、HTTPサーバに限らずリソースを提供するサーバをWebサーバと呼ぶこと にする)。アクセス履歴の解析に関しては、すでにいくつかの報告がある([2], [3], [4], [5], [6])。例えば、Webサーバのアクセス数とその人気はZipfの法 則[7]に従うこと、すなわち人気順位とアクセス数の積が一定になることが知 られている([4]など)。今までの研究が、Webサーバの人気の分布がZipfの法則 に従うといったようなサーバ間の関係について調べているのに対して、我々の 研究ではそれぞれのWebサーバの挙動を把握することを試みた。その結果、Web サーバの活性度を推し量る方法を得た。

以下、2章ではアクセス履歴をどのように獲得し、解析に用いたか説明する。 そして、既に報告されている解析結果や、当然得られることが予想される結果 を検証することで、データの正当性およびデータから意味のある結果を引き出 せる潜在的可能性を確認する。3章では、本論文の主題であるサーバの状態を 推定する方法を紹介する。4章では、この状態推定の応用の可能性について議 論する。

2. 解析対象と基本的な事実

まずアクセス履歴を取得した方法と既知の事実の確認を含む基本的な解析結果 を紹介する。

アクセス履歴はNTTの研究所で運用されていたproxyサーバDeleGate[8]のログ から得た。このログには1995年4月24日, 15:02:21から1996年4月11日, 08:56:03まで、1,904,824アクセスが記録されている。

一般にWWW上のリソースへのアクセスには、ユーザの意図によるものと、意図 的アクセスに随伴して発生するものとがある。例えば、ユーザがアンカーをク リックしリンク先のページを参照するのは意図的なアクセスであり、ページに 埋め込まれている広告用バナーや装飾のためのイメージデータをブラウザが自 動的に取得するのは随伴的なアクセスである。我々の興味の対象は意図的なア クセスであるため、HTMLファイルやCGIへのアクセスだけをログから抜き出す ことで随伴的アクセスを除外した。具体的には、アクセスしたリソースの URL が '/', '.html', '.htm' (あるいはその大文字)で終るか、'?' を含むものだ けを抜き出した。その結果得られたのは、全アクセスの 36.5% にあたる 695,165 アクセスであり、記録されたクライアントとサーバの数はそれぞれ 583, 15,564 であった。本研究所では各人が専用の計算機を使っているため、 クライアント数はユーザ数とみなすことができる。

図1:サーバのランクとアクセス数 図2:アクセス周期のスペクトル

図1は、ユーザがWWWの中からサーバを選び出す特性、言い換えると、ユーザの Webサーバの好みの分布を示したものである。具体的には、あるクライアント からのアクセス数に基づいて決まる順位(ランク)とアクセス数の関係(両対数) を示したものであり、おおよそZipfの法則に従っていること、すなわち、

(アクセス数) ∝ (ランク)-1
というベキ法則が成立していることが分かる。

Zipfの法則は、あるサーバ中でのリソースの人気とアクセス数に関しても成立 することが報告されており[6]、もともとの文書中の単語の発生頻度に関する ものも含めて考えると、以下の3つの包含関係においてZipfの法則が成り立っ ていることになる。

単語 ∈ 文書 ∈ Webサーバ ∈ WWW

一方、図2は、アクセス周期のパワースペクトルを示したものである。人間の 行動の周期がアクセスパターンに反映されることが予想されるが、この結果は それを肯定している。このグラフは次のようにして得た。まず、WWWへのアク セス数を1時間単位で集計し、8,192個のデータをサンプリングした。それをフー リエ変換し、パワースペクトルを計算した。ピークが340, 45付近に見られる が、

8192 / 340 = 24.09411 (時間)
8192 / 45 / 24 = 7.58518 (日)
であるから、それぞれほぼ1日、1週間に対応している。

3. サーバの状態の推定

我々はこのproxy serverのログから情報の“動き”を抽出することを試みてい る。そのために、まず動きを追う対象を具体的に決めなければならない。対象 の候補としては、語(キーワード)、URLなどもあるが、ここではWebサーバに注 目し、その振舞いを調べた。

3.1 ランクとクライアント数の変動の追跡

Webサーバの振舞いを特徴付けるデータのなかでも、特に、アクセス数の大小 で決まる順位(ランク)と、アクセス元のクライアントの数に注目した。すなわ ち、時刻 t1 から t2 までのアクセス数で決まるサー バ s のランクを rs(t1, t2), その間に s にアクセスしてきたクライアントの数を cs(t1, t2) とした時、t をパラメータとする点 (rs(t0, t), cs(t0, t)) の動き(軌跡)を追うのである。ここで、t0 はアクセスをログ に記録し始めた時刻である。 クライアント数はアクセス数と類似した増加傾向を 持つと予想されるが、クライアントはユーザに対応しているので、「どのくら いの人が興味を持っているか」という、よりはっきりした意味を持つ数量であ る。

図3:サーバのランクとクライアント数の変化 図4:全サーバの変動範囲

図3に示したのは、www.w3.org と java.sun.com という二つのサーバの軌跡で ある。点(rs, cs)は、時間経過に伴い、双方とも右下 から左上に向かって移動している。また、ログに記録された全サーバの軌跡を プロットしたものが図4である。

ここで特徴的なのは、ある程度ランクが上がるまでは比較的少ない数のユーザ がアクセスしていることである。あたかも、小さめのコミュニティで情報を育 ていて、情報にある程度力が備わったところで、何かをきっかけに、急激にコ ミュニティを拡大するように見える。実社会における流行をみても、比較的小 さい人数から発生することが報告されている[9]。

3.2 個々のサーバの特徴抽出

個々のサーバの特徴を抽出するために、点(rs, cs)の 軌跡をより詳しく調べた。ベキ関数 f(x) = N/xp の p を変化さ せると複数の曲線を得るが(図5)、このうち点(rs, cs)がどのあたりを通るか調べる、というのが基本的アイデアであ る。具体的方法を以下に説明する。

図5: f(x) = N/xpの曲線群

時刻 t0 から t までにアクセスされたサーバの総数を N(t0, t) とした時、3.1で定義した ランク rs(t0, t) と クライアント数 cs(t0, t) との間に

cs(t0, t) = N(t0, t) / rs(t0, t)ps(t0, t)
が成り立つように ps(t0, t) を選ぶ。すなわち、ps(t0, t) は次の式で得られる:
ps(t0, t) = (log N(t0, t) - log cs(t0, t)) / log rs(t0, t)
この ps(t0, t) について、サーバごとに時間 t の推 移に沿った変動を調べた。なお、3.1 と同じく、t0 はアクセスを ログに記録し始めた時刻である。以下、ps(t0, t) を 単に p と書くことにする。

図6: www.w3.org の p の変動 図7: p の変動とアクセスの伸び

図6は、www.w3.org の p の変動をグラフにしたものである。時間は1970年1月 1日(UTC)からの秒数である。p の変動とアクセス累計のグラフに重ね合わせた ものが図7である。p の大幅な伸びとアクセス数の増加が関連しているのが分 かる。さらに特徴的なのが、グラフの後半部に見られる階段状のパターンであ る。これは、定常的にアクセス数の多いサーバでよく見られるもので、例えば、 www.bekkoame.or.jp でも同様なパターンが確認できる(図8)。なお、 www.w3.org, www.bekkoame.or.jp のランクはそれぞれ5位、4位である。

図8: www.bekkoame.or.jp の p 変動

3.3 変動パターンによるサーバ状態の推定

www.w3.org のグラフには、階段状のパターン(これをパターンM(matured)とす る)が現れる前に別のパターン(これをパターンG(growing)とする)が認められ る(図9)。2つのパターンは分離可能で、それぞれ異なるサーバの状態を示して いると予想される。具体的には、パターンGはサーバが成長期にあることを示 し、パターンMは成熟期にあることを示していると思われる。さらに、これに 加えて衰退期に対応する第三のパターン(パターンD(declining))の存在も予想 される。

図9: MパターンとGパターン

上記のパターンを分離抽出するため、p の変動のスペクトル分布を調べた。こ れは、それぞれのパターンの特徴が変動の周期にあると思われるからである。 サーバの状態は1ヶ月間程度は安定しているという仮定を設け、5分間隔で 8,192個(28.4日分)のデータをサンプリングし解析に用いた。

図10で赤と緑で示したのは、それぞれ www.w3.org のデータの内最も新しい1ヶ 月(図9 B; 期間B)と最も古い1ヶ月(図9 A; 期間A)、すなわち、パターンMとパ ターンGに含まれる1ヶ月間のpのパワースペクトル(両対数)である。これらに 加えて、home.mcom.com というWebサーバの、期間Bにおける p の変動スペク トルを青色で示してある。

図10: p の変動のスペクトル分布 図11: スペクトル分布の回帰直線

G, Mパターンの違いが、図10からはパワースペクトルの分布範囲の違いとして 見てとれる。他のいくつかのサーバの p に対しても同様にスペクトルを計算 しグラフ化したところ、やはり安定した人気を保持しているものが上方に分布 するという結果を得た。

図10のグラフから、3つのスペクトルに共通して分布に線形的な特徴があるこ と、具体的には、負の傾きを持つ直線で分布の様子を特徴付けられることが見 てとれる。実際、両対数をとったパワースペクトルデータの相関系数を計算す ると、-0.8 〜 -1 となり、分布に直線的な特徴があることがわかる。図11に 示す3直線は、それぞれ図10に示した3つのパワースペクトルに対応する回帰直 線である。回帰系数(直線の傾き)はいずれも -1.83 に近い値であり、パター ンの違いはむしろ直線の定数項、すなわちスペクトルの強さに現れている。そ こで、分布の違いを判断する目安として V(vitality)を、直線を定義する方程 式の f = 1 における値として定義する。www.w3.org の期間A, Bにおける V はそれぞれ 22.6462, 2.06763 であり、home.mcom.com の期間Bにおける V は 0.15238 であった。

さて、図10での home.mcom.com の分布は、パターンM, Gの分布と異なってい るので、別のパターンを示していると思われる。実際に home.mcom.com の p の動きを見てみると(図12)変動が少なく、M, Gとは異なったパターンを呈して いる。

図12: home.mocm.com の p の変動パターン

これが、本節(3.3)の始めに存在を予想したパターンDである。mcom.com とは、 Netscape社が当初 ``Mosaic Communications'' と名乗っていた頃に取得した ドメインである。しかし、イリノイ大学が Mosaic という名称の所有権を主張 したため Netscape という社名に変更することとなった。home.mcom.com での サービスも home.netscape.com へ移り、必然的に home.mcom.com へのアクセ スは減っていった、という経緯がある。すなわち、home.mcom.com は、実際に、 Webサーバとして衰退していたのである。

このように、スペクトル分布、あるいはVの値からパターンのタイプを予想す るとともに、サーバの状態(ある種の活性度)を推し量ることができる。

以上で紹介した、典型的な p の変動パターンとそれらに対応するスペクトル 分布範囲を図13にまとめておく。

パターン名 パターン形状 スペクトル分布
M (matured)
G (growing)
D (declining)
図13: 各パターンと対応するスペクトル分布範囲

3.4 アクセス数との関係

Mパターンは安定した人気を保持しているサーバでよく認められるが、アクセ ス数が多いサーバで必ず出現するわけではない。Gパターンを示すサーバがMパ ターンを示すサーバより上位にランク付けされることもある。ここでは、パター ンの検出をVの値を調べることに帰着させ、Vとアクセス数との関連性の有無を 調べる。

図13: アクセス数(期間B)とVの値 図14: アクセス数(全期間)とVの値

図13, 14は、Webサーバへのアクセス数とVの値の組をプロットしたグラフであ る。このグラフは全ての点を網羅しているものではなく、点の分布が集中して いる範囲を選んで示したものである。双方とも V の値は期間Bにおけるものだ が、アクセス数については、図13は期間Bに限って集計したもの、図14は期間 を限定せずログに記録されている全てのアクセスを集計したもの、となってい る。これらの相関系数は、それぞれ 0.322, 0.036 であり、はっきりとした相 関は認められない。V の値はアクセス数とは異なった意味を持ち、別の観点か らWebサーバの状態を特徴付けるもの、と捉えるべきである。

4. 状態推定の応用

次に、本論文で示した方法で得られるサーバの状態を情報流通などにどのよう に活かすことができるか、その可能性を示す。

もともと状態の推定はアクセス履歴に基づいているため、どのサーバがどのよ うな状態にあるかはアクセス者の集団(ここではこれをコミュニティと呼ぶこ とにする)に依存する。逆に言えば、状態の推定結果によってコミュニティを 特徴付けることができる可能性がある。例えば、あるコミュニティでの状態推 定の結果、成長期にあるサーバの割合が高かったとしよう。これを、新しい情 報を積極的に発掘している証拠と考えれば、そのコミュニティの情報アクセス に関する活性度は高いと言えるだろう。また、状態遷移の速度や周期からコミュ ニティが情報に適応する速度や情報を``代謝''するリズムといった特徴も検出 できると思われる。

サーバの状態を知ることによりコミュニティの特徴付けができたとすると、そ れに基づいた効率的なコミュニティ間の情報交換が可能になるだろう。例えば、 コミュニティC1においてサーバSは既に成熟期にあるが、コミュニ ティC2においては成長期であったとすると、Sに関しては C1はC2より先行していることになる。よって、 C2はC1から何らかの貢献が期待できるであろう。

5. まとめ

本論文では、アクセス履歴からランクとクライアント数の組の変動を調べWeb サーバの状態を推し量る方法を示した。本方法で知り得る状態とは、成長、成 熟、衰退といった活性度であり、従来人気をはかるために用いられてきたアク セス数などとは別の観点からサーバを特徴付けるものである。また、この状態 はあきらかにアクセス者の集団(コミュニティ)に依存する。どのサーバがどの ような状態にあるかという情報によってコミュニティを特徴付け、コミュニティ 間の効率的な情報(ノウハウ)流通に役立てることが期待される。

謝辞

DeleGateを運用しアクセスログを提供して下さったNTT研究所COREnet DeleGate運用メンバに感謝します。また、フーリエ変換の計算をするにあたり、 FFTWライブラリを利用し た。FFTWの作者である Matteo Frigo と Steven G. Johnson に感謝します。

参考文献

[1] PointCast Inc., ``PointCast Home Page,'' <URL:http://www.pointcast.com/>
[2] S. Classman, ``A Caching Relay for the World Wide Web,'' in Proceedings of the First International World-Wide Web Conference, pp.69-76, 1994.
[3] C. R. Cunha, A. Bestavros, M. E. Crovella, ``Characteristics of WWW Client-based Traces,'' <URL:http://cs-www.bu.edu/faculty/crovella/paper-archive/TR-95-010/paper.html>, 1995.
[4] 早川, 福永, 鈴木, ``ユーザの利用履歴に基づくWWWサーバの地図ディレクトリ,'' 情報処理学会研究報告 97-HI-70-3, pp.17-24, 1997.
[5] M. Aida, N. Takahashi, ``Design of Address Cache Table for Data Networking Based on Complementary Use of the Two Types of Zipf's Law,'' in Proceedings of the 1997 Asia-Pacific Symposium on Information and Telecommunication Technologies, 1997.
[6] J. Nielsen, ``Zipf Curves and Website Popularity,'' <URL:http://www.useit.com/alertbox/zipf.html>
[7] G. K. Zipf, ``Human Behavior and the Principle of Least Effort,'' Addison-Wesley, 1949.
[8] Y. Sato, ``DeleGate Home Page,'' <URL:http://wall.etl.go.jp/delegate/>
[9] 伊藤, ``女子高生のクチコミのつくりかた,'' 情報処理学会研究報告 96-IM-25-6, pp.41-47, 1996.