Jun 10, 2007
Feasibility of IP Restoration in a Tier 1 Backbone
G. Iannaccone, C. Chuah, S. Bhattacharyya, and C. Diot, “Feasibility of IP restoration in a tier-1 backbone,” in IEEE Network, Special Issue on Protection, Restoration and Disaster Recovery, Mar. 2004.
Characterization of Failures in an IP Backbone の参照から辿った. 雑誌の記事で,障害からの回復という観点で,IP restoration (つまり 通常のダイナミックルーティングによる接続性の回復)がどれだけ うまく動くか(動く可能性があるか)ということを議論している.
この文章は''IP restoration が WDM protection より良いか悪いか, どれだけ違うか''ということについて,明確な答えは出さない. この文章の価値は,米大手ISP,Sprint ではどのようなネットワーク設計と 運用がされているか,ということがわかる点である.
この著者らは,以下の論文で Sprint におけるネットワーク障害を, IS-IS のアップデートを解析することによって分析している.
G. Iannaccone, C. Chuah, R. Mortier, S. Bhattacharyya, and C. Diot, “Analysis of link failures in an IP backbone,” in Proc. of ACM Sigcomm Internet Measurement Workshop, Nov. 2002.
要旨:
IPバックボーンではprotectionとrestorationが使える.protectionは WDMなどでプライマリパスとバックアップパスを切り替える方法である. restoration は IP ルーティングプロトコルが障害後に代替パスを計算する. protection は全てのプライマリパス(=IPリンク)ごとにバックアップパスを 敷設せねばならず,またこれにはプライマリパスとは異なる(disjointな)ファイバー を使わねばならないので,比較的費用が多くかかる.restoration は障害後に 代替パスを計算するので(すべてのIPリンクを二重化せず,既存のIPリンクの 組み合わせで代替経路を提供するため)比較的費用に関して効率的である. 反面,restoration による復旧には数秒,protection による復旧は 100ms 以下 と,protection のほうが迅速な復旧を実現する.
この文書で著者らは, 適切な容量を準備(capacity provisioning)し, 注意深くネットワークを設計することで,IP restoration は実際に Sprint での network survivability を提供するのに効果的だと 結論付ける. 根拠として Sprint バックボーンでの運用事例を紹介している.
障害が起きてもトラフィックを迂回させるために,以下が要求される.
- 代替パスが利用できること.帯域の問題を含む.
- 影響を受けるネットワークの部分を最小にするため, 障害からの復旧は局所化されていること.(localized failure recovery)
- 代替パスで SLA を満たすこと.つまり復旧前と復旧後で,遅延等にそれほど 変化がないこと.
- ネットワークの分断を防ぐために,node-disjoint や link-disjoint であること.
マルチホームしているISPのユーザ・顧客は,そのISPに障害がおきると, 別のISPに全トラフィックを向けなおす可能性がある.これはつまり,障害が 起きていないISPでも,トラフィックの突然の急増が起こりえるということを 示している.これに対抗する唯一の手段は,冗長な(余分な)容量を あらかじめ準備しておくことである(overprovisioning). Sprint ではすべての回線の5分平均の利用率が 50% 以下になるようにしている. 利用率を低く抑えるのは SLA の実現にも重要だ.
OC-48(2.5Gb/s)とOC-192(10Gb/s)でPOP間をつないでいる.
POP内はコアとアクセスの二階層.コアではバックボーンルータがフルメッシュで 接続されていて,他のPOPへ接続する.バックボーンルータの下流には,アクセス ルータがいる.アクセスルータは二つ以上のバックボーンルータに接続されている. ISPカスタマとなるネットワークはアクセスルータに接続される(下流).
このやり方で,local restoration ができる.アクセスルータとバックボーンルータの 間のリンクが切れても,代替パスは元のパスより1ホップ多いだけである.そのため, 代替パスと元のパスの遅延の差は無視できる. また,POP内の障害をPOP内で対処できるので,全体からみた影響は少ない. バックボーンルータはフルメッシュなので落ちても回復できる.
ファイバーやルータポート数の問題から,POP間はフルメッシュにできない. 各POPは他の2つ以上のPOPと接続されているので,一つのリンクが落ちても あるPOPが孤立することはない.接続されているPOPは,複数のリンクで 接続されており,終端となるルータはそれぞれ異なる. このようにしておくと,ルータ障害でもリンク障害でもPOP間の代替パスが確保され, リンク間で負荷分散でき,POP間の問題はPOP間に局所化できる.
POP間の複数リンクはできるだけ物理的にdisjointにしておく.
リンク利用率が低いので,キューイング遅延は無い.END-END遅延は 伝播遅延に支配される.IP-to-fiber マッピング問題ではファイバ長を考え なければならない.
障害がどれだけ続いたか:
- 10% が 45min 超
- 4% が 15-45min
- 40% が 1-15min
- 46% が 1min 以下
transient failures = 10min 以下の障害
transient failure の 70% は孤立障害.長時間の障害は同時に起こる 傾向にある(30%以下のみが孤立障害)
ANSI 報告によれば, 200ms 以内に復旧すれば,電話を含むどのようなサービスにも 影響しないだろうと言われている.200ms から 2s の間での復旧には,電話通信の 性能を低下させるだろう.そのため,1s 以下(subsecond)の復旧が実際の閾値だと 一般的に認識されている.
SONET framing を使えば, 10-20ms で切断を検知できる. 主要 ISP コアネットワークではこの理由から SONET 使っている. SONET にはリンクフラップを防ぐタイマーが入っている. これは protection にも使われる. protection にも使う場合は notification timer = 2s. そうでない場合は notification timer = 10 - 20 ms.
localized failure recovery するように設計されていれば, IS-IS のLSPが1~2ホップ届けば,すぐにトラフィック転送は 回復する.
あとは:
タイマーをどれだけ低くできるか
トラフィックエンジニアリングはどうすれば良いか
ルーティングプロトコル拡張:bad news fast と precomputation of 2nd shortest path.
ルータアーキテクチャの拡張:Incremental SPF と優先的経路インストール (NICに).
writeback message: Ready to post a comment.