« ホリエナジー | メイン | 言葉の省略 »

2005年10月27日

機械の悲鳴を聞き取れるか?

[ニュース雑感]

羽田管制塔システムダウンによる混乱が8月にあったそうだが、その原因がわかってきたらしい。

asahi.com: 羽田空港の停電はシステム誤作動 国交省、責任者処分へ - 社会
2005年10月27日07時49分
 羽田空港の管制塔が8月2日に停電し、管制用レーダーなどがダウンした問題で、国土交通省は26日、直接の原因を「誤った電気信号でブレーカーが作動し、二つの電気回路が同時に断線したシステムトラブル」とする調査結果を公表した。装置の監視が不十分だった人為ミスも重なり、同省は空港を管理する東京空港事務所の責任者らを処分する。

なーんか、ひたひたとシステム依存による大事故? 大災害? といったことが現実になってきていますねぇ。ちょっと前に起きた飛行機墜落も、スイッチ間違えて「着陸しない」モードになっているのを無理やり着陸させようとして、機械と人間が戦った結果、急上昇・墜落となったようなこともあったらしく…。

この中で気になるのがこれ。

報告によると、この日午前10時46分、一部の装置の電源を入れたところ、外部からの電力を供給する二つの回路のブレーカーに誤った信号が流れ、同時に切れた。この際、非常用バッテリーが立ち上がったことに事務所職員も気づかず、同11時33分にバッテリーが消耗して停電。原因が特定できずに復旧に時間がかかった。最初の誤信号そのものが流れた原因は特定できなかった。

最近のシステムでは、とにかくダウンさせないために自動的にモードを切り替えて運転継続ができるようになっている。ウェブサーバーなんかは並列して、ロードバランサーで死活監視、死んだサーバーは振分け対象からはずす…なんてパターンですね。データベース、ネットワーク、電源その他もろもろ、二重化は当たり前で、いかに瞬断を起こさずにサービスを継続させるのか…という点は、いろいろと方法が進んできました。

しかしまぁ、当然壊れたものは直さないといけないわけです。これはさすがに自動化できない。となると機械はアラートを出すわけです。「もしもし、私壊れましたよ」と、あるいは「もしもし、こいつ壊れちゃいましたよ」と。

このアラートを受け取るのは人間です。メールプッシュが比較的多く、重要なものになればランプやブザーなんかも連携しちゃったりします。が、やはりそれを受け取るタイミングが問題です。

ぱっと見、システムは片肺になっていることに気づかせない位ふつーに動いているわけですね。壊れること自体がそれこそ3年に一度あるかないかの機械たち。それを20個使ってるとして、均せば2ヶ月に一度程度の信号です。これを、片肺の「猶予期間」中に受け取って適切な対処をしなければ、結局はシステムダウンを招くわけです。

とはいえ、アラート出しすぎてもこれはこれで「またか」という印象につながりやすく(ビルの火災報知機なんてみんな気にしてないよね)、出さなすぎると存在そのものが忘れられちゃう。アラート対象も多すぎればやいやい騒がれすぎるし、少なすぎるとやはり気づかない恐れがでてくる。

継続稼動を優先して対処することによって、システム屋にとって見るとある種の安堵感が生まれてしまいます。秒単位で対応をしなければならないことが、分単位あるいは日単位まで猶予期間が延ばされることで「なんとか対処できるだろう」的なあいまいなことが残ってしまうことが多いようです。

今回の原因は蓄電池での稼動時間が猶予期間であったわけで、巨大なバッテリーを用意したところで時間単位がせいぜいですね。ニュースを見る限りは、50分近く耐えたわけですから立派なものです。かつ、その間通常業務が継続できたわけですから、危機管理対策かなりハイレベルに実現できていたはずです。

「これだけやったから大丈夫」と安堵してしまうところに隙が生まれて、モノによっては大勢の生命を脅かすことになってしまう。心する…というこれまた曖昧な形でしか防御することはできないのでしょうかね。

とか考えると、片肺延命をあまりにも強化しすぎず、あえて使えなくする…というのも必要な(というか検討すべき)方法なのかもしれません。

投稿者 akio : 2005年10月27日 11:14

blog seo tool : track word  blog SEO tool