可用性

記事数:(5)

クラウド

マルチホーミングで安定したネット接続

近頃、様々な企業活動においてインターネットへの接続は欠かせません。そのため、インターネット接続が少しでも途切れると、事業に大きな影響が出てしまう可能性があります。そのような事態を防ぐ安全対策の一つとして「複数回線接続」という方法があります。これは、複数の会社からインターネット回線を引いて、同時に複数の回線を使う技術のことです。 普段はメインとなる回線を使ってインターネットに接続しますが、その回線に何か問題が起きた場合は、自動的に予備の回線に切り替わる仕組みになっています。例えるなら、水道管が一つしかない場合、その水道管が壊れると水が出なくなってしまいますが、予備の水道管があれば、すぐにそちらに切り替えて水を使うことができます。複数回線接続もこれと同じで、メインのインターネット回線が繋がらなくなった場合でも、予備の回線に切り替えることで、インターネットを途切れさせずに使い続けることができます。 例えば、インターネットで商品を売るお店を考えてみましょう。もしインターネットに接続できなくなると、お客さんからの注文を受け付けたり、商品を発送したりすることができなくなり、大きな損害が出てしまうかもしれません。しかし、複数回線接続を導入しておけば、たとえメインの回線が繋がらなくなっても、予備の回線ですぐにインターネットに再接続できるため、お店は通常通り営業を続けることができます。このように、複数回線接続は、インターネットへの接続が途切れることによる損害を防ぎ、事業を安定して続けるために非常に有効な手段と言えるでしょう。
クラウド

スケールアウトで性能向上

近頃は、情報の技術が驚くほど進み、様々な仕組みに求められるものも複雑になっています。それに合わせて、仕組みが情報を処理する力の向上も欠かせません。処理する力を高めるやり方には、大きく分けて二つの方法があります。一つは「大きくする」方法です。これは、例えるなら、小さな車を大きな力を持つ車に取り換えるようなものです。一台の機械を、より強力な機械に交換することで、処理能力を上げます。もう一つは「数を増やす」方法です。これは、複数の機械を繋げて、みんなで一緒に仕事をすることで全体の処理能力を高める方法です。小さな車を何台も繋げて、大きな荷物を運ぶようなイメージです。 この二つの方法、「大きくする」方法は、一つの機械を交換するだけなので、比較的簡単に行えます。しかし、機械の大きさに限界があるため、どこまでも処理能力を上げ続けることはできません。また、もしその一台の機械が壊れてしまうと、全体の仕組みが止まってしまうという危険も抱えています。一方、「数を増やす」方法は、複数の機械を使うので、一台が壊れても他の機械で仕事を続けられるという利点があります。また、必要に応じて機械の数を増やすことで、処理能力を柔軟に調整することも可能です。しかし、複数の機械を連携させるためには、それぞれの機械をうまく調整するための技術が必要になります。この調整をうまく行わないと、かえって処理速度が遅くなってしまうこともあります。 この文章では、「数を増やす」方法について、さらに詳しく説明していきます。具体的には、どのような方法で複数の機械を繋げるのか、どのような点に注意すれば効率的に処理能力を高められるのか、といった点について解説していきます。これらを理解することで、様々な仕組みをより効率的に、そして安定して動かすことができるようになります。
その他

システム復旧の指標:MTTRとは

機械や仕組みの不具合が直るまでの平均時間、それが平均復旧時間です。英語ではMean Time To Repairといい、その頭文字をとってMTTRとよく呼ばれています。この時間は、機械や仕組みがどれくらい頼りになるか、どれくらい使い続けられるかを知るための大切な目安となります。不具合が起きてから直るまでが短ければ短いほど、その機械や仕組みは頼りになり、長く使い続けられると判断できます。 MTTRは、不具合が起きた時にどれくらい速く対応できたか、どれくらいうまく作業できたかを示すものでもあります。MTTRの値が小さければ小さいほど、復旧作業が速やかに行われたことを示し、仕事への影響も少なく済みます。逆に、MTTRの値が大きければ大きいほど、復旧作業に時間がかかったことを意味し、もっと良くする必要があると考えられます。 MTTRは、機械や仕組みの設計、普段の使い方、修理や点検など、色々なものに影響を受けます。ですから、MTTRの値をきちんと調べれば、機械や仕組みの弱点や改善点を見つけることができます。そして、より丈夫で頼りになる機械や仕組みを作ることができるのです。 MTTRを短くするためには、色々な方法があります。例えば、不具合が起きた時の対応手順を見直したり、作業を自動でしてくれる道具を導入したり、予備の部品を確保したり、担当者の訓練をしたりすることです。これらの対策を行うことで、不具合が起きた時の止まっている時間を最小限に抑え、仕事が滞りなく続けられるようにします。 MTTRは、顧客との約束事を定めた契約書などにもよく出てくる大切な指標です。顧客に良いサービスを提供できているかどうかの保証にもなります。MTTRを常に注意深く見守り、改善に努めることで、顧客の満足度も上がっていくでしょう。
ハードウエア

MTBF:システム信頼性の指標

機械や仕組みがどれくらいしっかりと動くかを知るための色々な方法がありますが、その中で特に大切なのが、どのくらいの間、壊れずに動いてくれるかを示すものです。これは、平均故障間隔と呼ばれ、壊れてから次に壊れるまでの間の平均時間を示しています。この平均故障間隔が長いほど、その機械や仕組みは信頼できると考えられます。 たとえば、ある工場で、ある機械が一年に一度故障するとします。この機械の平均故障間隔は一年です。もし、別の機械が二年ごとに一度しか故障しないとすれば、こちらの機械の平均故障間隔は二年になります。当然、二年ごとにしか故障しない機械の方が、より長く安定して使えると考えられます。 この平均故障間隔は、機械や仕組みを作る段階から、実際に使う段階まで、ずっと大切です。作る段階では、どの部品を使えば壊れにくくなるか、どのように組み立てれば故障しにくくなるかを考える際に役立ちます。実際に使う段階では、いつ頃点検をすればよいか、どのくらいの頻度で部品を交換すればよいかを決めるのに役立ちます。 平均故障間隔を高く保つためには、様々な工夫が必要です。例えば、丈夫な部品を選ぶ、定期的に点検を行う、周囲の温度や湿度を適切に保つ、といった対策が考えられます。また、もし故障が起きた場合には、その原因をしっかりと調べて、再発防止策を講じることも重要です。 機械や仕組みを安定して動かし続けるためには、この平均故障間隔をよく理解し、適切な対策をとることが欠かせません。そうすることで、余計な費用や手間をかけずに、長く安心して使うことができるようになります。
クラウド

分散システムのCAP定理を理解する

たくさんの情報と接続要求を扱う現代の仕組みは、多くの場合、複数の計算機に仕事を分けて行う分散処理という形で作られています。分散処理は、処理能力を高め、一部の計算機が壊れても全体が止まらないようにする利点がありますが、情報の正確さや利用しやすさを保つのが難しくなるという問題もあります。 この問題を考える上で重要なのが、CAP定理と呼ばれる考え方です。CAP定理は、分散処理を行う仕組みにおいて、情報の正確さ(一貫性)、利用しやすさ(可用性)、そしてネットワークの一部が切断されても動作すること(分断耐性)の3つの性質のうち、同時に満たせるのは2つまでだと説明しています。 情報の正確さを優先すると、全ての計算機で情報を同じ状態に保つ必要があり、ネットワークの一部が切断されると、切断された先の計算機は情報にアクセスできなくなり、利用しやすさが損なわれます。逆に、利用しやすさを優先すると、ネットワークが切断されてもそれぞれの計算機は動作し続けますが、情報の更新が反映されるまでに時間がかかり、一時的に情報に違いが生じてしまうため、正確さが損なわれます。ネットワークの切断への耐性を優先する場合は、一部のネットワークが切断されても動作し続ける仕組みになりますが、情報の正確さと利用しやすさのどちらを優先するかの選択が必要となります。 このように、CAP定理は、分散処理を行う仕組みを作る上での、相反する性質のバランスを示しています。この定理を理解することで、それぞれの性質の重要性を考え、目的に合った仕組み作りができます。例えば、銀行のシステムでは情報の正確さが最も重要なので、一貫性と分断耐性を優先した設計を行い、利用しやすさは多少犠牲にするといった判断ができます。一方で、動画配信サービスのように多少の情報の違いがあっても問題なく、常に利用できることが求められるサービスでは、可用性と分断耐性を優先した設計を行い、一貫性は多少犠牲にするといった判断ができます。このように、CAP定理を理解することで、状況に応じた最適な設計の選択が可能になります。