2月28日にみずほ銀行のシステム障害が発生し、同行の藤原頭取が3月1日に記者会見を開き「システムの過負荷が原因だった」として謝罪したとメディア各社が報じています。

因みに今回のシステム障害によって、ATM3000台程度が利用できなくなり、Twitterなどに寄せられた内容によれば、キャッシュカードをATMに挿入したが戻ってこなくなるトラブルも発生していたようです。

キャッシュカードが吸い込まれる?

ATMの開発プロジェクトには携わったことはありませんので、まったく中身を理解していないのですが、障害が発生した際のATMの処理・実機操作はどのようになっているのでしょうか??さすがにカードが吸い込まれたままの状態になる仕様はまずいのでは?と思うですが、これが正常なのでしょうか??

麻生財務大臣が苦言

麻生財務大臣が「顧客が迷惑するというのが一番問題」「年度末で忙しかったとか、システムを入れ替えた途端止まったとか、プロとして如何なものか」と苦言を呈する事態にまで発展・・・。

麻生財務大臣が言うことは確かにその通りですが、みずほ銀行ほどに大きなシステムとなり取引するベンダーも富〇通、日〇、I〇M、N〇Tデータの4ベンダーを筆頭に、そこにぶら下がる下請け業者が、正直いくつあるかわからない程に膨れ上がったシステムな訳ですから、ご担当されている方々の苦労は並大抵ではないはずです。

過去参画した銀行プロジェクトでは、、

実は私も、過去に携わった案件で、某メガバンクさんや某銀行金融系サービスのプロジェクトを担当した経験があるのですが、「過負荷によるシステムへの影響や障害対策」は当然のことですが、実際の構築作業や移行作業に入るまでに、何度も繰り返す事前検証、移行手順の作成・・・、当日はというと監視チームが各システムを見守る中、作業者と確認者による手順書の読み上げ後にコマンドを入力、確認者の確認後にEnterキーを叩くなんてことをやっていたことを思い出しましたね。

夜中にデータセンターに入館し、作業を終え、早朝にデータセンターを退館するときはとてもすがすがしい気分になるのですが、そこにたどり着くまでの作業の工程を考えると・・・微妙な気持ちになってしまいますね。

過去の関連記事

Chaos Engineeringを構成する5つの原則
アンチフラジャイル(Antifragile)なシステムとは?

Google Kubernetes Engine「GKE Autopilot」正式リリース

さて、みずほ銀行のシステム障害の件で、すっかり話題が持っていかれてしまった感がありますが、GCP Google Cloud Platformが革新的なサービスとなる「GKE Autopilot」の正式なリリースを2月26日に発表していました。

Google Cloud Platformでは、これまでもGKE(Google Kubernetes Engine)を提供し、コントロールプレーンのプロビジョニングやマネジメント、OSパッチ適用などのKubernetesマネージドサービスを提供してきましたが、ワーカーノードの管理などの手動による組み立てや調整が必要な部分が残っていました。

しかし、今回のGKE Autopilotのリリースにより、”Standardモード“と呼ばれる従来の手動によるクラスタのノードインフラストラクチャプロビジョニングが可能な運用モードとワーカーノードの運用管理も自動で最適化し実行してくれる”Autopilotモード“を選択することができるようになりました。これで、開発者はインフラストラクチャに意識をとられることなくソフトウエアの開発に集中することができるようになります。

Introducing GKE Autopilot

Youtubeにアップロードされた動画(1:01頃)に以下のような説明があります。

GKEがこれまで実現できいた部分(緑)と手動で対応する必要があった部分(黄色)を図解で可視化してくれています。わかりやすいですね。

気になるGKE Autopilotのお値段

Gogleによると「GKE Autopilot」は、最適化されたリソースの使用に対してのみ課金されるとしています。 最適化し使用したPodに対する料金のみ発生するのだそうです。

今後、GKE Autopilotの利用を考えた時に、まず最初に課金について確認しておかなければなりませんので、Google Kubernetes Engine(GKE)の料金についてのリンクを張り付けておきます。