全国50の自治体で2019年12月4日に発生したシステム障害。不具合を引き起こした日本電子計算のIaaS「Jip-Base」で使っていたストレージ装置のメーカーであるEMCジャパン(米デルテクノロジーズの日本法人)は2019年12月10日、日経 xTECHにコメントを出した。
EMCジャパンは、12月4日に同社ストレージ装置に故障が発生したことを認めたうえで、「障害発生後から日本電子計算と復旧対応を行ってきた。ファームウエアを修正するなどして12月6日午後10時15分にストレージの修復作業は完了し、日本電子計算へ納品した。現在は日本電子計算で業務復旧作業中であり、当社も復旧へ向け全力で協力している」と述べた。
これに対して日本電子計算は12月10日、「12月6日にストレージ装置のファームウエアの修正は完了したが、いまだに読み書きできないデータがあるのも事実で、復旧に至っていない。その原因箇所がストレージ装置を含めシステムのどこなのか、さらにその内容も調査中で、現状は特定できていない」とコメントした。
2019/12/10 19:40
https://tech.nikkeibp.co.jp/atcl/nxt/news/18/06671/ >>6
お前は、バカだろ?
ホルホルするなら、
お前の国を心配しろ。 SSDの長時間稼働バグだろ?
RAIDで同じSSD使ってたら悪夢だな
>>5
BIOSなくすとか逝っているそばからコレかよ 別サーバーを立ててバックアップから戻してサービス復旧を
なんでやらないんだろう
EMCとかHPでダメなら選択肢なくなるじゃんw
テラステーションとか3重くらいで組んだ方が安いし信頼性高そうw
>>8
役所に直接土下座するのは納入された業者と日本法人やろ。 >>6
うんこチョウセンジンは自分の国で親に売られた戦時売春婦の銅像でも磨きながらうんこでも食ってろ 仮想専用線に割り込まれたんじゃね?ファームウェアの修正としか言ってないけどセキュリティシステムを
抜本的に変えない限り同じ障害が出そうだ
RAID5とかRAID6とか、データがバラバラになってるから
いざファームウェアのバグで障害が起きると復旧が非常に難しい
多少高くなってもRAID1+0にしとけばよかった
>>22
ファームの不具合とRAIDとどういう関係があるのか・・・ これ何がおこってんの?
ssdの問題が引き金?
HPでも早くパッチ当てないと
危ないぞみたいなニュース見たけど
>>22
復旧させることを想定しないでraid5や6を組んでる方がアホだろ
そもそもファームのバグってストレージのファームの話だしそのストレージ捨てて復旧させればよいのでは >>31
リタンダントは想定内の障害によるダウンタイムを最小限に抑える為のものだよ
今回の問題はファームのバグによる同時多発ストレージ障害だからなぁ >>33
壊れたストレージを捨てて生きてるドライブだけでサービスを継続するのなんて毎日のようにやってる。
今回のはそれで救えない障害ってこと。 >>33
ロールバック影響範囲が問題なので
そう簡単な事では無い これは年内に復旧できるかのう
コントローラの不具合からの
大規模障害は割りに聞く事案やで
何度も予防保守で夜間対応したわ
共同化やクラウド事業なら
別メーカーのストレージに
バックアップしないと障害で
会社が傾くで
>>35
RAID5で2台同時に飛んでロスト
リビルド中に別ドライブが障害発生でロスト
これは経験あるなぁ
まー自宅の鯖だし、バックアップで難を逃れたが >>37
通常はスナップショットでバックアップだろ。
他社製とかどうやって静止点とるのさ? 職場で正に被害受けてて
でも逆に今の手計算の方が処理が楽
あんなん入力したり出力したりする必要の無さを感じるわ
冗長化してたろうからシャドウコピー系の不具合もありそうだな…恐ろしや
>>39
スナップショットはバックアップじゃないが...
それを考えるのが
キミの仕事やで(ニッコリ) Raidってコントロールプレーン、ファームバグは シングル ポイント フェイラー
>>44
これ、ちゃんとしたところだったら複数のメーカーのストレージで構築してるから
復旧に1週間もかからない ハードウェアRAIDで冗長異常出まくるコントローラーのファームウェアか?
>>39
readonlyのスナップショットから抜くか、
やってること同じだけどndmpとかで抜くかじゃん?
前者だとファイルバックアップで後者だとファイルシステム抜きだから
バックアップの速度が後者が優位だけど即時アクセスできるのは前者。 これは影響デカすぎるな
日本電子計算によると、このストレージ装置の特定のバージョンのファームウエアを使い、
さらに高速に読み書きするための並列処理機能を使う条件がそろったときに不具合が発生したと見ている。
>>12
そっちは別件
そういえば時限爆弾の方のSSD製造メーカーって名前出てたっけ?
HPEのアナウンスじゃ特定のメーカーとしかなかったとか 時限爆弾みたいな形だしな。
ソフトバンクがシステム障害おこして通信障害おこしたのと似てるかんじ。
電子証明書の期限切れみたいな話でないの。
業務全停止までおちいるとなるとコンピュータだけの問題という話ではないな。
控え選手がゼロだったということ。
>>59
Fastキャッシュ機能のことだろ
使う方がアホな機能だぞ 特定の位置にヘッドがこないといけないのに同期がとれてないのはまずいよな
>>23
unityみたいな安い機械使うからだな
早くしたいならxtreamioだし、公共系で使うならvmaxにしときゃ良かったのに
これは提案したemcと日本電子計算どちらも悪い
そもそも、入札制度が悪いってのもあるけどな
安けりゃいいとかいって、地場の設備屋にcvcf更改させてマシン室が停電とかひどいことになるなんて、よく聞く話 >>61
いや控え選手がいないってのはまずない。
控え選手まで同時に倒れるような疫病(バグ)が発生したか、正選手がさっさと倒れてくれたら交代できたのに倒れずにトチ狂って暴れたか、そういうのだ。 HPのサーバーが一斉停止したのと根は同じやつなのか?
>>68
データ自体は消えないがデータが格納されてる領域へのアクセス不可だったり
コントロール不可だったりしてるから
吹っ飛んでるのと同義 >>65
この手の問題は大体ソフトやファームの小さいバグより
構成として多重化を検討しきれてなかった提供元のほうが責任が大きいから多分EMCはセーフ 最近のストレージ装置はデータを単純に格納せずに装置側で重複排除や圧縮を掛けたりしているからね…
そこにデータを壊すようなバグがあったら恐ろしいことになる
だなぁ、製品何使ってたか知らんけど基本VRAIDでやってるから
予想ではファームぶっ壊れててデータ整合性あわないからディスクの中身チェックしながら復旧用のプログラムかパッチ検討してるレベルじゃないのこれ
過去データから戻せりゃ良かったんだけどそれだと復旧出来ないポイントがあるんだろうな…
『世界では過去に類例の報告を4件』もある、既知問題だったんだ。
だから、firmwareも既に出来ていたんだろうな。
そうじゃなければ、4-5日で出てくるとは思えない。
ということは、firmware 当ててなかった管理者の責任に問題があった
ということだよな。
>>73
国産クラウドに期待しちゃいけない
運用者は多重請負の素人 >>74
オンプレでも同じだね、運用はどこも請負派遣のオンパレード >>73
うわーそれはアカンわEMCは完全無罪だな… >>76
ベンダーからレポートが出てたかどうか次第
内部ではバグ対応ファームを作ってたとしてもQAがまだで公開されてないかもしれない
自分は某サーバベンダーのRAIDカードで、DMA絡みのバグを踏んでデータが破損した例を知ってるけど、
この時は初の例っぽくてベンダーの人が調査してた HDD内の組み込みのファームウエアの事か?
それ一台一台書き換えるの大変だな
で、どこの国が必死に直してるの?w
練馬区と中野区だけじゃなかったのか。
企業もあるんじゃないの?
>>77
あーなるほどまだ公開されてなかったケースはあるか…でも4例もあるなら既に公開してると思うけどなインパクトでかいし バックアップを取っていなかったのか
それともバックアップも一緒に吹っ飛んだのか
なかなか復旧しないね
>>87
報道出てないから実情分からんけど動き出してる部分もあるんじゃないのかな 大阪府和泉市はおおむね業務再開とのこと。
お疲れ!
というか、何にせよ全体重かけてしまうのはいかんね。
クラウドのメリットは絶大だけど、トラブったら怖い。それが少しわかった。
中野区議会議員 いながきじゅん子
@i_junko
4日からの中野区のシステム障害でいまだホームページの閲覧やメールの送受信ができない。
一昨日の総務委員会を傍聴して、この件に関し、何だかまるで他人事みたいな答弁がとても気になった。
もっと危機感をもって業者さん任せにせず復旧に全力で取り組んで欲しい。
午後4:50 · 2019年12月12日·Twitter for iPhone
〜
EMC(電磁両立性)なんて変な名前つけるからだろう
>>5
どこにBIOSなんて書いてあんのよ
ファームウェアだろ 練馬区のシステム障害は、回復の見通しが立たないまま9日目に。
図書館のサイトは全くアクセスできないまま。
区民サービスの大幅な低下は言うまでもなく、庁内の事務処理も深刻なダメージ。委託会社のアナウンスも9日のまま
情報化”“IT化”のあまりに貧相な現実
池尻成二@ikesans
システムを構築したやつのレベルと掛けた費用の差がこういうときに出てくるのですよ
練馬区
区システムの障害および復旧状況について
トップページ区政情報広報お知らせ一覧(広報)区システムの障害および復旧状況について
更新日:2019年12月12日
この度は、区のシステムの大規模な障害により、多大なるご不便・ご迷惑をおかけしお詫び申し上げます。
12月4日(水曜)の午前11時頃から、区の20のシステムに障害が発生していましたが、
区公式ホームページの更新と区外部とのメールの送受信システムが8日(日曜)までに復旧いたしました。
現在、その他のシステムにつきましても復旧に向けて作業を進めておりますが、
完全復旧するまでには、もうしばらく時間がかかる見込みです。
今回のシステム障害は、区が利用している民間データセンターの機器障害によるもので、
記憶装置を管理するソフトウェアの故障が原因と特定しています。
なお、障害によるデータの流出・漏洩はありません。
障害が長期におよび真に申し訳ございません。
引き続き復旧を急ぐとともに、今後このような障害を引き起こさないよう対策を講じてまいります。
復旧のお知らせについては、こちらのページに随時更新していきます。
【未復旧のシステム】
図書館ホームページの閲覧、小中学校のホームページの閲覧、ねりまっぷ 等
うちの会社のサーバーDellなんだけど正直大丈夫なんだろうか。
システム障害による納税業務への影響について(復旧作業完了のお知らせ)
更新日:令和元年12月12日 ページID:P0025856 印刷する
システム障害による納税業務への影響について(復旧作業完了のお知らせ)
納税課・保険収納課で利用している納税システムで発生しておりましたシステム障害につきまして、令和元年12月12日に復旧作業が完了いたしました。
多大なるご不便・ご迷惑をお掛けいたしまして、大変申し訳ございませんでした。
なお、システム障害によるデータの流出・漏洩はございません。
結局
デルのストレージが
ヤッチマッタ
って、話なんでしょ?
国産クラウドは8日も停止するのか。ちなみにいくら払ってるの?
バックアップはスナップショットじゃなくて2台のUNITYでレプリケーションしてたんだろ
>>113
まだ復旧見込みがあるだけファーストサーバーの事故よりは進化してるだろw SSDとHDD+SSDのハイブリッドがあるんやな
高速化を併用したら障害発生とか、どういう状況なんやろなあ
>>85
4例ぐらいだと出してない可能性のほうが高そう
>ストレージの修復作業は完了し
(データが残ってたとは言っていない) >>122
データはおそらく残ってる
ただ整合性がとれてないから
付き合わせ作業に永遠の時間が掛かってる なんかいまさら興味をもってみはじめたんだけど、これ、同じ原因の障害が複数のシステムで時間かハッキングかなんかのトリガーで発生したってこと?
それとも一つの障害がクリティカルで自治体間に波及しちゃってるって話?
>>124
各自治体に鯖を提供してるNTTクラウドに引っ付けてるストレージで障害が起きたから全体に波及した >>125
それはなんだか恥ずかしいね・・・
おなじようなのがいろいろ道づれとか、一週間も復旧しないとか。
障害検知した時点ですぐ止めて一時間前くらいのロールバックに切り替えるとかできないもんだったのかねえ(当方大規模システムには素人なので検討違いだったらゴメン)
AWSの営業が捗りそう。 自治体ごとに復旧方針がバラバラで暗礁に乗り上げてんじゃね
例えばwebコンテンツと納税管理データなんて復旧方針が全く異なるであろう物がごっちゃに入ってるわけでしょ?
そりゃ難航するわw
>>126
AWSだろうがAzureだろうがGCPだろうがストレージ障害で吹っ飛んだデータの復旧保証はないよ
我々は壊れにくい高信頼なストレージサービスを提供します
でも万が一に備えてデータを復旧できるようにしておくのは
クラウド利用者側の責任です
というのが彼らのスタンス afr0.1-0.5って数字がでてるけど、件ののシステムはどんなもんだったんだろうな?
結局
DELLのハード(それのソフトウェア)が
やっちまったと
逆HP(DECにタンデム)みたいな
>>135
マイナンバー信者「漏れて困る奴は、
朝鮮人か犯罪者だけ!!」 >>137
思わぬおおごとになったな…
中のSEは真っ青だろう 「クラウド上では本番機とバックアップ機など2重化の構成にしていた」(東浦町)という複数の自治体の証言からすると、
なぜ日本電子計算のクラウド内部で冗長化機能が働かなかったかに注目が集まる。しかし同社は、自治体にも対外的
にも詳細な説明を行っていない。ある自治体担当者によると、「障害の発生箇所であるストレージ装置も冗長化していたが、
冗長化の機能がうまく動かなかったとの説明しか日本電子計算から受けていない」という。
コスト削減やろw
こういうの、現場のSEはどういうもんなの?
・今月残業代てんこ盛り確定でラッキー。障害がいつ復旧しようとしったことかよ。
・休みがつぶれて怒り心頭。いつ復旧するか目処がたたないから正月帰省の予約もできねえじゃん。
どっち?
ストレージの機能を使って冗長化していたとしたら
ストレージ装置のファームの不具合でぶっ壊れたデータを待機系にも書き込んでいた可能性がある
>>141
サーバ屋のエンジニアは1番目
客側のエンジニアは2番目
って感じだな。 >>140
同じ業者にバックアップ系を置いてたって馬鹿丸出しだなw
そつなく予め用意してたバックアップサーバに切り替えた自治体もあるみたいだから、いまだに障害から復帰出来てない自治体はポンコツ。 いくら二重化をしても偶発故障ではない製品不良による障害は防げない可能性が高い。
同じメーカの部品が使われていたら、その部品が同じようなタイミングで壊れる欠陥
を持って居たら、二重化しても同時に壊れてどうにもならない。
たとえば、N回書き込んだら動作しなくなるとか、M時間後に動作不良になるなど。
回数や時間などが原因の場合は、部品の経年変化などとは違い、ほぼ同時に動作不良
になるから、二重化していてもどうにもならない。
なるべくそういうリスクを避けたければ、わざと違うメーカーで異なる製造部品
を使うとか、ある程度時間をかけてエージングをしたものとあまり時間をかけて
エージングしていないものとを組み合わせるなどがいいだろう。
HDDなら、シーゲート製品とウェスタンデジタルの製品を組み合わせてRAIDあるいは
バックアップ装置にするなど。SSDなら東芝とサムスンを組み合わせてRAIDにする
など。同じ会社の部品を使う場合も、型番を違うものにするなど。
>>143
客側のエンジニアなんているの?
自分たちで開発できないから外注してるわけでしょ?
エンジニアったって、外注先に注文クレームつけるときに、他部署の連中と差別化のために
ちょいちょいIT系の専門用語混ぜながらクレーム言ってるだけの存在でしょ。「発注側のシステム担当社員」なんて。
「どーして動かないんだよー。ウィルス?PCに風邪薬かければいいんじゃねえーの?」とか吠える役員ジジイの横で、
「サーバーの○○系統でしょうか?復旧の見込みはいつ立ちますか?フォールトトレランスはどうなって云々」
みたいな、意味があるんだかないんだか自分でも分からんハッタリ言ってるだけでカッコがつくだけの。 >>146
普通にいるよ。
クラウドっても要はレンタルサーバなんだから。 ストレージはバックアップじゃねーって言ってんのに、d2dで別ストレージにコピーしてるからテープローダーは要らないですってほざく客先SEが多い。データは自分ところで持ってなきゃだめだろ!
>>137
うおっ…完全復旧じゃなかったのか
>>141
3だな上から早くやれと指示されるも、恐らくマニュアル作って無いところをあれこれ試験しながら小さいトラブル起こしつつ進んで胃が痛くなり睡眠不足でダウンするまさにデスマーチ
俺はしーらね出来るのは派遣じゃねぇかな データセンター間でのレプリケーションはコスト削減のためにしていなかったとかか?
有料オプションだったんじゃね?
データ部分のバックアップも客の注文次第
NTTをぶっ壊す!NTTから国民を守る党が出現するのも時間の問題。
電話加入権詐欺とか総無能と結託してやりたい放題、NHKより酷いだろ?
AWSもEBSボリュームのデータは消える事があるので
バックアップやデータセンター間のレプリケーションは自分で設定しろって感じみたい
同一データセンター内の複製は自動でされるが、それで完全にデータ消失を防げる訳ではない
客がバックアップもレプリケーションもやってなくて
消えても客に賠償とかはしない
しかし、今年夏のAWSの障害は過熱が原因だから
一時的にサービスが使えなくなってもデータは消えてないよね?
SSDが壊れた場合のデーター復旧はかなり困難。
HDDが壊れた場合もデーターの復旧には多大な手間と時間が掛かり、コストが高い。
>>146
客側のエンジニアって要はベンダーやコンサルで運用管理や企画を受託してる奴ら
稀に元エンジニアが客側に入ることもあるけど >>100
業者任せにしなかったら、さらに被害拡大。こんなアホが議員やってるのか。 >>158
そもそもこういうときの担当業者もきまってない可能性が・・・ 初めからamazon AWSとかMS Azureとかで構築しておけば10日も止まるとかもなかっただろうに
こういうトラブルがあったときに弱小企業だといろいろ限界があるんだろうな
>>161
LGWANに直接接続するプライベートクラウドのリージョンなので大規模システムの場合縮退運用まで考えておかないとこうなるって話 >>100
複数データセンターで運用するために
もっと予算をよこせと言うべき >>46
N社の仕事はおとろしゅうて半年前に逃げてきたわ
関わるのは初めてじゃないけど、なんで段々指揮系が劣化してんだよ・・・ >>163
どうせ富士ゼロックスシステムサービスに投げてんだろうからバックアップから他拠点での縮退運用まで料金払っとけって話だよな >>7
hpで問題起こしてたSSDはサムスンだったな >>164
電電公社だぞ?元役所だぞ。あんなの上層部の年金のために働かされるネズミ講だろ。