連載430回のSGIに絡んで、MIPS TechnologyのCPUを使っていたつながりで今週はTandem Computerを紹介したい。
Tandemは、以前COMPAQに絡んで少しだけ紹介している。同社は1997年にCOMPAQに買収されており、その後はCOMPAQ社内で旧COMPAQ派と旧DEC派の三つ巴の激しい社内抗争が発生していたらしい。
なんだかどこぞの銀行を髣髴とさせる話だが、それもあってラインナップの統合もなかなか進まず、業績がどんどん低下して、結局HPに買収されることになった……という話は本筋ではなく、今回はその1997年の買収までのTandemの経緯を取り上げよう。
故障しても止まらない
システムを構築
Tandemは1974年、James G. Treybig氏を中心とした旧HP社の社員によって設立された。当時、銀行を初めとする金融機関は「止まらないコンピューター」を切実に欲していた。
1970年代といえばもうICはおろか、小規模なLSIが実用になっている時代であり、IBMならSystem/370を、DECならばPDP-11をそれぞれリリースしていた頃(VAXは1970年代後半)である。
真空管やトランジスタの時代に比べるとずっと性能もあがり、信頼性も高まっていた時代ではあるが、金融機関が求めるような大型のシステムだと、回路も大規模化するため、ある程度壊れることは避けられなかった。
もちろん金融機関のような大口ユーザーならばエンジニアが常駐しており、故障したらただちに交換部品(これも客先にストックしておくのが普通だった)と交換して再立ち上げすることでシステムが停止している時間を最小限に留めるといった対応は日常的になされていたが、止まることそのものが業務へのリスク(当然その間銀行業務そのものが止まってしまう)と考えられたため、「止まらない」システムへのニーズは強かった。
当時Treybig氏はHP 3000というミニコンのマーケティングに携わっていたが、この「止まらない」システムを構築するために、「フォールトトレラント」なシステムをTreybig氏は思いつき、HPの上層部に提案する。
要するに2つの独立したシステムを同時に動かしておき、片方が故障を起こしたら直ちにもう片方がそれを引き継ぐことで、ユーザーから見れば故障していないように見えるというものだ。
「壊れない」システムから「壊れても困らない」システムへの発想の転換であるが、残念ながら当時のHPの上層部はこのアイディアを却下。そこで自分で会社を興してそうしたシステムを作ろう、と決めたわけだ。
幸いにも元HPの重役だったThomas J. Perkins氏と、Fairchild Semiconductorの創業者の1人であるEugene Kleiner氏はこのアイディアを気に入り、まず2人合計で50万ドルの投資を受けてTamdem Computerが創業される。
2人はこの後も合計150万ドルを1975年に追加で投資し、さらにベンチャーキャピタル筋からも150万ドルの投資を受けて、とりあえずの運転資金をまかなうことに成功する。この運転資金を元に、まずソフトウェア開発担当副社長としてMichael D. Green氏を、ハードウェア開発担当副社長としてJames A. Katzman氏をそれぞれHPから引き抜いている。
他にCFOのJohn C. Loustaunou氏とマーケティング担当副社長のDavid R. Mackie氏などで、4人はいずれもHP 3000シリーズのコアメンバーだった。その意味では、HP 3000のフォールトトレラント版と言えなくはないが、作られたマシンはHP 3000とは互換性がない。
画像の出典は、“HP Alumni”
ただシステム構成やプロセッサーのアーキテクチャーなどは、HP 3000と相似点があるのは当然ではある。もっとも機能的に言えば、たとえば仮想アドレスのサポートはHP 3000には搭載されておらず、HP 3000をベースにもっと優れたものを作り出した、というべきだろう。
特徴はプロセッサーそのものというよりもシステム設計の側にある。先に述べたように、2つの独立したハードウェアを同時に動かし、片方に障害があったら、もう片方が引き継ぐのがTandemのフォールトトレラントの肝であるが、このためには「障害検知」と「障害があった場合の代替処理」がスムーズに行なえないといけない。
これを行なうためのソフトウェアがGuardianと呼ばれ、システムの動作と、データ転送などをすべて監視し、障害があったらすぐさま代替処理を行なうようにした。
ただし、これだけではフォールトトレラントとしては不十分である。というのは、時間が経つともう片方も壊れるかもしれないからだ。したがって、壊れた場合には「システムを落とさずに」壊れたユニットを交換して復帰させる必要がある。
ホットリペアリング、あるいはホットスワップといった言い方が一般的だが、これを実用レベルで実装することで、「故障が発生しても代替モジュールが処理を継続するので、その間に壊れたモジュールを交換することで無停止を継続できる」という、完全なフォールトトレラントが完成する。

この連載の記事
-
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 -
第841回
PC
Gen1で3倍、Gen2で14倍の帯域幅を実現! Celestial AIのPFLinkがネットワークスイッチを劇的に進化させる -
第840回
PC
Avicena Techが最新MicroLED光チップレット技術を公開! 2027年製品化に向けた新たな光インターコネクト戦略 -
第839回
PC
長距離伝送も安心! 1kmを3dBの損失でクリアするPassageの驚異的な光通信性能 - この連載の一覧へ











