
ガラス張りのラボスペースで、スタッフ数十人がカップを持ち上げ、テーブルを拭き、カーテンを引いて開けるといった日常動作を繰り返している。
ここは米カリフォルニア州パロアルトにあるテスラ(Tesla)のエンジニアリング本社。
従業員たちは8時間のシフト勤務中、それぞれに割り当てられた動作を何百回も繰り返し、ヘルメットに取り付けた5台の小型カメラとバックパックに詰めた重量感のある機材を使ってその様子を記録する。
イーロン・マスク最高経営責任者(CEO)も時折顔を見せる。テスラの投資家たちも定期的に見学に訪れる。
Business Insiderの取材に応じた元従業員はこうこぼした。
「マイクロスコープで観察されている実験用ラットになったような気持ちです」
不可解に見えるこうした取り組みの目的は至ってシンプル。テスラが自社開発を進める人型ロボット「オプティマス(Optimus)」に人間のような動作を学習させるためのデータ収集だ。
マスク氏はオプティマスをテスラが展開する事業の不可欠の一部と位置づける。
2024年10月に開催した製品発表イベントでマスク氏は「いずれ地球上の誰もがこのロボットを欲しがる日がやって来る」とした上で「これは史上最大の(インパクトを持つ)製品になると思う」と強調した。
さらに、今年5月に米CNBCのニュース番組に出演した際には、年内にオプティマス数千台を(テスラの生産拠点である)ギガファクトリーに導入し、2030年までに100万台を生産できると自信を見せた。
テスラはオプティマスに工場内作業や家事、介護など現在人間がこなしているさまざまな仕事を代行させる考えだ。
パロアルトのラボで「データ収集オペレーター」と呼ばれる同社の従業員が繰り返す動作(から取得したデータ)は、オプティマスが近い将来担うことになる仕事の基盤になる。
Business Insiderはテスラの現役及び元従業員5人に取材し、オプティマスのトレーニングの実態を探った。
取材に応じた従業員たちの発言からは、動作反復を伴うデータ収集の肉体的負担が相当に大きく、馬鹿げていると感じることも少なくないのに、徹底した細部へのこだわりを求められる困難な業務であることが分かった。
従業員の一人によれば、走り、しゃがみ、踊る動作のそれぞれが「十分に人間らしく」ないと評価されず、ペナルティを受けるケースもあるという。
「赤子に教えるように」
ロボットに人間らしい動作を教えるのはかなり地味な作業だ。
データ収集オペレーターの大半は、まずテーブル拭きから始める。データ収集は数週間にわたって続くこともある。
「一歩足を前に踏み出し、テーブルを拭き、最初の姿勢に戻り、また一歩踏み出してを繰り返す。休憩時間が来るまでとにかく同じことの繰り返しなんです」
取材に応じた従業員のうち3人によれば、そうした単純作業をいかに行うかを詳細に説明した分厚いマニュアルが配布されるので、データ収集オペレーターは逐次更新されるその内容に従って業務を進めるという。
常に2人1組のペアを組んで、作業を正しい形で行っているか相互に確認するスタイルは全てのオペレーターに共通のようだ。
「必要なことを隅から隅まで徹底的にやり尽くすのがテスラ流なんです。精神的にも肉体的にもかなり苦しいことがあります」
データ収集が始まった当初、オペレーターたちは基本的にモーションキャプチャ用のボディスーツを着用してオプティマスを遠隔操作し、実際の動作を通じて人間の動きを学習させる方式を採用していた。
ところが、今年6月に従業員向けの通達があり、従来の方針を転換してカメラのみでデータ収集する方式に変わった。その直前、開発チームを率いてきたプログラムディレクターのミラン・コヴァチ氏が退職する出来事もあった。
新たに用意されたヘルメット取付型の小型カメラ群は、あらゆる画角の映像を捉えることで、データ収集オペレーターの作業環境における位置を高精度で推定するのに使われる。
モーションキャプチャ用のボディスーツを使わない方が、データ収集を迅速にスケールできるとの説明があったという。
6月以降は他にも複数のトレーニングプロセスが導入され、オペレーターが動作する様子を外側から(すなわち環境側から)撮影するカメラも設置された。
英シェフィールド大学で教鞭を執るロボット自動制御の専門家、ジョナサン・エイトケン博士に聞くと、タワー型カメラによって作業環境のより広角の映像を捉えることでデータを補完できるという。
取材に応じた従業員3人によれば、オペレーターは指の繊細な動きまで追跡できるハプティック(触覚)グローブを装着することもある。
マスク氏は以前、オプティマス開発の過程で人間のような手の動きを実現しようと相当な時間と労力を注いできたことに言及しており、その際に「信じられないほど困難な工学的挑戦(課題)」との表現を使っている。
同じ3人の従業員は、オペレーターが互いの動きを鏡写しのように真似る様子を(データとして)記録したケースもあると語った。
別の従業員2人によると、エンジニアリング本社と同じカリフォルニア州のフリーモント工場では、カメラ付きヘルメットとバックパックを装着したオペレーターが車両のパーツを整理したり、ベルトコンベア周辺で流れ作業を行う様子を記録したケースもあるという。
同じ作業でも記録するデータポイントが違えば、有用なトレーニングデータを取得できる可能性があると、複数の専門家は説明する。
データ収集のための作業は他にも多数あり、元従業員が「赤ん坊に教えるみたいな」と表現する極めて単純な動作の反復も少なくなかったようだ。
従業員2人の証言によれば、例え話ではなく本当の乳児向け知育玩具を使って、大きさや色に合わせて輪っかをつなげたり、丸や四角のブロックを対応する形の穴に入れたりする様子を記録したケースもあった。
別の従業員3人は、AIによって生成されたプロンプトを使ったトレーニングも導入されたと語る。
例えば、重量10〜20キロのバックパックとケーブル接続されたヘッドセットを装着し、スクリーンに表示される(AI生成の)プロンプトに従ってオペレーターが何らかの動作を行い、その様子を記録したケースがそれだ。
具体的なプロンプトとしては、スクワットや(オクトーバーフェストで踊られる)チキンダンス、ゴリラの真似、掃除機をかける動作、数メートルのダッシュ、ゴルフのスイング動作、激しく腰を振るダンスなどを指示されたという。
しかも、データ収集オペレーターたちはそうした動作をプロンプトが表示されてから3〜5秒以内に実行するよう求められたそうだ。
取材に応じた従業員2人は、そうしたAI生成プロンプトを通じて要求されたいくつかの指示、例えば四つんばいで床をはい回るとか、着ている服を一枚脱ぐとかの動作について、従うのが不快に感じられたと証言した。
前出のエイトケン博士は、一見脈絡なく思えるこうした動作のデータを収集することで、改善せねばならない部分を発見できることもあると説明した。
「(ロボットに)ある動作をさせるのに必要なありとあらゆるデータを完全網羅して収集できたと判断ないし結論する根拠は誰も持っていないのです」
有酸素運動を延々と続けるようなもの
Business Insiderの取材に応じた現役・元従業員4人が、作業による肉体的負担の大きさを訴えた。元従業員の1人は「基本的に丸一日有酸素運動を続けるような感じ」と表現した。
別の元従業員は、ロボットのトレーニング中に背中を負傷したと証言した。
荷重バランスの悪いバックパックが原因で、背負っていると常にびっこを引いているような感覚だったという。結果として、この元従業員は傷病休暇を取る羽目になった。
「右足の感覚が失われ、背中に鋭い痛みを感じるようになったのです」
他に複数の従業員が、作業で求められた動作のせいで背中や首を負傷した同僚が複数いたと証言した。
また、モーションキャプチャー用のボディスーツとVR(仮想現実)ヘッドセットを装着してオプティマスの遠隔操作トレーニングを行った際にやはり身体的な異常を経験したことがあると、複数の従業員が語った。
ヘッドセットに表示される画像の品質が低く、長時間装着し続けるとひどい乗り物酔いのような症状を引き起こすのだという。
特にオプティマスが転倒した時は遠隔操作しているデータ収集オペレーターの側の方向感覚が完全に失われて混乱するとか。
「ロボットの目を通じて(実際にはヘッドセットのスクリーン上で)外界を見ているので、ロボットが転倒すると自分も転倒するような感覚になりますが、実際にはそんなことはなくて、直立したままなわけです」
カメラを通じてデータを収集するようになった現在、遠隔操作は投資家がラボを見学に来た時のデモ以外にはほとんど使われていない。
元従業員は実情をこう説明する。
「投資家はオプティマスが実際に動いている姿を見たがるんです。モーションキャプチャー用のボディスーツを着てオペレーターが操作している時は、オプティマスの動きも(自律動作している時より)より滑らかに見えますし」
投資家の見学ツアーにはマスク氏が帯同することもある。マスク氏が5歳になる息子のX君にオプティマスを見せに来たこともあると、元従業員2人が語った。うち1人は、それらの見学者向けデモを「シアターを舞台にした大がかりなショー」のようなものと表現した。
取材に応じた従業員2人によれば、オプティマスは前傾や横方向への体重移動を伴う動作を行うと、半分くらいの確率で転倒し、内蔵された高額な機器の損傷を伴うこともあるという。
そのため、メートル単位で歩行する動作を行う場合を除き、通常は直立姿勢を維持するためのガントリー(支え具)に固定されている。
前出のエイトケン博士に聞くと、テスラの社内ラボのような制御された環境ならば、オプティマスは(支え具など必要なく)直立姿勢を容易に維持できて然るべきとの見方が返ってきた。
「立ったままバランスを維持できるのは、人型ロボットの基本中の基本なはずですが」
従業員たちの証言とは裏腹に、マスク氏は最近の決算説明会でも、エンジニアリング本社ではオプティマスが24時間365日稼働していて、オフィス内を歩き回ったり会議室に来客を案内したりしていると説明している。
顧客関係管理ソフトウェア大手セールスフォース(Salesforce)を率いるマーク・ベニオフ氏は9月上旬、オプティマスがオフィス内を歩行する動画を撮影してX(旧Twitter)に投稿したが、場所や前後の文脈は不明だ。
学習の進捗が不透明に
Business Insiderの取材に応じた従業員たちによれば、ある時点では100人以上がオペレーターとしてデータ収集に従事していた。しかし、9月のパフォーマンス(勤務成績)レビューを経て、数十人がラボを去った。
オペレーターは作業遂行の優劣に応じてパフォーマンスを採点評価され、身体のアングルからポジショニングに至るまであらゆる観点から(改善点などの)フィードバックがあるという。
年2回のレビューを待たずとも、オペレーターには収集したデータの品質と数量をベースに計算されたグレード(業務成績)が表示されるダッシュボードがオンライン提供されており、1日8時間のシフト勤務中に最低でも4時間分の(データとして利用可能な)映像記録を残す必要がある。
位置や姿勢が適切でないなど、記録された映像が不十分と判断された場合、ペナルティを課されるケースもあるようだ。
そうした苦労と苦痛の結晶とも言えるオプティマスの学習の進捗は、トレーニングを担うオペレーター側からますます見えにくくなってきているという。
すでに何度か触れたモーションキャプチャ用のボディスーツを着用した遠隔操作によるトレーニングが主体だった時期は、オペレーターがボタン一つ押すだけで、学習した動作を実行できるかその場で確認できた(従業員によれば、ほぼ実行できなかったそうだ)。
ところが、近頃はそうした学習直後の評価はあまり行われなくなり、オプティマスが進化しているのかどうか可視化されず、不透明感が増している。
確かに、前掲のベニオフ氏のX投稿のようにネット上で公開される動画を見る限りでは、オプティマスは歩行したり洗濯物を畳んだり、ディズニー映画のプレミア公開イベントでカンフーの動作を披露したり、NYのタイムズスクエアでキャンディを配ったり、器用にいろいろできるように見える。
しかし、オレゴン州立大学教授でAI及びロボティクスの専門家として知られるアラン・ファーン博士はこうクギを刺す。
「開発中のロボットのデモというのは、基本的にその時点で見せられる最良の部分だけを見せるものなのです」
「ロボットがカンフーを披露しているのを見ると、何か知性を持って自律的に動いてるように感じられて、これは素晴らしい性能のロボットだ!などと評価してしまいがちですが、それは間違いです。
あくまで環境に応じて動作しているだけで、背後にコグニティブ(認知的)な思考が存在するわけではありません」
一方、マスク氏は10月下旬の決算説明会で、オプティマスの最新版プロトタイプ(試作機)を2026年2月ないし3月に披露できるよう開発を進めていることを明らかにしつつ、将来の姿を次のように表現する。
「もはやロボットにすら見えないでしょう。あたかもロボットスーツを着用した人間のように見えると思います」
とは言え、現時点におけるオプティマスはそうした将来像からまだ遠く離れたところにいる。反復と試行錯誤、そして果てしなく続く人間の労働を糧(かて)に学習を積み重ねる成長途上の存在でしかない。




















