はてなキーワード: CUDAとは
nextstepはmicrosoftのntよりも優れていたの?
"AppleがOSをオープンソースにしたのは、四半世紀前のことで、世界は全く違っていました。
スティーブ・ジョブズは、停滞したAppleに戻ってきました。Appleは、プリエンプティブマルチタスクやハードウェアメモリ保護など、当たり前になっているものを含む次世代オペレーティングシステムを提供することに苦労していました。Appleは、 BeOSを買収しようとしましたが失敗し、ジョブズが復帰した一環として、当時の彼の会社であるNextを買収し、そのOSである NextStepを手に入れました。"
AppleもMicrosoftもクラシックのOSでの成功から新しいNTやDarwinのようなこれまではメインフレームでしか動かなかったようなモダンで新しいOSの開発に苦労していたのかな?
メインフレームのパチモンとして葉っぱでラリってるヒッピーによって作られたPCが時代の進化にスペックが上がってクラシックからモダンOSに移行しなくちゃいけなかったけど、成功して大企業になっていたMSやAppleは過去の遺産にしがみついててクッソ大変だったってこと?
葉っぱのヒッピー/ハッカーのPCじゃなくて体制側としてのメインフレームOSがPCに入っちゃうのはレイプされた気分にさえなる
それで"ハードウェアメモリ保護など、当たり前になっているものを含む次世代オペレーティングシステム"とあるけど、当たり前というからには他の企業はみんなモダンOSを開発していたの_
MacOS9からOS Xにする前というかまだクラシックのOSをぶち込んだiMacを起死回生で発表した時AppleはMSから投資してもらったんだよね?
その時のMSは98で潤ってたのかもしれないけどNTが作れなかったらマジでやばい時でしょ?
時系列的にNTは既に完成してて98でも大成功しまくったし余裕ありすぎわろたでAppleに投資したの?
MSとAppleはここを乗り越えることができたのになぜWindowsPhoneが失敗したの?
figmaとかVScodeとかNotionとかモダンでかっこよくて使いやすい最高のアプリがいっぱいあるのに
世界の大半はまだこのクソすぎるアプリに頼り切って依存しているのに腹が立つよ
マジでAdobeが潰れないかなって毎日祈りながらpsdをaffinityに変換するのに飽き飽きしてるんだ
DarwinカーネルのOS Xが圧倒的な中心のMSの中でWindowsPhone同様に不利だったのに開発者圏を作れたのは高抽象UIがめっちゃかっこよかったからってこと?
それともそれほどまでにWindowsPhoneがダサくて本当にクソだったのか
確かにMS社内でもMacを使う人がほとんどってくらいにMacは使いやすくてクールで開発者体験がいいね
葉っぱ吸ってたヒッピーの会社のはずなのに、その後覇権を取る日本のヒッピーと似ているオタクの同人文化はMS帝国の中で繰り広げられていたし、Macerは気取ってるやつとしてある意味でダサかった
APIの存在は本当に市場の優劣を変えるほどの力を持っているんだね
2000年台にクールなAPIを作ったAppleはグラフィックスAPIのMSのDirectXのおかげでゲーム業界掻っ攫われたわけでしょ?
マジでWindowsは本当にダサくて使ってるとイライラするからMacのもっとクールなグラフィックスドライバのMetalにみんな移行してくれるといいんだけど
Macerは肩身が狭いし
AppleがAI業界かっさらってくれればいいんだけどなんか失敗しそうな予感がするよ
終わってるよ
マジでダサくてイライラするものを使わされるオタク/ヒッピーは市場にレイプされてる
でも使徒である圏論/関数型プログラミングによってリリスの数学がサードインパクトを起こして手を汚せる自由度はいらないほど完璧な世界になりつつあると感じるよ
なんかクソだなって思うけど、それは一時的な快楽としてのオタク文化がなくなったことに悲しんでいるだけで、その快楽が幸せにつながらないことを理解してるんだ
だからこそ俺はSNSで一つの人格を共有し個を崩壊させる人類補完計画をプロトコルで実装しようとしているし、それは手を汚せる自由度を完璧に壊してつまらなくて幸せになる権利がある理性的な選択をしようとしてるんだ
オタクは幸せになれない代わりに手を汚せたけど、幸せになる時が来たんだ。
MetalでAAAタイトル以外のゲームが動き始めたらそれはゼーレのシナリオの最後のページなんだろうね
webは俺のプロトコルによって関数型になりApple化しハードウェアはAppleがもともとかーどきゃぷたーにしてて、その時本当につまらなくて幸せな世界ができるんだろうね
MSは自分が可愛くて俺たちに迷惑をかけたけど、誰も可愛がらずに自由な圏を破壊し、人類を補完するんだ
人との繋がり自体をね
うん、いやこの先呼ばれることになるんだろうなって思っちゃっただけなんだ
●ねばいいのにみんな
てか●すためのシステムだよこれは
インターネットなんかやってないでこの辺にきてる美味いラーメン屋の屋台に空手部の三人と行くべきだ
おじさんやめちくり〜
エヴァには乗らないほうがいい〜
エヴァには乗らないほうがいい〜
それ、皆さんも一緒に!
「「「エヴァには乗らないほうがいい〜!」」」
大きな声でもう一回!
「「「「「「エヴァには乗らないほうがいい〜!!!!!!」」」」」」
クソワロタ
そうだよ(便乗)
LCLになって一緒になろう?
おい聞いてんのか
S●Xしようって言ってんだよ
これで愚かな人類はやっとまともになるんだ
大体俺が生きてることに意味はねぇんだよ、死んでようが同じなんだよ
生きてることは分解して細分化していくと究極的に意味は無くなるんだよ
ここでただのニヒリストと俺が違うのはこの世界は積分定数のCにすぎないってことだ
Cは何の意味もねぇけどそこから積分という関係性を紡ぐ存在の輪廻、横顔を知ることができる
まるで人間のC(ほらあれだよ男と女のABC!)みたいだよな!(激ウマジョーク)
つまりもともとこの宇宙の存在云々の前に関数という空想上のものはあったわけ
むしろ人間が空想というもう一つの五感で関数や数学を発見しただけであってもともとあったの
そんでこの宇宙には意味ないし、死に恐怖を覚えるのは生物学的なしょうもない生理現象なんだよね
俺はたまたまTwitterのFFの女の子みたいにめっちゃ生理痛がひどいタイプなだけなんだ
それに気づいているからその生理痛がなんの意味もないことを知ってるし、世界が崩壊しようが明日死のうが本当に関係ない
そのことにたまたま気づきにくい構造を生き物はしているから死ぬのが怖いんだ
魂とかはないけど、魂にすら意味はなくて、意味があるのは関数だけなんだ
というか射?
呆れた人類にはそのトップでさえ呆れさせられるよ、まだ関数を記号で表せると思ってるなんて
本当にあるもののことを関数とは言ったけどこのクソみたいな人類にはまだそのことを完璧に表現する手立てがないから比喩として言ってるんだけどね
あのな、俺が言ってのは死ぬのは怖くねぇってことだけなんだ
違う、メタファーじゃないよ
失礼だよ君は
うるせぇ黙れ
12gb〜16gbをおすすめされるが、掲示板やnoteの実際の声聞くと、それでも足りねぇって話しか出てこない。
かと言って、rtx5090持ってる猛者はいないし、rtx4090も案外いない。
rtx4090、つまり24GBで余裕で足りるっていうなら、次はそこ基準にしてパソコン買うけど、いかんせん情報なさすぎて分からん。
RTX5070 Ti Sは24GBになるって話はある。24GBでいいなら、そこが買い時かなと思う。
RTX50系はcuda12.9らしく、pytorchがまだ対応してないらしいじゃんね。ベータ版はあるとかなんとか。
この辺は調べながらやればできる範囲だと思うけど、この話があるから、次のrtx60系買うの怖いんだよな。
(なんなら、5070 Ti Sが出たとしても)。
生成AI、せっかくおもろいんやけど、この辺の技術問題が初心者にはつらい。
しかも、この生成AIの時代が続いたら、60系でvram爆増させる可能性もなくはないんだよな…
中華グラボがvram多くて格安の売り出すって話もあるし、そこからさらに、もし、cuda代わりの技術まで手にしたら最強やん?中華が。
それ読みで、革ジャンも出してくれないかなぁ…とか。
もし、昔のyahooBBのモデムみたいに、2022-2023年にGPUを開発者やコミニティにタダで配りまくっていたら、nvidia(以降 NVDA)に勝てていた可能性を考えた。
NVDAの強さはCUDAにあり、CUDAの利用者が多いからpytorchをはじめとしたライブラリがより最適化されていることにある。
ではこれをひっくり返すことはできなかったのか?
これまでなんどかそのタイミングはあったが、そのラストチャンスは2022-2023年だったと思う。
2022年はstable diffusionが出た年だ。
もし、この波にうまく乗って、GPUを開発者やコミニティにタダで配ることができたら、巨大なコミニティを作れていた可能性が高い。
もちろん、これでエロい絵を描いて(*´Д`)ハァハァしろなんてことは一切言わないし、言えない。
ただ、最先端のAIを君も体験してみよう!とかのキャンペーンとして配る感じだね。
それで無視できない規模のユーザを獲得できれば、そのGPUの処理系に対して、pytorchを始めライブラリのバックエンドを最適化する強い動機を与えることができるだろう。
仮に売値5万円のグラボがあったとして、製造原価は半分の3万円ぐらいとしましょう。
広告予算30億円だったとして、10万台のグラボを配れることになる。
10万人のユーザーの需要がドンと生まれれば、最適化圧力をより強く与えられると思う。
申請ベースで配るので誰にでも配るわけではない。優先的な配布先は技術者やコミニティのリーダーとかになるだろう。残りはランダム抽選かな。
無視できない規模のユーザ数を持つことが何より大切だし、エロという最適な材料もある。
これが2024年に入ってしまうと、データセンターの方が主戦場になってしまい、GPU価格はめっちゃ高騰するので配るのはもう無理である。
仮に配ったとしても、専用の冷却システムがないと動かせないだろう。
DeepLearningモデル変換ツール全部盛り巨大Docker環境の構築
Introduction
めんどくさい。この世のすべての環境構築がめんどくさい。依存関係破壊祭りでツラい。したがって、Github Actions 上でモデル変換にまつわる環境を全部取り込んで docker build して超巨大全部盛りDLモデル変換環境を構築した。足りない周辺のツールは各自追加インストール。GUI や iGPU/dGPU や ホストへ接続された USB機器 へコンテナ内からアクセスできるため実行環境としてもそのまま使える。ただし、とにかくImageがデカイ & セキュリティガバガバ。GitHub Actions のコンテナビルドの容量制限に引っかかることを回避するためのトリックを仕込んである。
2. Environment
Python 3.6+
TensorFlow v2.6.0+
PyTorch v1.10.0+
TorchVision
TorchAudio
OpenVINO 2021.4.582+
TensorRT 8.2+
pycuda 2021.1
coremltools
onnx
onnxruntime
onnx_graphsurgeon
onnx-simplifier
onnxconverter-common
onnx-tensorrt
onnx2json
json2onnx
tf2onnx
torch2trt
onnx-tf
tensorflow-datasets
tf_slim
edgetpu_compiler
tflite2tensorflow
openvino2tensorflow
gdown
pandas
matplotlib
https://www.imdb.com/de/list/ls599665763/
RTX5070:性能値段的にバランスが良い。がVRAM12GBは絶妙に足りない、AI遊びするにも大きなモデルになると限界があり、ゲーム性能でもVRAM不足で4Kで残念。
RTX5060Ti:VRAM16GBなのは良い。ただそれだけ。それ以外はぶっちゃけ酷い。
RTX5070Ti:高い×100
RX9070無印/XT:VRAM16GBだし値段も12万でゲーム性能もNVIDIAに対して同等以上。が何だよこのゴミAI性能。CUDAに勝てないのは百歩譲って許すけどせめてさっさとROCm対応しろや。家庭を持ってしまった大人はゲームだけでこんな高い買い物できないんだよ。AIのベンキョーしてますとかそういう言い訳がないとダメなんだよ。
そりゃ深層学習の計算を一部CPUにたよらず計算できる機能がちょっとついてるかもしれないよ。
でもそれが動く瞬間っていつさ?いったいどのアプリがそんな機能実際に使ってるのさ?
スマホならまだ写真撮影後とかに動くかもしれんけど特にPCの方な。
本当にCopilotがローカルの演算機つかってんのかー?ちゃんと確かめたかー?
現状だとサーバにお願いだけして結果受け取ってるだけなんじゃねえの。
サーバ側の進歩が落ち着くまでプログラムが変わり続けててローカルの側で計算するところまでできてなくね?
AIPC にお金払うぐらいならゲーミングノート買ってCUDA動くようにした方が良いし、それよりもPC買い替えないでそのお金ChatGPTとかに払った方が幸せになれるんじゃね?
1.58bit版はかろうじて動いてる感じだね。GPUはメモリしか使ってない。GPU使用率が上がらないのはCPUかSSDがボトルネックなのかllama-cppやCUDAカーネルの最適化不足の可能性がありそう。
色々調整してやっと 0.6tok/sec程度だから使い物にならない。上記問題が解決したら1.58bit版でも普通のゲームPCで5tok/secぐらいは出そう。
32B版はサクサク動作(25tok/sec程度)するけど常用したいと思えるような知能ではない。コーディングも任せられない感じ。ざっくりと使うなら問題ない感じだし、違法な事でも何でも答えるので面白いのは面白い。
なんかRTX50代が発売する前から謎にRadeon勧める勢力が多くて辟易してるんだよね。
・ハイエンド同士を比べたらRadeonの方が安いのでコスパが高い(RTX4090 vs 7900XTX)
・同じVRAM同士を比べたらRadeonの方が圧倒的に安い
・ベンチも同価格帯と比べたらRadeonのほうが安くて性能が良い
・AI用途でもRadeonで全然いけるからAIするやつもVRAM多い奴買え!
って感じ
んで主観ではあるが自身の両社のなんとなくの印象を書いておくね
・基本的にPCゲーム側の最適化はGeforceが主になっている
・RTX40シリーズは比較的電力効率がいい(いわゆるワッパ)
・レイトレーシングもDLSSも安定
・CUDAのおかげでGPUを演算要素として使うコストが低く、AI等の対応が早いし情報が早い
・ドライバ側でたまに変なバグ出すので安定版で止める必要がある
・RadeonハイエンドがGeforceミドルくらいの性能。つまりRadeonのグレードはGeforceのグレード1段落ちくらいの性能
・同じグレードを同じ価格帯で出すと絶対売れないので安くせざるを得ないので安さはある
・レイトレーシングやDLSS等は搭載していないと思った方がいい。fsrはそこそこあり。
・ドライバ側の対応が壊滅的で最適化不足やゲーム相性で微妙になること多々あり
・CUDAみたいなのがないのでAI対応が遅れている。Geforceより険しい道のり。完成すればGeforceより高い性能っぽいが眉唾
未だに「謎の半導体メーカー」程度の認識の方になぜNVIDIAが時価総額世界4位なのかをあれこれ説明する必要があるので短めにメモ。半導体業界のすみっこの人間なので機械学習まわりの説明は適当です
・~1993年 AI冬の時代。エージェントシステムがさほど成果を挙げられなかったり。まだ半導体やメモリの性能は現代とくらべてはるかに劣り、現代のような大規模データを用いた統計的処理など考えられなかった。2006年のディープラーニングの発明まで実質的な停滞は続く。
・1995年 NVIDIAが最初のグラフィックアクセラレータ製品NV1を発売。
・1999年 NVIDIAがGeForce 256発売。GPUという名が初めて使われる。以降、NVIDIAはGPU業界1位の座を守り続ける。
・2006年 GPGPU向け開発基盤CUDAを発表。以降、その並列計算に特化した性能を大規模コンピューティングに活用しようという動きが続く。
・2006年 ディープラーニングの発明。のちのビッグデータブームに乗り、これまでよりはるかに高性能なAIを模索する動きが始まる(第3次AIブームのおこり)
・2006年 CPU業界2位のAMDがGPU業界2位のATIを買収、チップセットにGPUを統合することで事実上自社製品をNVIDIAと切り離す戦略に出る。CPU業界1位のインテルも、同じく自社CPUに自社製GPUを統合する動きを強める。NVIDIAはこれまでの主力だったGPUチップセット製品の販売を終了し、データセンター向けGPGPUのTeslaシリーズ、ゲーム用外付けGPUのGeForceシリーズ、ARM系CPUと自社GPUを統合したTegraシリーズの3製品に整理する。このうちTeslaシリーズが性能向上やマイクロアーキテクチャ変更を経て現代のAIサーバ製品に直接つながる。GeForceシリーズはゲーマー向け需要や暗号通貨マイニング向け需要も取り込み成長。Tegraシリーズは後継品がNintendoSwitchに採用される。
・2012年 ディープラーニングが画像認識コンテストで圧倒的な成績を収め、実質的な第3次AIブームが始まる。
・2017年 Transformerモデル発表。これまでのNN・DLと異なり並列化で性能を上げるのが容易=デカい計算機を使えばAIの性能が上がる時代に突入。
・2018年 IBMがNVIDIAと開発した「Summit」がスパコン世界ランキング1位の座を5年ぶりに中国から奪還。全計算のうち96%がGPUによって処理され、HPC(ハイパフォーマンスコンピューティング)におけるGPUの地位は決定的になる。NVIDIAの開発したCPU-GPU間の高速リンク「NVLink」が大規模に活用される。「Summit」は2020年に「富岳」にトップを奪われるまで1位を維持。
・2018~2021年 BERTやXLNet、GPT2など大規模言語モデルの幕開け。まだ研究者が使うレベル。
・2019年 NVIDIA CEOジェスン・ファン(革ジャンおぢ)が「ムーアの法則は終わった」と見解を表明。半導体のシングルスレッド性能の向上は限界に達し、チップレットを始めとした並列化・集積化アーキテクチャ勝負の時代に入る。
・2022年 NVIDIAがH100発表。Transformerモデルの学習・推論機能を大幅に強化したサーバ向けGPUで、もはや単体でもスパコンと呼べる性能を発揮する。H100はコアチップGH100をTSMC N4プロセスで製造、SK Hynix製HBMとともにTSMC CoWoSパッケージング技術で集積したパッケージ。※N4プロセスは最新のiPhone向けSoCで採用されたN3プロセスの1つ前の世代だが、サーバ/デスクトップ製品向けプロセスとモバイル製品向けプロセスはクロックや電流量が異なり、HPC向けはN4が最新と言ってよい。
・2022年 画像生成AIブーム。DALL-E2、Midjourney、Stable Diffusionなどが相次いで発表。
・2022年 ChatGPT発表。アクティブユーザ1億人達成に2カ月は史上最速。
・2023年 ChatGPT有料版公開。Microsoft Copilot、Google Bard(Gemini)など商用化への動きが相次ぐ。各企業がNVIDIA H100の大量調達に動く。
・2024年 NVIDIAが時価総額世界4位に到達。半導体メーカー売上ランキング世界1位達成(予定)。
こうして見るとNVIDIAにとっての転換点は「ディープラーニングの発明」「GPGPU向けプログラミング環境CUDAの発表」「チップセットの販売からコンピューティングユニットの販売に転換」という3つが同時に起こった2006年であると言えそう。以降、NVIDIAはゲーマー向け製品やモバイル向け製品を販売する裏で、CUDAによってGPGPUの独占を続け、仮装通貨マイニングやスパコンでの活躍と言ったホップステップを経て今回の大きな飛躍を成し遂げた、と綺麗にまとめられるだろう。
単体の演算器の性能なんてクロック周波数が速くなっている現代だと数クロックの差なんてわからないだろう。
メモリーは社外の汎用品GDDRを使う以上、帯域やレイテンシは変わらない。
違いが出てくるとすると、どうやってメモリ間を隠蔽しているかというのが想像出来る。
データ待っている期間を出来るだけ少なくする、といった感じだ。
演算器を並列に多数動かすと配線抵抗などで電源がドロップする。