「線型写像」を含む日記 RSS

はてなキーワード: 線型写像とは

2025-11-16

抽象数学とか量子力学とか

まず量子力学の基礎的存在論は次である

現実とは、ヒルベルト空間上のベクトルである

ただし以下では、ヒルベルト空間物理空間と見なす素朴な解釈禁止し、より高次の数学構造として扱う。

1. 対象Object)としての量子系

ヒルベルト空間母体とする対称モノイダル圏の対象

量子系は、次の要素を持つ抽象構造として定義される。

この時点で、量子系は 単なる線形代数ではなく、圏としての性質が主役になる。

特に

これが後に分離できない系(エンタングルメント)の直接的原因になる。

2. 状態State)の抽象

自己同型の可換性が制限された線型汎関数

状態は通常ベクトルで表すが、それは低階の記述である

抽象化すると状態とは、

まり状態とは作用素代数構造部分的に保持しつつ、全情報は保持できない制約付き汎関数であり、これが測定前の状態という概念数学本体になる。

3. 観測(Measurement)

部分代数への射影としての冪等射

観測は波束収縮ではなく、全体の作用素代数から可換部分代数への冪等射(自己合成しても変わらない射)として定義される。

これは「観測値が一意に定まらない」ことを全代数を可換部分代数強制射影すると情報が失われるという構造事実として表現しただけである

観測問題は射影が可逆でないことから生じる。

4. 干渉

可換部分代数選択によって生成される前層の非整合性

量子干渉とは、状態に対して複数の可換部分代数存在する。それぞれの部分代数制限したとき汎関数整合的でない。この整合性の欠如が「干渉」と呼ばれる現象になる

まり干渉は可換部分代数の選び方が複数あり、それらが同時に満たす一つのグローバル汎関数存在しないという前層(presheaf)の非可約性の問題である

5. エンタングルメント

テンソル積分可能性の欠如(分離関手の不完全性)

系 A と B の複合系が与えられるとき、通常はテンソル積によって分離できるはずだが、量子系では一般に失敗する。

その理由状態汎関数テンソル空間上で積状に分解する自然変換を持たない、単純な部分空間直積から構成される位相構造存在しない、分離関手が圏の構造を保存しないから。

したがってエンタングルメントとはテンソル空間構造が、2つの部分系の圏論的生成子に分解できないことに過ぎない。

6. 時間発展

作用素代数自己同型半群(逆写像非対称)

抽象化すると、時間発展は全作用素代数自己同型の族、ただし逆が常に存在するとは限らないため、一般には半群観測が入ると逆方向の自己同型が消滅する。これが「不可逆性」の正体である

まり時間とは、自己同型の完全群構造が壊れ、半群に退化した結果発生するパラメータにすぎない。

7. 量子力学全体像

量子力学は、以下の高次構造組合せで理解できる。

以上をまとめれば、量子力学とは現実ヒルベルト空間上のベクトルを出発点とし、作用素代数圏論によって統合的に記述される、非可換性を本質とする抽象数学の体系である

2025-11-01

国産LLMの人」が成功できますように

一般的国産LLM開発という主語ではございません.

私としては国産なり日本発のLLM開発を諦めてはならないし, その可能性は十分にあると信じています. 既に出ているものも多数ございますし.

エントリはそれとは全く別の,

国産LLMの人」という方についてです.

---------

色々思うところがありまして.

例えば,

微分は使いたくない」「XOR出来たから何とかなるやろ」

と繰り返し主張しておられる.

そのような単純な活性化関数では過学習か誤差が噴出するかの二択でしょう. 実際, 氏のツイートは正にその状態示唆しているように見受けられます.

```x

▶︎ 誤差が0.12あるだけでとんでもないエラー率になる。誤差関数が雑だから本当はもっとあるのかもしれないが、改善余地がある。

▶︎ 問題は、どのような状態の時に学習成功し、失敗するのかがまだ分かっていない。表現力は十分に持っているはずなのに、なぜか学習しない。

```

過学習に至ったときにうまくいってるように見えるだけでしょう.

と思うのですが, 反論過去にされていた.

```x

▶︎過学習ではないですね。データセットが小さいかつ、それ以外の範囲が出ないことが分かっているので。XORは2^2パターン全て学習できれば精度が100%になりますが、それは過学習とは呼ばないのと同じで、今回の初期のRNNに関しても文字数が圧倒的に少なく、パターンも決まっているので。

```

……と主張されておられる.

私が思うにそれは単純な写像を, ニューロンを使って回り道して作っている状態. LLMは局所的にはたしか線形写像ですが,全体で見ても線型写像だとしたらそれは複雑な文章生成には到底耐えられないかと. (十分に大きいモデルマクロに見ると非線形性があるので)

大規模言語モデル=LLMを目指すとして,

そもそもエンベディングテーブルとは数百億から下手すれば1兆語彙を, たった数千〜1万次元程度のベクトル表現する, 凄まじく繊細なテーブルです.

それをGELUやSwiGLUのような綺麗な活性化関数を使わずに, しか爆速でやると仰っている. さすがにそのレベル革新性を主張するには根拠がない限り, 飛躍が過ぎると判断されるかと.

そのやり方で, 例えば1億語彙までスケールするとして2乗の1京回×数千次元バックプロパゲーションなしで学習するというのは……さすがにきついかと.

バックプロパゲーションが要らないという主張については活性化関数がきわめて単純だから. それなら全層に渡しても「修正」できるでしょう.つまり自明に近いですね.

勾配消失なんて関係ない, という主張については, xorというゼロイチでしか見ないのであれば勾配消失も何もありません. 永遠に層を貫通するわけですから, 何層増やそうがほとんど意味が出てこない. つまりそれは実際には極めて浅い層だけで動いてると思われる.

「こんに」から「ち」「は」が次文予測できたとの報告ですが, まぁ……それが「大規模言語モデル=LLM」にそのままスケールできると言い切れるのはなぜでしょうか?

MNISTだけでなくGLUEあたりをパスしてからにした方がいいと考える次第です.

```x

▶︎ 私が批判されながら、誤差逆伝播に変わるアルゴリズムや精度を30%→100%まで持っていく頭のおかしい行動が取れる理由は、以下の思想があるから

▶︎ 1. 私のNNは高次元の万能近似回路

▶︎ 2. RNNだろうがCNNだろうが展開すれば可能

▶︎ 3. 何十回と失敗した経験則から、原因と対策殆どわかっている

```

殆どわかってる, との事ですが, なんで上手くいってるのか分かってないとも自分で明言なさっている. ↓↓↓

```x

▶︎ 学習が進まないの、謎。単体だと上手く動いてるはず?何が原因だろうか。

▶︎ 学習アルゴリズム開発者本人ですが、なぜ学習が進むのかは謎です。

```

既存手法があまたの失敗の上で最適だと言われてきてる経緯もよく知った方がよい.

それはごく初期にそういった様々な試行錯誤のうえで「やはりGELUやBP現実的にいい性能が出せるし, コストも抑えてこれである」と様々な研究者合意しているような状況.

そして, そもそもアカデミアは自分アイディアも含めて新規手法を常に疑ってかかるのが基本姿勢.

ジャーナルに「不確実さ」を載せないためで, それが積み重なると自他問わず全ての研究が信用出来なくなってしまうため. だから懐疑的になる. 個人攻撃ではないのです.

そして「危険すぎるから論文にできない」について.

さないのも自由ですが, 前述の理由で信頼を得られない. これは言動に一切関わらず, その厳密性をフラット評価してそう判断しているから. 感情ではなく, 論理として.

……と, ここまで色々と蛇足アドバイスをさせていただいたものの, この投稿に対しても

```x

▶︎ 何もわかってない人が国産LLMのやつ批判してて吹いたww

```

といったツイートをなさるのでしょう. (過去に氏がそう仰っていたので)

先に答えておきますね.

自分のやってることがご自分でお分かりにならないようなら, 私にわかるわけがないですし仰る通りです. ただ, 詳しい者として一般論は申し上げられます.」

まだ間に合いますので, 大学院あたりまで修了なさるのがおすすめです.

Twitterに何を投稿しようと自由です. でも自分違和感を見て見ないふりするのだけはやめたほうがよろしい. 既存手法と同等に自分手法を疑うこと, これは研究者としての基本姿勢です.

何故ここまでつらつら申し上げたかと言いますと,

研究テーマ設定を見かけるとついつい, より良い筋でやっていけるようアドバイスしたくなってしまう性が染み付いてしまっているためでして.

もちろん, 関わりのない方ですので蛇足しかないのですが, 多くの方に影響力をお持ちでありつつ研究の進め方については独自姿勢を持つように見受けられまして.

それはもちろん根本的には自由でありつつ, 相談相手需要がもしあればひとつの(一般的)意見をお渡しできるかなと思いキーボードを叩いた次第です.

どうか匿名でご勘弁を.

ぜひ成功できますよう. 圧倒的な成果をお祈りしております.

--------

追記

おそらく氏のやられていることは順伝播 (forward propagation) のみでの学習かと思いますが, この手法の先行研究は山のように存在します.

(Hebbian theory, Perceptron, Adaptive Linear Neuron:ADALIN, Widrow-Hoff learning rule...)

見つけられないとすれば, 古典的 (1960~1980年頃) ゆえに電子化されていないためです. 現行の商用LLMがそれらの情報簡単連想して引用できず, DR等で検索しても出てこないのはその為でしょう.

これらに簡単アクセスするためにはやはり学術機関所属して図書館を利用するのが圧倒的に楽です. マイクロフィルムや紙媒体しか残っていないものもありますから.

また, 有料データベースであるJSTOR, IEEE Xplore, Springer Linkなどにもアクセスが出来ます.

この観点から大学に足を運ばれることをお勧めします.

なお, arXivあくまプレプリントですので, 論文として引用するには査読を通過したものをつよく推奨します. ジャーナルもものによっては不十分な査読掲載されてしまますので, トップカンファレンスのものを信頼できる足がかりの論理として扱うのが基本的な考え方となります.

また, 「分からなければ (大量に貼った) 論文を読んでください」という姿勢は, それぞれをどう引用し, どのように自分の主張と論理的に接続するかの説明がなされなければ根拠として見なされないのが一般的な考え方です.

ブログとしての掲載はもちろん自由ですが, それらを十分な説明として取り扱ってもらうには至らないでしょう.

あくま一般論ですが,

論文引用するからにはそういった丁寧な取り扱いをすることを期待されるものです. 「敬意がない」と他の方から指摘されるのはおそらくそれが理由でしょう.

これは, 過去論文引用しながら新たな主張を論文として営々と積み上げ続けてきたアカデミアの「過去への感謝」という慣習です.

人の行動は自由ですから「こうしろ」とは申し上げませんが, この暗黙の了解を保持する (≈研究機関所属したことのある) 方から理解を得るのはこのままですときわめて難しいであろう, とアドバイスさせてください.

こういった主張のやり方を自分なりに一から身につけるのはたいへん難しいので, どなたかそういった手法を学べる信頼できる方に師事することをおすすめしている次第です.

2021-01-14

anond:20210114010704

写像微分という概念は、可微分多様体MとNの間の写像f:M->Nがあったとき、x∈Mにおける接空間T_xMからNの接空間T_f(x)Nへの線型写像df_x: T_xM -> T_f(x)Nとして定義される。

 
ログイン ユーザー登録
ようこそ ゲスト さん