はてなキーワード: Springerとは
私としては国産なり日本発のLLM開発を諦めてはならないし, その可能性は十分にあると信じています. 既に出ているものも多数ございますし.
本エントリはそれとは全く別の,
「国産LLMの人」という方についてです.
---------
色々思うところがありまして.
例えば,
と繰り返し主張しておられる.
そのような単純な活性化関数では過学習か誤差が噴出するかの二択でしょう. 実際, 氏のツイートは正にその状態を示唆しているように見受けられます.
```x
▶︎ 誤差が0.12あるだけでとんでもないエラー率になる。誤差関数が雑だから本当はもっとあるのかもしれないが、改善の余地がある。
▶︎ 問題は、どのような状態の時に学習が成功し、失敗するのかがまだ分かっていない。表現力は十分に持っているはずなのに、なぜか学習しない。
```
過学習に至ったときにうまくいってるように見えるだけでしょう.
```x
▶︎過学習ではないですね。データセットが小さいかつ、それ以外の範囲が出ないことが分かっているので。XORは2^2パターン全て学習できれば精度が100%になりますが、それは過学習とは呼ばないのと同じで、今回の初期のRNNに関しても文字数が圧倒的に少なく、パターンも決まっているので。
```
……と主張されておられる.
私が思うにそれは単純な写像を, ニューロンを使って回り道して作っている状態. LLMは局所的にはたしかに線形写像ですが,全体で見ても線型写像だとしたらそれは複雑な文章生成には到底耐えられないかと. (十分に大きいモデルをマクロに見ると非線形性があるので)
大規模言語モデル=LLMを目指すとして,
そもそもエンベディングテーブルとは数百億から下手すれば1兆語彙を, たった数千〜1万次元程度のベクトルで表現する, 凄まじく繊細なテーブルです.
それをGELUやSwiGLUのような綺麗な活性化関数を使わずに, しかも爆速でやると仰っている. さすがにそのレベルの革新性を主張するには根拠がない限り, 飛躍が過ぎると判断されるかと.
そのやり方で, 例えば1億語彙までスケールするとして2乗の1京回×数千次元をバックプロパゲーションなしで学習するというのは……さすがにきついかと.
バックプロパゲーションが要らないという主張については活性化関数がきわめて単純だから. それなら全層に渡しても「修正」できるでしょう.つまり自明に近いですね.
勾配消失なんて関係ない, という主張については, xorというゼロイチでしか見ないのであれば勾配消失も何もありません. 永遠に層を貫通するわけですから, 何層増やそうがほとんど意味が出てこない. つまりそれは実際には極めて浅い層だけで動いてると思われる.
「こんに」から「ち」「は」が次文予測できたとの報告ですが, まぁ……それが「大規模言語モデル=LLM」にそのままスケールできると言い切れるのはなぜでしょうか?
MNISTだけでなくGLUEあたりをパスしてからにした方がいいと考える次第です.
```x
▶︎ 私が批判されながら、誤差逆伝播に変わるアルゴリズムや精度を30%→100%まで持っていく頭のおかしい行動が取れる理由は、以下の思想があるから。
▶︎ 1. 私のNNは高次元の万能近似回路
▶︎ 3. 何十回と失敗した経験則から、原因と対策が殆どわかっている
```
殆どわかってる, との事ですが, なんで上手くいってるのか分かってないとも自分で明言なさっている. ↓↓↓
```x
▶︎ 学習が進まないの、謎。単体だと上手く動いてるはず?何が原因だろうか。
▶︎ 学習アルゴリズム開発者本人ですが、なぜ学習が進むのかは謎です。
```
既存手法があまたの失敗の上で最適だと言われてきてる経緯もよく知った方がよい.
それはごく初期にそういった様々な試行錯誤のうえで「やはりGELUやBPが現実的にいい性能が出せるし, コストも抑えてこれである」と様々な研究者が合意しているような状況.
そして, そもそもアカデミアは自分のアイディアも含めて新規手法を常に疑ってかかるのが基本姿勢.
ジャーナルに「不確実さ」を載せないためで, それが積み重なると自他問わず全ての研究が信用出来なくなってしまうため. だから懐疑的になる. 個人攻撃ではないのです.
出さないのも自由ですが, 前述の理由で信頼を得られない. これは言動に一切関わらず, その厳密性をフラットに評価してそう判断しているから. 感情ではなく, 論理として.
……と, ここまで色々と蛇足なアドバイスをさせていただいたものの, この投稿に対しても
```x
▶︎ 何もわかってない人が国産LLMのやつ批判してて吹いたww
```
といったツイートをなさるのでしょう. (過去に氏がそう仰っていたので)
先に答えておきますね.
「自分のやってることがご自分でお分かりにならないようなら, 私にわかるわけがないですし仰る通りです. ただ, 詳しい者として一般論は申し上げられます.」
まだ間に合いますので, 大学院あたりまで修了なさるのがおすすめです.
Twitterに何を投稿しようと自由です. でも自分で違和感を見て見ないふりするのだけはやめたほうがよろしい. 既存手法と同等に自分の手法を疑うこと, これは研究者としての基本姿勢です.
研究テーマ設定を見かけるとついつい, より良い筋でやっていけるようアドバイスしたくなってしまう性が染み付いてしまっているためでして.
もちろん, 関わりのない方ですので蛇足でしかないのですが, 多くの方に影響力をお持ちでありつつ研究の進め方については独自の姿勢を持つように見受けられまして.
それはもちろん根本的には自由でありつつ, 相談相手の需要がもしあればひとつの(一般的)意見をお渡しできるかなと思いキーボードを叩いた次第です.
どうか匿名でご勘弁を.
--------
【追記】
おそらく氏のやられていることは順伝播 (forward propagation) のみでの学習かと思いますが, この手法の先行研究は山のように存在します.
(Hebbian theory, Perceptron, Adaptive Linear Neuron:ADALIN, Widrow-Hoff learning rule...)
見つけられないとすれば, 古典的 (1960~1980年頃) ゆえに電子化されていないためです. 現行の商用LLMがそれらの情報を簡単に連想して引用できず, DR等で検索しても出てこないのはその為でしょう.
これらに簡単にアクセスするためにはやはり学術機関に所属して図書館を利用するのが圧倒的に楽です. マイクロフィルムや紙媒体でしか残っていないものもありますから.
また, 有料データベースであるJSTOR, IEEE Xplore, Springer Linkなどにもアクセスが出来ます.
なお, arXivはあくまでプレプリントですので, 論文として引用するには査読を通過したものをつよく推奨します. ジャーナルもものによっては不十分な査読で掲載されてしまいますので, トップカンファレンスのものを信頼できる足がかりの論理として扱うのが基本的な考え方となります.
また, 「分からなければ (大量に貼った) 論文を読んでください」という姿勢は, それぞれをどう引用し, どのように自分の主張と論理的に接続するかの説明がなされなければ根拠として見なされないのが一般的な考え方です.
ブログとしての掲載はもちろん自由ですが, それらを十分な説明として取り扱ってもらうには至らないでしょう.
論文を引用するからにはそういった丁寧な取り扱いをすることを期待されるものです. 「敬意がない」と他の方から指摘されるのはおそらくそれが理由でしょう.
これは, 過去の論文を引用しながら新たな主張を論文として営々と積み上げ続けてきたアカデミアの「過去への感謝」という慣習です.
人の行動は自由ですから「こうしろ」とは申し上げませんが, この暗黙の了解を保持する (≈研究機関に所属したことのある) 方からの理解を得るのはこのままですときわめて難しいであろう, とアドバイスさせてください.
こういった主張のやり方を自分なりに一から身につけるのはたいへん難しいので, どなたかそういった手法を学べる信頼できる方に師事することをおすすめしている次第です.
書籍の価値が下がる時代と言うが、アテンションエコノミーとかそういう話ではない
まずゴーストライター。これは何も知識のない書く能力だけの奴がググるなりしてテキトーなことを代筆するやつ
これは前から存在していたが、ひ○○きもホ○○○ンもおそらくはゴーストライターが書いている
んで、最近はAI生成が出現したから、人間のゴーストライターに頼むまでもなく、AI自体がゴーストライターの役目を果たすようになった
ってことは人間が持っている生き生きとした知見など、もはや書籍には存在しないということだ
もし書籍を買うなら、昔の哲学書の原典とかそういうものに価値が出るだろう
あるいはAMSやSpringerが出している数学書とかO'Reillyが出している技術書とかは客観知なのでまだ価値はある
いいか、まず落ち着いて自分の主張を読んでみろ。語尾に「wwwww」連発して自分に酔ってる暇があるなら、論理の基礎ぐらい学んでから出直してこい。
まず「Natureに名指しで不正大国とされた日本」とかいうのは、確かに2000年代からいくつかの不正事例が報告されたのは事実だ。
しかし、重要なのは「発覚」して「処分」され、「制度的に是正される」ことだ。日本では不正が見つかれば学会と省庁の調査が入り、処分が公開される。お前がそれを知ってる時点で、透明性が機能してる証拠だ。
対して中国はどうだ?国外ジャーナルに掲載された論文が大量撤回されても、国内では一切報道されず、関係者も表舞台から消えない。
2020年、SpringerとElsevierが中国の病院系研究機関から出た数百本のゴーストライティング論文を一括撤回した事件、覚えてないのか?
そもそも「不正が少ない国」じゃなくて「不正が表に出ない国」だろうが。国家が学術監督機関もメディアも押さえてる国の「不正がない」って言葉に信頼性なんか1ミリもない。
次に半導体。EUVを自国製造に成功?どこの情報だ?ASMLがEUV装置を唯一製造していて、その技術は日米蘭の厳格な輸出管理の対象。
中国が開発したとされるEUVは、せいぜい「プロトタイプレベルの試作段階」で、実際に量産ラインに投入可能な歩留まりや安定性を持っていない。
smicが先端プロセスにもう少しって、お前それ3年前から言ってるやつだろ。TSMCやSamsungが3nm世代の量産を始めてる今、もう少しと言ってる時点で追いついてないって意味なんだよ。
官民一体で猛追?だから何?追いつくことと追い越すことは別物だ。
しかも、その「官民一体」の実態は、国家補助金を受けた企業がコネと癒着で資金を浪費し、成果を水増し報告して処分される事例が多発してる。
中国の国家ファンド「大基金」が2023年に数十人規模で汚職摘発されたの、忘れたのか?
日本の足を引っ張り合う政治も問題だが、少なくともそれは表に出て議論できる。中国のように、情報統制と密室の中で腐敗が制度として温存されてる状況で「一体化」と言われても、それは独裁体制の別名に過ぎない。
月面着陸についても知識不足が露骨すぎて笑える。中国の「月の裏側への着陸」は確かに偉業だ。
ただし、その後のミッションの運用情報はほとんどが非公開、サンプルの国際共有も制限された。
対して日本のSLIMは、狙った10m四方のピンポイント着陸に人類で初めて成功した。これが「ただ落ちた」扱いされるのなら、お前の脳には重力制御の概念が入ってないんだろう。
しかも、国際協力の中で透明性高く技術成果を共有してる。この違いはデカい。
あと「他国に迷惑」って何が?どこにどんな国際的な迷惑をかけたのか、具体的に一例でも出してみろよ。出せないだろ。お前のはただの感情論だ。
それと最後に、論文引用数で語るなら、その前に基本統計を確認してこい。
中国の論文数が多いのは事実だ。しかし、引用数・被引用率の中央値で見ると、まだ西側主要国に比べて低い。
つまり、数は多くても質のある研究の比率は高くない。それに中国国内での自己引用や系列内引用が異常に多いことも知られてる。量の暴力は見かけ上の成績は上がるが、国際学術の中での本質的評価には直結しない。
あと最後に言っとくが、幸福度・生活満足度・消費力に直結する年収の中央値、中国は都市部でようやく月4〜5万円レベルだ。農村部を入れれば中央値はさらに下がる。
表面のGDPがどうであれ、国民一人ひとりの生活が全く豊かになっていないのが中国経済の実態なんだよ。
対して日本は賃金の伸び悩みはあるが、それでもインフラ、医療、社会保障込みでの可処分所得と生活の安定性は桁違い。量と見かけの数値だけを見て勝ちと判断するお前の思考が、何より知的に貧しい。
もう少しまともな根拠を出してから話そうな。知恵遅れ呼ばわりする前に、自分が何も理解してないってことを自覚しろ。それがスタートラインだ。
自分は情弱なので、GoogleやDuckDuckgoを使うくらいしかできない。
ヘルプに書かれている、「@(ソーシャルメディア名)」をつけて限定するとか、完全一致や除外はわかる。
例えば、コロナで非接触で体温を多くの人が測っているわけだが、
工学の実験をしていると、放射温度計を使うときは、黒体炉で測定して、測定したい物に黒体テープを張り付けないと上手く測れないなという実感があるが、
マスクをして、眼鏡をかけて、額は髪の毛で覆われていても測定できているので不思議に思っている。
もちろん人を測定したいだけなので、バラツキや相関から決めればいいのだろうが、こういう定義でやってるのが出てこない。
他の例だと、音声を処理するアルゴリズムについて一覧を探したいとする。
だが大抵出てくるのは一覧ではなく、一部のアルゴリズムについてだけだ。
結局、Springer Handbook of Speech Processingという書籍に書かれているというのが一番詳しく、
この書籍が出版された2007年以降のアルゴリズムについては部分的にしかわからなかった。
検索でヒットしない場合は、本当にないのか、検索ワードが悪いのか、自分で判断しないといけないわけだが、
母集団を知っているわけではないし、定期的に大規模調査をしてズレがないか確認するといったこともできない。
新しい検索サイトが出たとか、ヘルプに書かれているような検索方法は、ブログなどで紹介されるわけだが、
日本人は死んだ。日本に希望はない。あれだけ山本太郎が走り回った京都市長選。が6割の有権者が棄権!京都は他地域より段違いに革新の強い地域なのだ。それでも6割が民主主義を捨て奴隷状態に甘んじたかった。これは京都のみの問題にあらず。日本人はウジ虫が這いまわる安倍腐敗国家で満足なのだ。🤖🥶— 澤田愛子 (@aiko33151709) 2020年2月2日
澤田愛子
@aiko33151709
大学定年退職後フリーの研究者。欧州ESPMH会員。安倍政権に危機感を抱き2015年末よりツイッターを始めました。『夜の記憶』(創元社)の著者、Encyclopedia of Global Bioethics (Springer,2015) 他の執筆者。悪意で攻撃してくる場合対応はしません。酷い時は名誉棄損で訴えます。
彼らの独占の仕方の前では、ウォルマートさえ街角の個人商店にすぎず、
そのような候補者は限りなくあるだろうが、
科学や最先端研究を理解することが望ましいということには、誰もが賛意を惜しまない。
最新の知識を欠いては安定した民主的決定は不可能だ。
タイムズ紙やサンデー・タイムズ紙をアクセスするのに24時間あたり1ドルという、
マードック流の購読システムには飽き飽きしている人も多いだろう。
しかし、少なくともその期間内はいくつでも記事を読めるし、ダウンロードしておくこともできる。
エルゼビアの出版する学術雑誌では、1つの論文を読むのに31.50ドルかかる(原注1)。
シュプリンガーは34.95ユーロ(原注2)。ワイリー・ブラックウェルは42ドルだ(原注3)。
1981年に出版されたレターを読みたければ、やはり31.50ドルだ(原注4)。
もちろん、(まだそれがあるとして)図書館で読むという選択肢もあるが、
図書館も多額の購読料に苦しめられている。
化学分野の学術雑誌の場合、年間購読料は平均して3792ドルだ(原注5)。
私が見た範囲ではエルゼビアの Biochimica et Biophysica Acta の2万930ドル(原注6)が最高額だ。
大学図書館は購読を打ちきることで帳尻を合わせようとしているが、雑誌購読費は予算の65%を占めている(原注7)。
そのつけは学生に跳ね返ってくる。
一方、学術出版社は論文と論文の査読と編集作業の大半とをタダで手に入れている。
コンテンツの製作に当たって支払いをするのは出版社自身ではなく、
そしてそれを読むために、私たちはもう一度支払うのである。
上がりは天文学的だ。
前会計年度のエルゼビアの経常利益率営業利益率は 36% (20億ポンドの収入中7億2400万ポンド)(原注
8)。
エルゼビア、シュプリンガー、ワイリーはそれぞれ競合企業を買収した結果、
研究者は最新の情報に追いつくためそれを読まなければならない。
多くの場合、出版者はたくさんの学術雑誌をパッケージとしてまとめて購読するよう、図書館に強制している。
この国の人々を食い物にした極悪人の一人、
ロバート・マクスウェルが学術出版でその財の大半をなしたことは驚くに当たらない。
製作と配布の費用をまかなうためにこれらの購読料を課さざるをえない、と出版社は主張する。
また(シュプリンガーの言葉では)「雑誌のブランドを築き、学術情報流通を電子的基盤で支援する」という付加価値を提供もしているという(原注10)。
「出版社が出版プロセスに与える付加価値は相対的にはほとんどないと考えられる。
もし出版社の反論するように出版プロセスがそれほど複雑で高コストだとすれば、40%の利益率は不可能だ」(原注11)。
大出版社は、投稿から出版までに1年以上の長いプロセスをかけることによって、
研究を伝播させるどころか研究を隠してしまっている(原注12)。
ここに見られるのは、公共の資源を独占し不当な価格を課す、純粋なレンティエ資本主義である。
その製作に当たって自分たちがすでに支払っている知識を得たければ、
これが学術界に対して害をなすのはもちろんだが、
世俗に対してはさらにひどいことになっている。
私は主張をするときは根拠となる原典をたどれるようにしておくべき、
だがその主張を私が公正に要約しているかどうか、読者が検証しようと思っても、
その費用を支払えるとは限らない。
数千ポンドを支払わなければならない(原注12)。
「全ての人は自由に……科学の進展とその恩恵を享受する権利を有する」とする世界人権宣言に抵触する恐れすらある(原注13)。
Public Library of Science (PLoS) や物理の arxiv.org などの優れた事例もあるとはいえ、
オープンアクセス出版は独占資本家を駆逐するには至らなかった。
「利益率40%の時代はまもなくロバート・マクスウェルと同様に終わりを迎えるかもしれない」と予言した(原注14)。
しかし2010年のエルゼビアの利益率は1998年と変わらず36%のままだった(原注15)。
その理由は、大出版社がインパクトファクター上位に来る学術雑誌を手中にしているからだ。
こうした雑誌で出版することは、研究者にとって、研究費を獲得しキャリアを積むためにかかせない(原注16)。
とっかかりとしてオープンアクセスジャーナルを読むことはできるが、
クローズドな方もけっきょくは読まなければならない。
少数の例外を除いて、各国政府は彼らと対決することができていない。
米国 National Institutes of Health は、自らの研究費を獲得した研究者がオープンアクセスのアーカイブに論文を置くように求めている(原注17)が、
英国の Research Council の公共アクセスについての宣言は無意味の極致である。
それは「出版社が現在のポリシーの精神を維持しつづけるという仮定」に基づいている(原注18)。
政府の研究費に基づいて製作される論文がすべて無料の公共データベースにおかれるよう強制すべきだ(原注19)。
また長期的には、政府は研究者と協調して中間搾取者を追い出し、
ビョルン・ブレンブスの提案に沿い、学術論文とデータの世界単一アーカイブを作る取り組みを進めるべきだ(原注20)。
いまは略奪を受けている図書館の支出でそれを運営することもできるだろう。
George Monbiot
http://www.monbiot.com/2011/08/29/the-lairds-of-learning/