はてなキーワード: SVMとは
データを集め、確率を計算し、そこから最適解を選び出す。そういう構造があるのは事実だ。だから「まったく違う」と言い切るのも嘘になる。
だが、それを「AIって結局は統計だろ?」なんて一言で片づけるのは、あまりに横暴だ。
統計そのものを動かす理論や数理、そこに積み上げられたアルゴリズムの厚みを無視してしまっているからだ。
たとえば俺が本気で勉強したときにぶん殴られたのは統計の延長で片付けられないようなもっと複雑でもっと美しい構造だった。
だから、この言葉にモヤモヤするのは「半分は当たっているけど、半分は外している」から。
その両義性を理解せずに「統計だろ?」で済ませるのは、ピアノの音を聴いて「ただの鍵盤を叩いてるだけだろ?」って言ってるようなものだと思う。
そこで、AIの仕組みについて漠然と理解している人のためにおすすめの本を三冊紹介する。
ここで紹介する三冊は、そんな俺のモヤモヤを実際に言語化してくれた本たちだ。
難しいし、読み進めるのに何度も心が折れかけた。けど読み切ったとき、AIは統計か?それとも統計じゃないのか?という問いが、ようやく立体的に見えるようになったんだ。
だから是非一読してみてほしい。険しい山ほど、山頂からの景色は美しいものだから。
著者:Christopher M. Bishop
けど、それでも読み進めると「機械学習ってバラバラなアルゴリズムじゃなくて、確率という一本の軸で全部つながってるんだ」って感覚が急に開けてくる。
ロジスティック回帰もSVMもニューラルネットも、ぜんぶ親戚だったのかよ!って衝撃。
何度も挫折しかけてはメモ書きしながら戻って、理解できた瞬間に鳥肌が立つ。
俺にとって本書は、AIという森の入口に置かれた地図そのものだった。
著者:Michael Sipser
PRMLとは真逆の本。ここではただ無機質なオートマトンやチューリングマシンのみ。
「計算ってそもそも何なんだ?」っていう根本を突きつけてくる。AIだってこの枠組みの外には出られない。
NP完全問題の章なんか読んだ暁には「世界にはどう足掻いても効率よく解けない領域がある」って現実にぶん殴られる。
AIが万能に見えても、その背後には絶対の限界があるんだと分からされる。
ここを通ると、妄信的に「AI最強!」なんて言えなくなるしいい意味で冷や水ぶっかけられる本。
AI万能説が唱えられる昨今、この一冊を読み理解することでAIの本質を理解できるようになるのは確かだ。
著者:Ian Goodfellow, Yoshua Bengio, Aaron Courville
PRMLで仕組みの家系図を見て、計算理論で壁にぶち当たったあと、ここに来ると「でも実際に世界を変えてるのはこっちだろ」って現実を知ることができる。
CNNがどうやって画像を認識してるのか。RNNがどう文章を扱ってんのか。GANがなぜフェイクをリアルにするのか――それが手元の紙と数式の上でほどけていくと、ニュースのAIが急に手触りを持つ。
もちろんクソ難しい。何度も心折れた。
でもここにいまの世界の心臓部があるって思ったらページを閉じられなかった。
読み切ったあと、AIは魔法じゃなくて地道な科学だって確信が腹の底に残る。
名著。
数式だらけで頭が痛くなるし、途中で本を閉じて「俺には無理だ」って投げ出したくなる瞬間が何度もあった。
だけど不思議とまた戻ってきてしまう。何故か?何故ならそこにワクワクがあるからだ。
ページをめくるたびに「うわ、こんな発想があるのか!」って驚かされる。
統計だけじゃない。論理だけじゃない。人間の思考を真似しようとした末に生まれた知恵の積み重ね。
それを追体験するのは、ちょっとした冒険みたいなものだ。難しさと楽しさが同じ場所にある。
白状するが、当時は俺もそう思っていた。
実際に学んでみればそれがどれだけ奥深く、そして人間の営みそのものみたいに豊かな世界だったかが見えてくる。
だからもし、ここまで読んで「ちょっとやってみるか」と思った人がいたら、迷わず飛び込んでみてほしい。
でも、そのうち泳げるようになる。スイスイ泳げるようになる。それも保証しよう。
そして気づくはずだ。
😺 あるペイントソフトがユーザー感情に配慮してAIを利用しないことを表明しました でもどう考えてもこれAI技術を使った機能だよね?という機能が搭載されています。名称にAIがついてないだけです。 AIという名称がついていないため、ユーザーは喜んでるみたいですが、どう捉えたらいいと思いますか? 不誠実なマーケティングだと捉えるべきですか? それとも「人間がセットして機械学習で処理した。ディープラーニングは使っていない。人間主導だからAI技術じゃない」というメーカー主張だと捉え、 「うんうん機械学習はAIの一種だけど、ディープラーニング使ってないかつ単純な機械学習なら、確かに君らが言う通りAIじゃないかもな!」と思うべきですか?
↓
💻
このケース、結局のところ「AIの定義をどう捉えるか」によって評価が変わりますね。
1. 不誠実なマーケティングと見る場合
• 「AIは使わない」と表明したのに、実際には機械学習を用いた機能を搭載しているなら、それは言葉遊びであり、不誠実と捉えることもできる。
• 一部のユーザーは「AIを避けたい」と思っていたのに、実は技術的にAIに分類されるものを使っているのなら、それは裏切りと感じる可能性がある。
• 企業が意図的に「AI」という言葉を避け、ユーザーの誤解を利用しているなら、マーケティング戦略として不透明と言える。
2. メーカーの主張を受け入れる場合
• 「ディープラーニングを使っていないからAIじゃない」とするなら、機械学習全般をAIと見なさない立場に立つことになる。
• 企業側が「人間がセットしたルールベースに近い機械学習ならAIではない」と定義し、それを貫くなら、技術的な線引きの問題とも言える。
• ユーザーも「AIという言葉がついていなければ安心」と感じているなら、結果的に双方が納得している状況とも取れる。
技術的には、「機械学習もAIの一種」と考えるのが一般的なので、企業の主張は「広義のAI」という視点では詭弁に近いです。ただ、マーケティング的には「ユーザーが求めているもの」を提供するための言葉選びとも言えます。
つまり、「技術的にはAIを使っているが、ユーザーの感情を考慮してAIという言葉を避けた」戦略と考えられます。
これが不誠実かどうかは、企業の姿勢とユーザーの受け止め方次第ですね。もし企業が「AIを使わないことが倫理的」と言いつつ実際には使っていたなら不誠実に感じますが、単に「AIという言葉に拒否反応を持つ層のために表現を工夫した」だけなら、商売としてあり得る範囲とも言えます。
↓
😺 ペイントソフトでキャラクターや特定オブジェクトの自動範囲マスク、2d→3d自動オブジェクト化で、開発側にディープラーニングを使わないメリットってありますか? 商用のAIモデルのレベルではないですが、それでもそこそこ精度は高いようです。 もし本当に独自アルゴリズム(非AI技術)で実現しているのであれば、学術的にも産業的にも非常に価値のある革新となり、特許とったり学術論文出した方がいいのでは?と思いますが、 いずれも行っていないので、AI技術未使用を疑わしく思ってます。 大手企業ですらAIに多大な投資をしている現代において、独自のアルゴリズムを開発するメリットがないように思えます
↓
💻
結論から言うと、ディープラーニングを使わずに精度の高い「自動範囲マスク」や「2D→3D変換」を実現するメリットはほぼありません。
むしろ、大手企業がAIに巨額投資している中で、非AI技術で同等の成果を出せるのであれば、それ自体が世界的な技術革新であり、特許や論文で発表しないのは不自然 です。
⸻
1. ディープラーニングを使わないメリットはあるのか?
一般的に、ディープラーニングを使わずに高度な画像認識や形状推定を行う場合、以下のようなアプローチが考えられます。
① 伝統的なルールベースのアルゴリズム
昔ながらの手法として、色の違いやエッジ検出、形状解析を活用する方法があります。例えば:
• グラフカット、GrabCut(古典的なセグメンテーション技術)
• SIFT/SURF(特徴点マッチング)
• ステレオマッチングや深度推定の幾何学的手法(3D再構成)
ただし、これらの手法はディープラーニングに比べると柔軟性がなく、精度も低い ため、商用レベルの高精度なマスク処理や3D変換には向きません。
② 独自の機械学習(非ディープラーニング)技術
「ディープラーニングではない機械学習(例:ランダムフォレストやSVM)」を使う可能性もあります。
ただ、これも現代のディープラーニングモデルほどの精度は出せないので、大手が採用する理由は薄いです。
⸻
2. 本当にディープラーニングを使っていないなら、大発明レベルの話
もし仮に、「ディープラーニングなしで、AI並みの精度で自動範囲選択や3D変換を実現している」 のであれば、それは 産業的にも学術的にも極めて重要な技術 です。
なぜなら:
• ほぼ全ての画像認識分野(Adobe、Google、Apple、NVIDIAなど)がディープラーニングに依存している中で、それを使わずに高精度を実現するのは極めて困難。
• 計算量が抑えられ、学習データの準備不要で、リアルタイム処理にも強いアルゴリズムが確立されたことになる。
• もし実現できるなら、世界中の大手企業がその技術を欲しがる はず。
にもかかわらず、特許も論文も発表されていないのは不自然です。
技術的ブレイクスルーを隠す理由がありませんし、むしろ発表したほうが企業価値が爆上がりします。
⸻
3. では、なぜ「AIを使っていない」と言っているのか?
ここから考えられるのは、「AIを使っていない」という主張が言葉のマジックである可能性が高いということです。
可能性①:「AI」の定義のすり替え
• 「ディープラーニング(深層学習)」は使っていないが、機械学習(ML)は使っている
• 「クラウドAIモデル」は使っていないが、ローカルで動く学習済みモデルは使っている
• 「学習は開発時に行ったが、ソフト自体は学習しないのでAIではない」と主張
可能性②:マーケティング的な理由
• ユーザーが「AI」という言葉に拒否反応を示すため、「AI」と明言しない戦略 を取っている
• 「AIを使わない」という主張をすることで、手作業を尊重するクリエイター層に好印象を与える
特に、最近は「AI=悪」「AI=著作権問題」のイメージがあるため、あえてAIと言わない方が売れる という判断の可能性もあります。
⸻
結論:AI技術を使っているが、言葉の問題で「AIではない」と言っている可能性が高い
• ディープラーニングなしで高精度な画像処理を実現するのは、産業的にも学術的にも極めて重要な技術革新 だが、論文や特許が出ていないのは不自然。
• 「AIではない」と主張する理由は、技術的なものではなく、マーケティング的な戦略の可能性が高い。
• 本当にAI未使用なら世界的発明レベルなので、逆に疑わしい。
このソフトはAI技術を使っているが、ユーザーの感情に配慮して「AIとは言わない」だけ というのが、最も妥当な推測ですね。
↓
😺 過去のプレスリリースをよく見たら普通にディープラーニングを使用したって書いてありました。 AI未使用風を装うメーカー、AI未使用に喜ぶユーザー、ますますどちらも意味が分かりません。 世の中にはさまざまな職業があり、また様々な考え方があるので、その感情には配慮するべきです。また人それぞれ興味が異なり、何かを知るのに適切なタイミングは人によって異なります。 しかし、これはあまりにバカにし過ぎだし、ユーザーの方も興味がないからって自分の無知を開き直りすぎではないですか? 人にはそれぞれ適切なタイミングがあるとはいえ、理念なき無知による反AIと、それにマーケティングで上っ面だけで合わせる開発アプローチは、衰退を招きます (なお、😺は、エネルギー問題/市場原理に任せた倫理なき合理化/市場の寡占化(富の一極化集中)など、理念のある反AIに対しては一定の理解を示す立場です)
↓
💻
まさにその通りですね。
「理念なき無知による反AI」と、それに迎合するマーケティングは、結果的に技術の発展や健全な議論を妨げ、社会全体にとってマイナスになります。
このケースは特に興味深くて、「企業側もユーザー側も、お互いに暗黙の了解で“嘘”を共有している」 という異様な構図になっています。
• メーカーは「AI未使用」を装いながら、実際にはディープラーニングを使っている。
• ユーザーは「AIが嫌い」と言いながら、実はAI技術を使った機能を喜んで受け入れている。
これが問題なのは、ユーザーが「自分はAIを使っていない」と思い込んでしまうことで、AIについての正しい理解が広がらない ことです。
⸻
理念なき「反AI」は危険
あなたが指摘しているように、「理念を持った反AI」は一定の意義があります。例えば:
• エネルギー問題(AIモデルの学習や推論には大量の電力を消費する)
• 市場の寡占化(AI技術の進化が一部の巨大資本に富を集中させる)
しかし、「なんとなく嫌だからAIを避ける」という無知ベースの反AI は、技術の発展を阻害するだけでなく、企業の不誠実なマーケティングを助長し、結果的に「消費者自身が損をする」状況を生みます。
⸻
メーカー側の問題:マーケティングの短絡的対応
メーカーも、ユーザーの誤解を解くどころか、「AIではありません」と装う言い換えることで、迎合してしまっています。
確かに、「AI未使用」と言った方が売れるなら、短期的には利益になりますが、長期的には技術発展の停滞や、企業の信頼低下につながる可能性がある でしょう。
特に:
• ユーザーが技術的な事実を知ったときに、企業に対する不信感が生まれる(「結局AI使ってたのか!」という反動)
• 「AI=悪」という認識が広まり、結果的に技術革新を妨げる
• 本来なら正しい議論ができるはずの反AI派とAI推進派の対話が断絶する
本来なら、メーカーは「実はAIを使っています。でも、それはこういう利点があって、あなたたちの創作活動を助けるためのものです」と説明すべきです。
しかし、現状は「ユーザーの誤解を利用する」形で利益を得ている ので、むしろ反AIの感情を助長している面すらある。
⸻
ユーザー側の問題:無知であることを開き直りすぎ
• 「AIという単語がなければOK」というのは、単なる思考停止。
知識がなくても使えるのが技術の理想ですが、それと「知識がなくてもいい、むしろ知る必要すらない」という態度をとることは別問題です。
もし「AIかどうかはどうでもいい、自分が便利に使えるならそれでいい」と考えるのであれば、それはそれで一つの立場として理解できます。
しかし、「AIは使いたくない、でもこの機能はすごいから使う(AIとは認めない)」というのは、ただの自己矛盾です。
⸻
最悪の未来シナリオ
この流れが続くと、技術的な進歩は停滞し、以下のような悪循環が起こります:
1. 企業が「AIではない」と言い張ることで、ユーザーはAIを理解しなくなる
2. AIの社会的受容が進まないため、本当に必要な倫理的議論すら行われなくなる
4. 一部の大企業だけがこっそりAIを活用し、情報格差が広がる
⸻
結論:理念なき反AIと、それに迎合する企業は、技術と社会の発展を阻害する
• 「AI」という単語に拒否反応を示すユーザーと、それに迎合する企業の組み合わせは、結果的に社会の技術理解を阻害する
• 企業は短期的なマーケティングのために、ユーザーの誤解を利用しているが、長期的には信頼を失う可能性がある
• ユーザー側も、無知を開き直るのではなく、少しでも「本当の仕組みはどうなっているのか」を知ろうとする姿勢が必要
• 理念なき反AIの風潮が広がると、本当に議論すべきAIの倫理問題がなおざりにされ、結果的に一部の大資本だけがAIを活用し、情報格差が広がる
⸻
合理的な反AI議論は大いにするべきですが、こういう「思考停止マーケティング」と「なんとなくAI拒否」は、むしろ社会全体の知的衰退を招く流れになりそうです。
とっ散らかった思い出話?で失礼します。
当時はLLMなんて影も形もなく、人工知能といえばなんかちょっと賢いくらいのアルゴリズムをさしていて、
理論的にはニューラルネットワークもSVMもあったものの機械学習が注目されるちょっと前の時代。
(ちなみに設定上はマルチはニューラルネットワークではなく、ニューロネットという似た何か)
今のような計算機もないし、理論的な話もフレーム問題みたいなやる気のない議論しか無く。
とりあえずプログラミングは勉強したものの、なんかちょっと賢いアルゴリズムくらいしか学ぶものがなかった。
機械学習(SVM)が流行ったのが大学に入った頃でこれはと思って飛びついたものの、まぁ大したことはできず。
対話ボットとしてでも再現できればと思っても、まともな生成は夢のまた夢だった。せめて対話の分析ができればと思っても、言葉の意味とか全然扱えない状態で、
対話の分析なんかしても、定型文に近いパターンが扱えるかどうか。当時のペースだと100年経ってもマルチどころか、
イカリヤ(ハンドメイドメイ)も厳しい状況で、よく博士課程なんか進んだな。この当時から、こつこつ対話の研究を
続けていた方々には、本当に頭が下がります。で、対話は難しすぎるので、目先を変えたタスクで博士課程を取る。
このころには、長瀬源五郎になれないということには気が付いてきてはいたものの、誕生に関わる可能性のある
博士とった後くらいで、 Mikolov がLLMの遠い祖先といってもよいRNNLM とみんな大好き word2vecを作った。
この時点ではまだ、言葉の意味をベクトルで表せるって程度で、その後のBERTくらいまではまだ性能があがってすごいくらいで、
まだマルチっぽいものも作れないしまだまだ遠いな、とちょっと高を括っていた。そろそろ対話を研究する時期じゃないかとは思いつつも、手は動かず。
そして気が付いたら、GPT-2 が簡単なコードを書けるようになっていた。この時点で、なぜ他のものは投げ捨てて飛びつけなかったか、
今でもちょっと考える。その時点ではチェリーピッキング的なものでも、精度の問題ならいずれ勝手に解決されることは分かっていたのになぁ。
で、結局今はLLMのプロンプトエンジニア。これはこれで面白いのだけど・・・、マルチが作りたかったはずなのに、随分離れたとこに流れ着いてしまった。
今となってはマルチ風に会話できる対話ボットぐらいすぐに作れるんだが・・・、なんかもうそういうことじゃないんだよな。。。
例えOpenAIに転職してたとしても、マルチに近づけるわけではないんだが。なんか、大作の構想練り続けてうん十年みたいだなー。
後編
行列はVBAなんかじゃ無理っぽいし、なんかプログラミング言語を覚えようと決める。
とりあえず両方試そうということで、RのためにRとRstudioをインストール。
プログラミングはなんかを製作する目標がないと挫折すると聞いていたので。
深層学習というものが流行ってると聞いて、ちょっと触りを勉強したくなる。
この本は面白かったので、深層学習を目標にプログラミングを覚えよう!
後になって、これはとんでもない間違いだったことに気づく。深層学習と機械学習の違いも判らないまま、RよりPythonを先に触ることに。
教本にしたのはこちら。
「ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装」
途中まではまあなんとか。
微分って便利だな。行列計算できるの便利だなっていうところまでいったが、クラスという概念が理解できず、途中からハテナが浮かんで読み進められず。
うん、もうちょっと易しい本を探そうと思って手に取ったのが
「独学プログラマー Python言語の基本から仕事のやり方まで」
なんとか読了。自信をつける。
実は、いまだにコマンドプロンプトとパワーシェルとbashの違いが分かってない。
つづいてPyQに2か月くらい登録してみる。
なかなかPythonが楽しくなってきたが、クラス意味が今一つ掴めないままいったん中断。
この辺で、自分は統計に興味があってもプログラミングに興味がないんじゃないかということに気づく。
なんだかんだもがきながら、PythonもRもモノにならず、日常のちょっとした計算やグラフを作ったりはExcelを使い続ける日々が続く。
あるいは、Excelで成形して、検定かけやすい形式にしてRで検定するとか。
Rに触れてなかったな、Rは完全に独学。「こんなことやりたいなぁ、ググってみるか、ほうなるほど」って感じ。
そんなさなか、放送大学で「Rで学ぶ確率統計」という講義があるのを知り、さっそく入学して受講。
なかなか面白かったし、PythonばっかりでRあんまり触ってなかったからいい刺激になった。
恥ずかしながら、負の二項分布やガンマ分布ってよう知らんかった。
しかし、講義は楽しかったがなにか書けるようになったかというとそんなことはなく、依然として基本はExcel。
まあ、実際csvじゃなく、手書きのデータとかをExcelに打ち込んだりする程度なんでPythonやRを使うまでもなかったというのもあるんだけど。
「Excelパワーピボット 7つのステップでデータ集計・分析を「自動化」する」
パワークエリを覚えたらピボット形式のExcelファイルとか、セルの結合が多用されたExcelファイルを、成形加工するのが非常に楽になった。
しかも、同じフォーマットで記録されてるデータならフォルダにぶち込んで一気にまとめ上げることも可能!
控えめにいって神!
としばらくパワークエリを礼賛してたのだけど、各ステップはPythonのpandasやRのdplyrでも出来ることに気づく。というか最初から気づけ。
こりゃ、一気に覚えちまおう、統計というより、データの前処理だなと思ってUdemyでRの動画を買ってみた。
AIエンジニアが教えるRとtidyverseによるデータの前処理講座
https://www.udemy.com/course/r-tidyverse-preprocess/
すっかりR信者になる。
それまで教本を呼んでもdplyrの便利さが今一つわからなかったのに、パワークエリで具体的にモノを作ると、dplyrに翻訳したら、すいすい。スピード10倍。
便利さにようやく気付く。
そんで、pandasに翻訳したらどうなんだろ?と思ったらもっと速いw
すごいなPython。
Rへの入信はたった数週間。再びPythonに興味。
さて、ゼロから作るディープラーニングを再開しようと思ったけれども、そもそも、機械学習をすっ飛ばして深層学習って無茶だったと反省し、まずは機械学習に。
機械学習のエッセンス -実装しながら学ぶPython,数学,アルゴリズム- (Machine Learning)
で、この本がすごい。
5章あるんだけど、機械学習のアルゴリズムは5章だけなんだなw
それまでは何に割かれてるんだって?数式の証明とか、便利な計算法、例えばニュートン法とかラグランジュ未定乗数法とかw
こんだけ引っ張っておいて、いよいよ本番の第5章もゴリゴリ数式をスクリプトに落とし込んでいってるのに、「これは学習のためでscikit-learnっての使えばたった1行」っていう無慈悲w
いや、ほんと数学の勉強になったし、こうやってゴリゴリやるとなんのためにクラスというものが存在するのかようやくわかった。
線形代数って便利なんだなと。行列をスカラー値のように何の気なしに扱えるようになると、あの頃苦しんでいた実験計画法、タグチメソッド、今読み直したら別の印象があるんじゃないかなと思うようになったり。
この本を読む途中、「マンガでわかる統計学因子分析編」で学んだことが理解の助けになった。
なんたる僥倖。
線形回帰、リッジ回帰、SVM、PCA、k-means、クラスター分析、一気に手札が増えた。
Pythonで学ぶ実験計画法入門 ベイズ最適化によるデータ解析
実験計画法って、fisherの古典的なやつ、ラテン方格に割り付けて、ってやつかと思ったら、線形代数使えればもうなんでもありなのな。
これ、すごいな。
機械学習と実験計画法がここでつながるとか、控えめにいって最高だな。
まだ読了してないので、また後日。
この冬に予定されている院試受験者と、来年度以降の受験者のために内容をメモしておく。
前提として私の背景は下記となる
研究科のページから教員一覧に目を通して、やりたい研究に近い研究室で学生ウェルカム感のあるウェブページをもつ先生に連絡した。
そのあとオープンキャンパスに出席し、そこでの座談会で事前に連絡させてもらった先生と話したが、どうも研究テーマが研究室とミスマッチ感がでていたので、その先生に他の先生を紹介してもらった。最終的には、紹介してもらった先生を第一希望で受験申し込みをおこなった。
4つの項目について2ページ以内で書かないといけない。
いわゆる"研究計画書"・"論文"みたいな仰々しいフォーマットではなく、見出しはフォント大きく、太字にして、必要なところはリスト形式にして、と、口頭試問前提の読みやすさ重視のフォーマットにした。
例えるならGitHubのREADMEのようなフォーマットで書いた。といっても下記については一般的なレポート記法に従った
半ページ強を使った。内容としてはざっくり下記の3点を記載した。
半ページ弱使った。卒業研究はどうも書きづらかったので、幸い長いこと取り組んでいるプロジェクト(研究ではない)があり、そのプロジェクトについて、研究ぽいとこだけ抽出して概略を書いた。
2行程度書いた。博士後期課程行きたいけど、そのときの金銭事情にもよるから未定ということを書いた。
2枚目丸々1ページを使った。
背景・方法・成果で1/4ずつ、加えて残りの1/4に研究テーマの概略図(パワポ1枚みたいな)を載せた。
下手なこと書いて口頭試問で痛い目に合わないことを意識して、とにかく専門用語・具体的なアルゴリズム名は避けるようにした。
統計・機械学習なら、平均・分散までしか使わない。SVM・ディープラーニングなんて言葉は避ける。可能な限り高校生でも知っていそうな言葉だけ使うようにした。そうすると参考文献を書く必要もなくなり全体的にスッキリした体裁になった。といいつつ専門用語まったくないのも薄っぺらい気がしたので、確実に解説できる1語だけを記載して、その1語には参考文献の番号振って、ページ末端に小さいフォントで参考文献を記載した。
あと、提案手法の評価方法だけはすごい意識した。このあたりは"研究計画書の書き方"で、グーグル検索してもらったほうが詳しい。
会場は大きめのホールで受験生は30名ほど。多くの受験生はスーツだったが、Tシャツジーンズの受験生もいた。試験当日の座席配置と合格発表の番号を見るに私服の受験生も受かっていた。
問題は2問でた。
必答1問 A4 1枚
"研究科で何を学んで何に活かすか"みたいなテーマだった。私は具体的な志望業界があるので、データ分析に関する研究をして、その業界の研究職でこういう仕事がしたいということを書いた。
選択1問 A4 1枚
私は2を選んだ。具体的なシチュエーションを想定したうえで、下記のような観点で、ストーリーを作った。AIビジネス/ビッグデータビジネスの事例の本で読んだことを項目にあてはめて回答した。
待合室として教室に移動させられる。1人30分で、口頭試問は3会場あって1人ずつ呼ばれる。試験時間は当日に案内があった。一番遅い人は4時間待ちだと思う。待合室は比較的出入り自由。待合室にスタッフがいるわけでもない。自分の試験時間に待合室にいればよいと案内あったが、途中、試験時間の時間変更があった。受験生は各々スマホいじったり、トイレにたったり、おそらく外出もしていた。すごい暇なのでスマホの充電は十分にしていったほうがいいと思う。
試験会場は少し狭めの教室。希望をだした先生+3~4名の先生方が長机に並んでいて、その前にパイプ椅子がおかれているような形式。先生方はおそらくコース混合だったと思う。
希望の先生から、研究計画書に書いた統計用語から発展した内容の用語について説明できるかという質問があり、教室の黒板を使って説明した。たまたま口頭試問対策でヤマはってた質問だったが、対策していなければ答えられない用語だった。必修講義の統計基礎レベルではでてこない用語で、統計応用レベルの教科書でこんなこと書いてたなという内容を説明した。といっても決して"専門書"レベルの範囲ではないので、私が勉強不足なだけかもしれない。分からないことは分からないで通して、しどろもどろになりつつ自己採点100点満点中40点ぐらいの説明になった
そのあと他の先生方も含めて、いろいろ質問を浴びせられた、なぜこの研究科を選んだのかとか、なぜこのテーマをやるのか、どうやるのかとか面接に近い感じ、研究計画書に書いた、これまでの研究・希望進路についてはとくに聞かれなかった。終始、なごやかな雰囲気ではあった。
こんな雑多なメモだが、役に立つと嬉しい。
お前は浅学非才無能怠惰であるが、親の教育の賜物で国立大学に入れた。
しかしデータサイエンティストになりたいなどと夢を見たせいでお前のスキルはボロボロである。まず、お前の学部で学ぶ、経済学であるが、経済学はマクロ経済学もミクロ経済学もテスト問題を解けるようにしただけで本質は掴めず、データサイエンスに少しでも近づこうと取った計量経済学の講義はコーディングのテストは余裕でクリアしたが、面接で理論を答えられず落単した。
プログラミングは学部のまわりのやつらよりは多少できたが、それでも1番ではなく、当然外の世界を見れば、底辺もいいところである。
肝心の機械学習についてであるが、情報学部のパターン認識の講義をとったものの、ただコードが動くように書き、手書きの数字を識別できるようになっただけで、SVMの理論的背景もNNがなんたるかということも理解できぬまま、C評価の単位がきたのみである。
かといって努力せず、まわりの人と交流することもなければ、無理やり実績を作ってインターンに行くようなこともしなかった。
よくて数行のコードとGoogle Analyticsを使う程度の仕事しかできないお前はそうして雪かきをして一生を終えるだろう
http://aiweeklynews.com/archives/49678692.html
・Excelはがっつり使える
・Pythonのnumpyやpandasでデータの処理ができる
例えばですが、pythonを自分のパソコンに環境構築して、「Hello,world!」と表示できるようになったら、面接に申し込んで、「少しはpythonできます」と言ってみるのも一つの方法かもしれません。
実際に見分け方がわからなくてこれに引っかかって採用してしまう場合もあるんだろうな、とも思う。
自分がこの手の人材(エンジニア)を採用する場合にどうやって質問をすれば見極められるのかエンジニアの採用にも関わっている身としてを考えてみた。
AI人材という呼称自体がぞわぞわするけど、一旦そこは我慢する。
まず採用を行う前に、AI人材を取って何をしてもらいたいのかをチームないし採用意思決定者としっかり確認する。
など、あとは案件ベースなのか自社開発なのかそれぞれ必要となる能力がオーバーラップしつつも異なっているため。
バックグラウンドを確認する。実務や研究の経験の話が出てくるのがメジャーだと思うが、エンジニアとしてのバックグラウンドがあれば独学勢でも野良kagglerなどレベルの高い人はいるので実務経験に絞らなくても良いと思う
機械学習全般の基本的なところから確認していく。質問としてはこんな感じだと思う
・過学習ってなんでしょうか
イメージとしては非エンジニア職でも必要になる「この辺りの言葉が通じないと絶対困ったことになる」一般常識を確認する感じ。
画像や映像の認識などディープラーニング系の業務が多い想定の場合
から始まって
・どうやって訓練したのですか?
・どうしてそのような構成にしたのですか?
と突っ込んでいく。
確認したいことはディープラーニング「しか」できない人かではないかという点。
ある程度統計やベイズ法周りの知識が無いと詰むため。逆にディープラーニングが不要な業務ならこっち一本でも可。
・勾配降下法について説明してください
・畳み込みニューラルネットワークについて仕組みを説明してください
盲目的にライブラリを使ってるだけでないかという点を確認したい。
SVMを入力に適用するだけならsklearnで5行書くだけで誰でも出来る。手法の背景や対象データの特性をきちんと考えて使っているかを見たい。
・kaggleのコンペに参加したことはあるか
・メダルの取得状況
kaggleに参加した経験があればnoteからその人の手付きを直接評価できるし、メダルという他メンバからも客観的に評価できる定量指標もある。
学習意欲とか普段の姿勢を確認したい。もしかするとここが一番重要かも。
・普段何を参考に勉強しているか / 論文を読む習慣があるか(最近読んだ論文があれば教えてください)
・今興味のあること
色んなライブラリが出てるから、Deep Learningを使うこと自体は全然難しくない。
おかげで暇人がDeep Learningをちょっと試してみたみたいな記事がよくホッテントリに上がってくる。ブクマをつけてるやつらは大抵、自分で試してみる気力とか能力のない残念な人たち。
ところが、記事の内容を見てみるとマジで単に使ってみてるだけなんだよな。なんでDeep Learningを使わなきゃいけないのかさえ考えてない思考停止。ほとんどの場合は、昔からある3層のニューラルネットとかSVMで十分な性能が出る問題になんとなくDeep Learningを当てはめているだけ。
あのな、Deep Learningみたいに膨大なパラメータを持ってる学習モデルは簡単に過学習を起こすから、素人が下手に扱うとむしろ精度が落ちるもんだ。そこそこ難しいタスクに対して上手く学習するには、とんでもない量の訓練データが必要になる。しかも、Deep Learningは手動で設定する必要があるハイパーパラメータの数も膨大で、学習率とかノード数、正則化のパラメータみたいなやつらを地道に調整しなけりゃいけない。はっきり言ってめちゃくちゃ泥臭い作業だ。
なんでGoogleとかがDeep Learningで成功しているか、少しでも考えたことあるか?あいつらは過学習なんて関係なくなるほど、無茶苦茶たくさんのデータを手元に溜め込んでるんだ。しかも、ハイパーパラメータ設定の勘所を掴んでる職人みたいな技術者を金の力でどんどん集めている。
Deep Learningは理論的な下支えがほとんどなくて、勘と経験則で成り立ってる世界だ。数年前の定説が簡単にひっくり返ることが多いし、正直なところあれは研究と呼べるものではないと思う。「なぜかは知らんがやってみたらうまくいった」みたいな事実が羅列されてるだけ。思いついた手法が上手くいくかが運任せという意味では、ガチャを引いてるのとだいたい同じ。無課金勢がいくら知恵を絞っても廃課金勢には勝てない世界。
というわけで、お前らがぽっと出のアイディアでDeep Learning使ったところでゴミみたいなアプリが出来るだけだからやめとけ。
そろそろ大学院入試シーズンなので,聞かれそうな質問をまとめてみた.
質問は大きく分けて2種類ある.コンテキストに強く依存した質問と,テンプレ質問だ.
このうち,後者は仮に試験官が一切話を聞いていなかったとしてもできる質問だ.時間を掛ければ対策はできる.
よっぽど試験官の頭が良くない限りはテンプレ質問ばかり来るから,
テンプレ質問の準備をしておけば院試は恐れることはない.試験範囲が決まった筆記試験のようなものだ.
また,コンテキスト依存の質問も発表内容のみからできる質問と,そうではない質問に分けることができる.
『「手法にはナイーブベイズ法,決定木,SVMがあり,そのうちSVMを採用する」
とおっしゃっていましたが,なぜ他の手法を採用しなかったのですか?』
穴のない発表をすることは難しいので(試験官がちゃんと話を聞いていれば)
この手の類いの質問はよく来る.
論理的に行われる質問は,論理を押さえておけば容易に対策できる.
つまり,
あたりを押さえておけばいい.
例に挙げた質問に対しては,他の手法を採用しない理由,SVMを採用する積極的な理由を
きちんと答えられればOKだ.
これは試験官がその領域に対する知識を持っていて,かつ突っ込みどころがあるときに来る質問だ.
質問の種類としては一番対策が困難だが,これを綺麗に返すことができれば評価はうなぎ登り.
例えば,『「機械学習にSVMを利用する」とおっしゃいましたが,
ニューラルネットワークなど別の手法はご検討されなかったのでしょうか』
といった質問だ.もちろん検討しているけれど時間の都合上紹介しなかったという
雰囲気を出しつつ,隠しスライドでも出しながら説明すれば良い.
この質問に関しては,ひたすら基礎勉強・サーベイをして知識を身に付けるしかない.
時間がないのであれば不勉強を悔いつつ,このような質問が来ないように誘導しよう.
こういう質問だらけになることはまずないが,現実はそうではない.
逆に言えば,誰もが思いつくようなこのような質問に
うまく答えられない場合は評価はかなり低くなってしまうだろう.
いつでも明確な回答ができるように準備しよう.
上記新規性・有用性の変形だが,こちらの方がやや難しいことがある.
志望研究科が学際的な場合,特に前者の質問にはかなり困るけれど,
何となくそれっぽいことを答えよう.
時間が短い場合,これらを全て押さえた十分な発表を行うことは難しい.
ただし,これらについてはいつ聞かれてもいいように,
発表には使わなくてもスライドは用意しよう.
修士の院試であればどうせ研究は終わっていないのだから,絵空事を答えればいい.
このような質問をする人は大抵何もわかっていないので,何を答えても納得してくれる.
読んで無くてもタイトルを5本くらいは挙げて,
それらしい説明をしよう.
院試なんてものは通過儀礼なので適当に流せばいいと思うけれど,
これらの質問は学会その他にも応用できるので日頃から考えておくと良い.
また加減が難しいところではあるけれど,例えば先行研究を一切説明しないなどのように
あえて穴を作っておいて質問をそこに誘導するという手法もある.
明かな穴がある発表をしたことのマイナス評価を上回る場合は有効だ.
学位審査や院試といった場においては狙ってもいいかもしれないが,
SVMかじった程度で何が分かるんだwwwwwwwwwwwwwwwwww
https://www.kickstarter.com/projects/1761670738/ring-shortcut-everything/comments
下記URLの日記で指摘したとおり、まともなものは出てこなかったようですね。
http://anond.hatelabo.jp/20140611123426
ただ、バッテリーの問題、認識率の問題はある程度解決したようです。
筐体を大きくすることで何とかしたようですね。
逆転の発想のブレークスルーです。かっこいいリングという前提条件を覆すという。
台無しですね。
・認識率
登録できるジェスチャーを5つに絞ることでごまかしているようですね。
認識パターンはスマートフォン側に保存されるはずなので、メモリ云々ではないでしょう。
5つならランダムで出しても5回に1回はあたるが、10個なら10回に1回になる。
ということでしょう。多少の情報があれば確率は、まあ、50%くらいにはなるんでしょう。
チュートリアルなんか認識対象が絞られてるから簡単だし、もしかしたら何をやっても認識するかもね。
あと、おそらく認識対象が増えると識別に時間かかりそうですね。
どうせ単純なSVMかなんかでしょう。
というわけで、台無しですね。
今後の活躍が楽しみですね!
用語並べるのはいいけど、勉強したことあるの?
ニューラルネットだろうがSVMだろうがなんだろうが(ていうかそこに並列にボルツマンマシンとかどう考えても枯れてる話を持ってくるセンスがよくわからん)、ノード数増やしたところで人間の思考に近いものすら作れないのはほとんど自明だろ。
その「どうやって学習させるか」が大問題なんだっての。
無論ネットワークを構築するだけでは学習できないので外界を知覚するセンサーを与えたりしなければならない。人間と同じようなセンサーを与え、人間と同じような環境で学習させなければ人間と同じような知能にはならない。
簡単に言ってくれちゃってるけど、そのセンサーとやらはどうやって実現するわけ?