第1回Webインテリジェンスとインタラクションセミナー(いまさら訊けないシリーズ「言語処理技術」)での発表資料です。 https://www.sigwi2.org/next-sig
タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。
近年はさまざまな分野において、AIを搭載した製品(サービス)が積極的に活用され始めています。その中でも、コミュニケーションに必要不可欠な言語の分野では、自然言語処理をはじめとする技術によって利便性が向上しており、大きな注目を集めているのです。 そこで今回は、自然言語処理の技術向上において重要な役割を果たしている「Word2vec」について詳しくご紹介していきますので、是非参考にしてみてください。 自然言語処理について詳しく知りたい方は以下の記事もご覧ください。 自然言語処理とは?できること、種類、活用事例を解説! 自然言語処理-NLP-のサービス比較と企業一覧 別名:ベクトル空間モデル、単語埋め込みモデル Word2vecとは、文章に含まれる単語を「数値ベクトル」に変換し、その意味を把握していくという自然言語処理の手法です。比較的簡単に学習を行えるPythonを用いて実装できるので、初心者
functions { real partial_sum_lpmf( array[,] int big_matrix, int start, int end, array[,] vector word_embedding, array[] vector word_context ){ vector[end - start + 1] lambda; int count = 1; for (i in start:end){ lambda[count] = word_embedding[big_matrix[count, 2], big_matrix[count, 1]] ' * ( word_context[big_matrix[count, 3]] + word_context[big_matrix[count, 4]] + word_context[big_matrix[count, 5]
はじめに なんだかんだBERTを使ったことがなかった。 いまや、自然言語処理といえばBERTの世の中だというのに。 若者でなくなり、流行を追えず、Facebookはやっているが、InstagramやTiktokはやっていない、そんな自分…。 せめて仕事にしているデータ分析の世界では後追いでも流行を追うべきでは?そんな気持ちになった今日この頃。 ということで、事前学習済みモデルを使うとか、そもそも手持ちデータで自分で事前学習するとか、huggingfaceのtransformersでいろいろできるようになっておきたかったので触ってみた。 普通に触るだけでは味気ないので、単語分散表現を抽出し、cos類似度を計算して同義語抽出についてword2vecの結果と比較することに。 WordNetで定義された同義語と同じ単語をいくつ同義語として抽出できるか評価した。 word2vec、Transform
お遊びアプリとして BertとWord2vecを組み合わせて謎かけAIを作ってみた。 どんなアプリ お題を入れると、謎かけを回答してくれるアプリ > python .\nazokake.py Please input odai : 利根川 2022-09-06 22:49:41.121694 「利根川」とかけて「出産」と説く その心は! どちらも「用水/羊水(ヨウスイ)」がつきものです 2022-09-06 22:49:44.241902 Please input odai : 野球 2022-09-06 22:51:30.649636 「野球」とかけて「システム」と説く その心は! どちらも「捕手/保守(ホシュ)」がつきものです 2022-09-06 22:51:33.327652 Please input odai : 銀行 2022-09-06 22:52:44.977923 「銀行
--- 2022/9/7追記 技術書典13にあたって、内容量2倍&物理本になって帰ってきました! すでに初版の電子版をご購入済の方は技術書典サイトの本棚より2版がダウンロードいただけます。 --- 自然言語処理の定番手法となっているWord2Vecを使ってみたい初心者やちょっと手の込んだことをしてみたい中級者向けにWord2Vecを使い倒すべく、私個人の観点から可能な限り役立ちそうなTIPSを詰め込みました。 最近はもっぱらBERTやGPTシリーズの登場によってWord2Vecは過去の技術という印象があるかもしれません。 ですが、垢まみれになった今だからこそ、知見も溜まっており、安定して使えるようになったとも言えます。 そこで、私見を多分に含みますが、まとまった形でWord2Vecを使い倒すためのノウハウをまとめました。 1つ1つの内容は、どこかの記事などでみたことがあるものかもしれません
単語分散表現とは、単語の意味をベクトルで表現することです。単語埋め込み(Word Embedding)とも呼ばれます。単語を100~300の次元数で表現することが多いです。 分散表現(+自然言語処理の主な手法も)は、単語の意味は周囲の単語で形成されるという分布仮説を前提にしています。 なので、Wikipediaなど大量のテキストデータ(コーパス)を学習させれば、単語の意味が表現できるということです。 例えばWord2Vecは、周辺の単語から中心語を推論する(逆に中心語から周辺の単語を推論する方法もあり)ことで、単語をベクトル表現しています。 コーパスを読み込ませるだけで学習できるので、実務的にも利便性の高い手法です。分散表現の学習済みモデルを公開している団体も多数あります。 単語分散表現の利用例:単語間の類似度計算 単語分散表現は、単語の意味をベクトル(数値)で表現できます。代表的な利用ケ
Word2Vecとは Word2Vecは2013年にトマス・ミコロフにより提案された自然言語の数値化の手法です。 トマス・ミコロフはGoogle在籍のエンジニアで、Word2Vecの発明により、Google翻訳の性能が著しく向上したと言われています。 Word2Vecの何がすごいか Word2Vecは単語の分散表現を取り入れたモデルです。 単語の分散表現とは、単語を固定長のベクトルで表すことです。 単語の一つ一つを、ベクトル空間における点として表現することで、単語同士の距離(類似度)を測ったり、演算(足し算・引き算)したりすることが可能なモデルになっています。 Word2Vecは、文章を学習用テキストデータとしてあたえ、周辺にある単語からから中心にある単語を予測することでベクトル化していきます。 このように、ある単語の意味は周辺の単語によって形成されるという考え方を分布仮説と呼びます。Wo
この記事では、Word2Vec に親しむことを目標にしています。 まずは概要を掴み、その後に Python 上で動かしてみましょう。この記事はあくまで入門を目指しているので、具体的なモデリング手法の解説は省略しています。より詳しい内容については別の機会に譲ることにします。 Word2Vec とは Word2Vec は自然言語を数ベクトルで表現する手法の一つです。中でも、Word2Vec は単語をベクトルで表現する手法です。下図はそのイメージです。 テキストにベクトル表現を対応づける より正確には、Word2Vec は Mikolov らが 2013 年の論文 (Efficient Estimation of Word Representations in Vector Space, ベクトル空間における単語の表現の効率的推定, https://arxiv.org/abs/1301.3781
Word2vecは、単語の埋め込みを生成するために使用される一連のモデル群である。これらのモデルは、単語の言語コンテキストを再構築するように訓練された浅い2層ニューラルネットワークであり、大きなコーパスを受け取って一つのベクトル空間を生成する。このベクトル空間は典型的には数百次元からなり、コーパスの個々の単語はベクトル空間内の個々のベクトルに割り当てられる。コーパス内で同じコンテキストを共有する単語ベクトルは、ベクトル空間内の近くに配置される[1]。 Word2vecは、Googleのトマーシュ・ミコロフ率いる研究者チームによって2013年に作成および公開され、特許を取得した。アルゴリズムは他の研究者によって分析され、説明された[2][3]。Word2vecアルゴリズムを使用して作成された埋め込みベクトルには、潜在的意味分析などの以前のアルゴリズム[1]と比べていくつかの利点がある。 Wo
▼テーマ 単語をベクトルで表す単語分散表現の中で最も有名な word2vec の紹介です。 word2vec は4種のアルゴリズムの総称です。 それぞれを丁寧に説明していきます。 ▼関連プレイリスト Deep Learning の世界 https://www.youtube.com/playlist?list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP 自然言語処理シリーズ https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4XdCRjUCC0_flR00A6tJR ▼目次 00:00 OP ==== 1.単語分散表現 ==== 02:06 1-1 単語分散表現って何? 03:56 1-2 分散表現が得られると何が便利なのか? ==== 2.word2vec ==== 08:31 2-1 引用論文紹介
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く