Recommended
PPTX
特徴ベクトル変換器を作った話 #dogenzakalt
PDF
PDF
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
PDF
PPTX
Pythonとdeep learningで手書き文字認識
PDF
PDF
PDF
PDF
PDF
[第2版] Python機械学習プログラミング 第5章
PDF
[第2版] Python機械学習プログラミング 第4章
PDF
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
PDF
Pythonによる機械学習入門 ~Deep Learningに挑戦~
PDF
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PDF
PDF
PDF
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
PDF
ランダムフォレストとそのコンピュータビジョンへの応用
PDF
機械学習チュートリアル@Jubatus Casual Talks
PDF
PDF
PDF
Randomforestで高次元の変数重要度を見る #japanr LT
PDF
PDF
分類問題 - 機械学習ライブラリ scikit-learn の活用
PDF
PPTX
PDF
SVM実践ガイド (A Practical Guide to Support Vector Classification)
PDF
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
PPTX
More Related Content
PPTX
特徴ベクトル変換器を作った話 #dogenzakalt
PDF
PDF
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
PDF
PPTX
Pythonとdeep learningで手書き文字認識
PDF
PDF
PDF
What's hot
PDF
PDF
[第2版] Python機械学習プログラミング 第5章
PDF
[第2版] Python機械学習プログラミング 第4章
PDF
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
PDF
Pythonによる機械学習入門 ~Deep Learningに挑戦~
PDF
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
PDF
PDF
PDF
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
PDF
ランダムフォレストとそのコンピュータビジョンへの応用
PDF
機械学習チュートリアル@Jubatus Casual Talks
PDF
PDF
PDF
Randomforestで高次元の変数重要度を見る #japanr LT
PDF
PDF
分類問題 - 機械学習ライブラリ scikit-learn の活用
PDF
PPTX
PDF
SVM実践ガイド (A Practical Guide to Support Vector Classification)
Viewers also liked
PDF
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
PPTX
PPTX
ヒューレットパッカード社の社員の離職リスク予測 第一回機械学習ビジネス研究会 #ml_business
PPTX
jubatusのECサイトへの適応 #jubatus_hackathon
PPTX
失敗から学ぶデータ分析グループのチームマネジメント変遷
PPTX
失敗から学ぶデータ分析グループのチームマネジメント変遷 (デブサミ2016) #devsumi
PPTX
プロダクション環境でオンラインで機械学習を動かすにあたってツライ話 #MLCT
PPTX
スマホマーケットの概要と、マーケティングの失敗例と改善 (アナリティクス アソシエーション 特別セミナー)
PPTX
BattleField3に見る自己表現としてのゲームプレイ
PPTX
ビッグデータとioDriveの夕べ:ドリコムのデータ分析環境のお話
PPTX
PPTX
レベルを上げて物理で殴れ、Fuzzing入門 #pyfes
PPTX
PPTX
DAUを評価指標から捨てた会社の話 #tokyowebmining
PDF
Rubyの会社でPythonistaが3ヶ月生き延びた話
PPTX
PPTX
PPTX
ODP
PPTX
Similar to 特徴ベクトル変換器を作った話
PDF
Jubatusにおける大規模分散オンライン機械学習
PDF
PPTX
Pre processing and feature engineering
PPTX
Jubatus Casual Talks #2: 大量映像・画像のための異常値検知とクラス分類
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PDF
2019/5/24 Chainer familyで始める深層学習 ハンズオンの部
PPTX
PPTX
2017-05-30_deepleaning-and-chainer
PDF
機械学習をビジネスに利活用する人たちに対してモデル開発後の実運用フェーズにおける課題とその対策方法
PDF
Akira shibata at developer summit 2016
PDF
PDF
Oracle Cloud Developers Meetup@東京
PDF
Tokyo H2O.ai Meetup#2 by Iida
PDF
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
PDF
Curiosity driven exploration
PPTX
LT.22 機械学習におけるPDCAを回せる環境構築の話
PDF
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
PPTX
More from Tokoroten Nakayama
PPTX
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本質)
PPTX
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
PDF
PPTX
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
PPTX
チャットコミュニケーションの問題と心理的安全性の課題 #EOF2019
PDF
心理的安全性の構造 デブサミ2019夏 structure of psychological safety
PPTX
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
PPTX
なぜコンピュータを学ばなければならないのか 21世紀の君主論
PPTX
PPTX
データサイエンティスト養成読本の解説+書き忘れたこと
PPTX
PPTX
PPTX
インターネット上の情報発信手段の変遷 情報発信の簡易化
Recently uploaded
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):筑波大学計算科学研究センター テーマ3「学際計算科学による最新の研究成果」
PDF
論文紹介:HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Gene...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):菱洋エレクトロ株式会社 テーマ1「製造業向けAI・HPCハイパフォーマンス基盤 RTX PRO™ ...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ2「『Slinky』 SlurmとクラウドのKuber...
PDF
論文紹介:MotionMatcher: Cinematic Motion Customizationof Text-to-Video Diffusion ...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):コアマイクロシステムズ株式会社 テーマ 「AI HPC時代のトータルソリューションプロバイダ」
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):エヌビディア合同会社 テーマ1「NVIDIA 最新発表製品等のご案内」
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ3「IT運用とデータサイエンティストを強力に支援するH...
PPTX
2025年11月24日情報ネットワーク法学会大井哲也発表「API利用のシステム情報」
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ3「『TrinityX』 AI時代のクラスターマネジメ...
PDF
論文紹介 Rethinking Classifier Re-Training in Long-Tailed Recognition:Label Over...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ1「大規模AIの能力を最大限に活用するHPE Comp...
PDF
論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):富士通株式会社 テーマ1「HPC&AI: Accelerating material develo...
特徴ベクトル変換器を作った話 1. 2. 3. 4. 前処理のニーズ
• 特徴量チューニングがしたい
– 特徴量を手動チューニングするだけで、機械学習の精度が大き
く改善する
• 特徴量チューニングでよくやること
– 利用する変数の取捨選択、欠損値の対応
– 変数のクリップ(最大値、最小値)
– 変数のログスケール変換(負の値の対応)
– 変数を演算して、線形分離しやすい新しい変数を作る
• 足し算、引き算、割り算、正規化、分散
– bool値を0,1に変換、特定のラベルを0,1に変換
• 実例
– アクセス時刻と、イベント発生時刻をunixタイムに直して差分
をとって、発生までの秒数にして、それをイベント発生回数で
割り算して正規化して、それをログスケールに変換して……
5. 6. 7. 8. 9. 10. 11. 課題の解決案
• データ分析と本番環境で言語を統一する
– 心折れる
• 本番環境からデータ分析のコードを呼び出す
– いわゆるSandbox、呼び出しのコストが高い
– 実験であればこれでOK
• 前処理と分類器を別々に担保する
– 同質な前処理を保証・生成する
• 独自言語で前処理を記述し、PythonやNode上のインタプリタで実行
or 対象となる言語にコンパイルする
– 同質な分類器を保証する
• 分類器だけsandboxに包む
• フルスクラッチで頑張る
– 決定木やロジスティック回帰、重回帰、線形分類器などは、容易に再実装可能
12. 課題の解決案
• データ分析と本番環境で言語を統一する
– 心折れる
• 本番環境からデータ分析のコードを呼び出す
– いわゆるSandbox、呼び出しのコストが高い
– 実験であればこれでOK
• 前処理と分類器を別々に担保する
– 同質な前処理を保証・生成する
• 独自言語で前処理を記述し、PythonやNode上のインタプリタで実行
or 対象となる言語にコンパイルする
– 同質な分類器を保証する
• 分類器だけsandboxに包む
• フルスクラッチで頑張る
– 決定木やロジスティック回帰、重回帰、線形分類器などは、容易に再実装可能
→ベクトルコンバーター
13. 14. 15. コード例:単純参照
{
a: 10.0,
b: 200.0,
c: 50.0,
e: {
hoge: 1000
}
}
a
b
c
d
e.hoge
10.0
200.0
50.0
0.0
1000
入力されるjson 設定ファイル 出力特徴ベクトル
jsonに対して、透過的にアクセス可能
入れ子になっている変数もアクセス可能
欠損値は自動的に0.0になる
変数の取捨選択はこれだけでOK
16. コード例:演算
a b add
a b sub
a b div
a c add log1p
a b div log1p
a 100 200 chop
210.0
-190.0
0.05
4.1108
0.0487
100.0
入力されるjson 設定ファイル 出力特徴ベクトル
a + b
a – b
a / b
log((a + c) + 1)
log((a / b) + 1)
max(100, min(200, a))
中置記法による疑似コード
※chopの実態は sorted([a,100,200])[1]
{
a: 10.0,
b: 200.0,
c: 50.0,
e: {
hoge: 1000
}
}
演算は逆ポーランド記法(簡易forth)で行われる
17. コード例:簡易forthによる処理例
入力されるjson
{
a: 10.0,
b: 200.0,
c: 50.0,
e: {
hoge: 1000
}
}
a c add log1p
10.0 10.0
50.0
a c
60.0
add
4.110
log1p
4.110
• forthはスペースセパレータで、ワード単位で実行
• ワードが予約語であれば、予約語を実行
• ワードが予約語でなければ、入力されたjsonを参照
• 入力されたjsonに値が存在すれば、スタックに積む
• 入力されたjsonに値が存在しなければ、0.0を積む
※log1p(x)は、log(x+1)と等価
をステップ実行してみる
スタックの一番上
が取り出される
18. 19. 等価なJavaScriptの出力
a c add log1p
function(target_obj) {
var t1, t2, t3;
var stack = new Array();
stack.push(target_obj.a === undefined ? 0.0 : target_obj.a);
stack.push(target_obj.c === undefined ? 0.0 : target_obj.c);
stack.push(stack.pop() + stack.pop())
t1 = stack.pop();
stack.push(t1 > -1.0 ? Math.log(t1 + 1.0) : -744.4400719213812);
return stack.pop();
}
forthの処理がすべて1つの関数に展開される
元となるオブジェクトに関数を適用すると、特徴変数が得られる
JITで最適化されるといいなぁ・・・
20. 21. まとめ
• データ分析の課題
– 特徴量チューニングのために、前処理を外部に切り出す必
要がある
• 本番環境の課題
– 本番環境は、データ分析環境と別言語であることが多い
• データ分析の結果を本番に生かすことが難しい
• データ分析部門が、ただの社内コンサルになってることが多い
– 同質の前処理の再実装が必要
• ベクトルコンバータの提案
– 前処理を記述するforth風の言語
• Python上で動くforthインタプリタとして実装
• 同質なJSを出力する機能を持つ
– 同質の前処理をデータ分析環境と、本番環境に提供
22. 23. 25.