あるコンテンツのクローラを書いてるんだが、schema.orgで特定のjsonをHTML内に定義できるようになっていて、そのjsonを見つけ出してダウンロードしてDBに保管する処理
これがまた面倒で、そもそもどこにそんなjsonがあるのか検討をつけないで虱潰しにやると時間がかかってしょうがない
そこで「こういうコンテンツはこういうURLのパターンで出てくるだろう」みたいにやるんだが、100%の精度ではない
精度と速度の間でトレードオフしてしまっているから、難しい
Permalink | 記事への反応(0) | 08:49
ツイートシェア