2025-02-05

あるコンテンツクローラを書いてるんだが、schema.org特定jsonHTML内に定義できるようになっていて、そのjsonを見つけ出してダウンロードしてDBに保管する処理

これがまた面倒で、そもそもどこにそんなjsonがあるのか検討をつけないで虱潰しにやると時間がかかってしょうがない

そこで「こういうコンテンツはこういうURLパターンで出てくるだろう」みたいにやるんだが、100%の精度ではない

精度と速度の間でトレードオフしてしまっているから、難しい

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん