はてなキーワード: クロールとは
apiアクセス用とか、ブクマ数、ブクマ数画像のクロールは拒否してるけど、生成AIのクロールに関しては特に拒んで無い感じ?
https://b.hatena.ne.jp/robots.txt
User-agent: *
Disallow: /api/entry/info
Disallow: /api/internal/bookmarks/shares_and_clicks
Disallow: /api/internal/cambridge/user
Disallow: /api/related_entries/
Disallow: /api/users/*/bookmarks
Disallow: /entry/button/
Disallow: /entry.count
Disallow: /entry/image/
Disallow: /entry/jsonlite
Disallow: /guide/bbutton?url=*
Disallow: /-/webextension/*
User-agent: Slurp
Disallow: /
User-agent: Mediapartners-Google
Disallow: /api/entry/info
Disallow: /api/internal/bookmarks/shares_and_clicks
Disallow: /api/internal/cambridge/user
Disallow: /api/related_entries/
Disallow: /api/users/*/bookmarks
Disallow: /entry/button/
Disallow: /entry.count
Disallow: /entry/*/comment/*
Disallow: /entry/image/
Disallow: /entry/jsonlite
Disallow: /guide/bbutton?url=*
Disallow: /-/webextension/*
生意気にも…
https://anond.hatelabo.jp/robots.txt
ユーザーエージェント: bingbot
ユーザーエージェント: CCBot
許可しない: /
ユーザーエージェント: ChatGPT-User
許可しない: /
ユーザーエージェント: GPTBot
許可しない: /
ユーザーエージェント: Google-Extended
許可しない: /
ユーザーエージェント: ICC-Crawler
許可しない: /
ユーザーエージェント: anthropic-ai
許可しない: /
ユーザーエージェント: ClaudeBot
許可しない: /
ユーザーエージェント: Claude-Web
許可しない: /
ユーザーエージェント: Applebot-Extended
許可しない: /
ユーザーエージェント: cohere-ai
許可しない: /
ユーザーエージェント: omgili
許可しない: /
ユーザーエージェント: omgilibot
許可しない: /
ユーザーエージェント: PerplexityBot
許可しない: /
ユーザーエージェント: Perplexity-ai
許可しない: /
ユーザーエージェント: Bytespider
許可しない: /
ユーザーエージェント: Diffbot
許可しない: /
ユーザーエージェント: Meta-ExternalAgent
許可しない: /
ここ数か月で、はてなブログやnoteが生成AIによるクロール (巡回) を拒否する設定項目を追加したけど、この設定、いろいろなブログサービスにひろまってほしいところ。はてなブログでもnoteでもないけど、生成AIは拒否したいという人はたくさんいるとおもうのだが。
※ WordPress (有料プランか自前サーバーで運営している場合) やBloggerならクローラー設定を1から自分で入力することが可能。この記事の最後も参照。全部自分でやりたいという人はだいたいこのどっちかを使用しているだろうから、AI学習を許可するかどうかは検討してほしい。
Xなどのミニブログではよくプロフィールページに「AI学習禁止」と書いている人もおおいけど、人間とおなじ感情をもたない生成AIにとってはこの文言をクロールしてしまうため逆効果になってしまう。どうしてもクロールしてほしくないなら非公開アカウントの設定検討を (そのかわり検索でも表示されなくなるが) 。
イラストを投稿するウェブサイトについては、有名どころは設定項目がないもののデフォルトで生成AIによるクロールが拒否されているところがおおいので、マイナーなところでなければだいたい大丈夫だろう。ただしはてなフォトライフはクロール拒否になっていないので、公開フォルダーにアップロードする場合は注意が必要 (はてなブログからのアップロードだとデフォルトが非公開フォルダーになるのでブログの設定どおりになる) 。
生成AIとは関係ないが、興味深い設定になっているウェブサイトがいくつかあった。
https://www.colorslive.com/robots.txt
Nintendo Switchからのみイラストを投稿できるウェブサイトなのだが、デフォルトを全拒否に設定してあり、GoogleやBing (msnbot = 現在のbingbot) といった主要検索エンジンに対してのみ個別に許可設定してある。なるほどとおもった。なおAppleはふくまれていないようなので、Spotlight検索ではヒットしない可能性がたかい (トップページはヒットする) 。
Disallow: *
デフォルトの検索エンジンをBingに設定している身としてはとんでもない表記をみつけてしまった...。絶望。
Copilotに使用されたくないのだろうが、このせいでBingで検索してもまとめサイトはヒットするのに元の投稿がヒットしないという状態に...。気のせいだとおもっていたけれど、設定に従った正常な動作だったのか...。
Xになってから、はてなブックマークでタイトルが表示されずURL表示のままだったり、JavaScriptをオフにしているとそもそもアクセスできなかったりなど (以前はJSオフでガラケー版が表示されていたのだが) 、いろいろ締め出しているのがな...。ログインしないと公式アカウント以外ユーザーのプロフィールは一部表示できないし (投稿すら表示できないのは一時的な緊急処置だったため現在はなくなった) 。
逆に検索エンジンからの流入をすこし (まとめられない限りは1割ほど) でもへらしたいならXはおすすめの選択肢に (なお非公開アカウントにしないかぎり0にはならないので家族や友達にだけ公開したい場合は注意) ...。
最後に、あらゆるクローラーを紹介しているウェブサイトを2つ。
https://chrisleverseo.com/user-agents/
SEOコンサルタントの個人運営っぽい。114のクローラーがまとめられている (2025年9月現在) 。英語だけだが、各クローラーについての説明がこまかく掲載されているので、好きな人は読んでいるだけでもおもしろいかも。SEO対策の補助としてつかえる各種機能も無料で公開されているので、AIクロールを拒否するrobots.txtをサクッと作成したいならここでAIカテゴリーの項目に全部チェックをいれて拒否欄 (赤色) に「/」1文字を入力、生成されたデータをダウンロードしてサーバーにアップロードすればよい (Bloggerならコピーして設定画面にペースト) 。
https://datadome.co/datadome-intel/
上はSEO対策からうまれたページなのだが、こっちはウェブサイトのセキュリティ対策 (ロボットによる過剰アクセスからの保護) を目的にうまれたページ。そのため、上の114クローラーの5倍以上ある586クローラー (2025年9月現在) の情報に加え、アクセス制限を突破しようとしてくる各種ツールなどについての情報もある。おそらく公開データベースのなかでは世界最大規模。
「注目エントリ」が英語の“Delta/Alaska Airlines”など旅行サイトのFAQsばかりになっているのは、荒らしではなく 英語圏のFAQ系自動投稿ボット が Hatena Anond にリンクだけ貼って宣伝スパムしているからです。
●仕組みの推測
海外旅行系Q&AサイトやクルーズFAQページ — たとえば
“What age is senior discount on Delta?”
“What are the cheapest days to fly on Alaska Airlines?”
“How to Quickly Speak to a Disney Cruise Line Representative?”
→ こうした英文のFAQsを、ボットが巡回して自動で投稿しています。
自動クロール+リンク貼り付け — 特定のキーワード(航空会社名や「FAQ」など)を拾って、自前のページURLやアフィリエイトリンクに誘導する目的で投稿するスクリプト型ボットです。
Hatena Anond のアルゴリズムで「注目」枠入り — アフィリエイトリンクやあまり読まれていない投稿でも、外部リンクや特定タグを含む投稿が「注目エントリ」枠に引っかかってしまう仕組みがあるっぽいです。
✅ 対応策
注目エントリの基準が変わるか、投稿数やブクマ数のしきい値が改善されれば、こういったボット投稿は目立たなくなる可能性があります。
つまり、迷惑な荒らしではなく、アフィリエイト誘導目的のFAQ系英語ボットによる自動投稿で、Hatena の注目枠の脆弱性がつけ込まれている状況です。
〇
Q,ゆうてこんなんアフィリエイトにならなくない?どういうこと?
→ SEO効果がなく、外部への誘導リンクとしての価値は激減。
→ 日本語ユーザーには読まれず、クリックもされない。商品が売れるわけがない。
リンク先もGoogle検索や企業サイトのFAQでアフィタグすらついていないことも多い
→ 仮にクリックされても、報酬発生に繋がる仕組みになっていない。
🤖 じゃあ何が目的なのか?
投稿→一定の反応を見る→「クリック率」「タイトル生成の傾向」「削除されるまでの時間」などをログに取る
Googleは一次リンクだけでなく、二次・三次リンク網も解析対象にしてるので、そうした**“スパムSEOファーム構築”**の一環の可能性
RedditやQuoraでも同様のボットがいて、「英語圏でバンされにくいけど注目を集めやすい」サイトとして、はてながターゲットにされてる可能性
🧠 結論:
金儲けというより、実験or構造破壊を目的とした投稿の可能性が高い。
昔の2chスパムみたいに、商業性が低くても「Botが回ってる状態を作ること」自体が目的のケースもある。
それか、他言語投稿でも「注目エントリに入る」という 脆弱性の可視化かもしれません。
何かしらの金銭的リターンではなく、
「ボットが弾かれない程度の分量でいける」
このあたりが主目的だと考えられます。正直、ちょっと気持ち悪いです。
●
Q,この辺のbotはサイト運営側の規制でなんとかなるもんなの?
A,
結論から言うと、やる気があればサイト運営側で対処は可能です。
ただし、はてな匿名ダイアリー(Anond)のような匿名投稿制+老朽化した構造のサイトだと、以下の理由から完全対応が難しいか、遅くなる傾向があります。
✅ 運営側ができる対策(そして現実にはやってない/やりにくい理由)
Botの多くは海外IPや特定のBot用UserAgentを使う。
しかし:日本人がVPN経由で使ってる可能性もあるため、雑に弾くと正規ユーザーも巻き込む。
⇒ 最低限の日本語割合、閲覧数下限、はてブ数フィルタなどを加えれば一発で解決可能。
しかし:下手に改修すると正規ユーザーの目に触れる率が減る→運営へのクレームに繋がる懸念がある。
AIやLangDetectで「日本語じゃない」「FAQテンプレ構文」「外部誘導リンクのみ」の記事を弾く。
これは現実的だが、はてなは匿名投稿の自由を重視する風土なので、規制強化は避けがち。
→これは一番効果的だが、過去ログ検索機能が乏しい今のAnondに実装するのは工数が大きい。
海外の無料ブログサイト(たとえばTumblr、WordPress.com、Wixなど)はすでにこの手のBotを大規模ブロックしてます。
でも、「そこまでの深刻な被害じゃない」と認識されている限りは放置される可能性が高いです。
「注目エントリ」欄がスカスカになるよりは、Botでも埋まってた方が場が回ってる感が出る。
通報・苦情が一定数を越えない限り、“一部マニアが気づいてるだけの現象”として扱われている可能性が高い。
🧩 結論:
でもはてなは「匿名文化」と「運営の放任体質」のせいで Bot天国になりやすい設計。
unmarshal 気持ちは分かるが願望的な観測かと。 拒否する手段は公開されてるので、大手がそれを無視してクロールする事は考えづらいし、AIはサービス名なども提示するのでwin-winが成立するケースも多々ある。
hitotakuchan 完璧には程遠いけど robots.txt で一部の生成 AI に対して学習を拒否することはできるよ
第百十回:今の生成AI市場って焼き畑農業っぽくない?(2025年5月時点の所感)
https://wa3.i-3-i.info/column110.html
しかも、AIさんの学習に使われないように対策するのは、現実的に(多分)不可能です。
100%のAI対策をしているサイトで公開している情報を誰かが自分のサイトで引用して、その情報をAIさんの学習に使われたら、結果として100%のAI対策をしているサイトで公開している情報が学習に使われてしまいます。