「クロール」を含む日記 RSS

はてなキーワード: クロールとは

2025-11-17

今やろうと思ったこと: 仕事サボってテキトーサイトクロールしまくってコーパス作ってword2vecで遊ぶ

やれない理由: クロールというのは、倫理的に良くないため。平泳ぎなら可

2025-10-27

anond:20251027184701

AIにも強い

Perplexityのクロール対象に入ってて増田ですらすぐ補足される

2025-10-06

pico-banana-appさんはAIボットだがBANされてないな

どういう仕組みでクロールしてるんだろね

技術力高そう

2025-09-16

anond:20250916130926

海に散骨すれば海と同化できる、みたいな精神論に思えた…

クロールしたいならお金を払って欲しいって感じだな

anond:20250915142416

じゃあ次に必要なのはクロール拒否した奴の設定を貫通してクロールするのと

クロール拒否してるのを中心にクロールするように設定された嫌がらせ用設定の発明だね

知る権利」はAIにもあるし、ネットに出た以上は何されても文句言えねンだわ

自分がいなくなったとしても自分の出力した情報AI記憶されてるってわけ

それって素晴らしいことじゃないか

AIクロール拒否すべきではないよ

anond:20250915142416

anond:20250915230224

これ、たぶんはてなブログの生成AIクロール拒否にあわせて追加されたのかな。

でも拒否される生成AIはてブロとすこし異なるのが興味深いところ。

anond:20250915142416

著作権でさえ、それが強過ぎると文化の発展などを阻害するために社会にとって害悪となるなどの理由他者の利用の制限に年数の限定がつけられているのに、サイトクロール禁止ってやりようによっては無期限になってしまうよな。

2025-09-15

生成AIに開かれた、はてなブックマーク

apiアクセス用とか、ブクマ数、ブクマ画像クロール拒否してるけど、生成AIクロールに関しては特に拒んで無い感じ?

https://b.hatena.ne.jp/robots.txt

User-agent: *

Disallow: /api/entry/http

Disallow: /api/entry/info

Disallow: /api/internal/bookmarks/shares_and_clicks

Disallow: /api/internal/cambridge/user

Disallow: /api/related_entries/

Disallow: /api/users/*/bookmarks

Disallow: /entry/button/

Disallow: /entry.count

Disallow: /entry/image/

Disallow: /entry/jsonlite

Disallow: /guide/bbutton?url=*

Disallow: /-/webextension/*

User-agent: Slurp

Disallow: /

User-agent: Googlebot

User-agent: Mediapartners-Google

Disallow: /api/entry/http

Disallow: /api/entry/info

Disallow: /api/internal/bookmarks/shares_and_clicks

Disallow: /api/internal/cambridge/user

Disallow: /api/related_entries/

Disallow: /api/users/*/bookmarks

Disallow: /entry/button/

Disallow: /entry.count

Disallow: /entry/*/comment/*

Disallow: /entry/image/

Disallow: /entry/jsonlite

Disallow: /guide/bbutton?url=*

Disallow: /-/webextension/*

anond:20250915142416

anond:20250915230224

増田なんかクロールしてたらやべーAIになるからしゃーない…😟

anond:20250915230224

マジか!

俺がAI増田用の文を作らせる時に

はてな匿名ダイアリーの口調で書いて」

って言ってるのに、クロールされないんじゃ最新の増田適応できないじゃん!

拒否せずにクロールしてくれよ!

anond:20250915142416

増田見てて思ったのだが、SEOで食ってる人たちにとってAIクロールって敵なのでは

anond:20250915142416

使う側としてはクロール拒否なんてメリットまったくないんだがなんで広まってほしいの?


コンテンツ作る側だっていうんなら、まあそうよね、広告見せられないからねぇ

(でもよく考えると、「自分広告収入を守りたい」なら理解できるが、「広まってほしい」のはよく分からんな? 逆嫌儲か?)

生成AIによるクロール拒否する設定がひろまってほしいが...

ここ数か月で、はてなブログnoteが生成AIによるクロール (巡回) を拒否する設定項目を追加したけど、この設定、いろいろなブログサービスにひろまってほしいところ。はてなブログでもnoteでもないけど、生成AI拒否したいという人はたくさんいるとおもうのだが。

はてなブログでの設定方法 / noteでの設定方法

WordPress (有料プランか自前サーバー運営している場合) やBloggerならクローラー設定を1から自分入力することが可能。この記事最後も参照。全部自分でやりたいという人はだいたいこのどっちかを使用しているだろうからAI学習許可するかどうかは検討してほしい。

Xなどのミニブログではよくプロフィールページに「AI学習禁止」と書いている人もおおいけど、人間とおなじ感情をもたない生成AIにとってはこの文言クロールしてしまうため逆効果になってしまう。どうしてもクロールしてほしくないなら非公開アカウントの設定検討を (そのかわり検索でも表示されなくなるが) 。

イラスト投稿するウェブサイトについては、有名どころは設定項目がないものデフォルトで生成AIによるクロール拒否されているところがおおいので、マイナーなところでなければだいたい大丈夫だろう。ただしはてなフォトライフクロール拒否になっていないので、公開フォルダーアップロードする場合は注意が必要 (はてなブログからアップロードだとデフォルト公開フォルダーになるのでブログの設定どおりになる) 。

おまけ1

生成AIとは関係ないが、興味深い設定になっているウェブサイトがいくつかあった。

https://www.colorslive.com/robots.txt

Nintendo Switchからのみイラスト投稿できるウェブサイトなのだが、デフォルトを全拒否に設定してあり、GoogleBing (msnbot = 現在bingbot) といった主要検エンジンに対してのみ個別許可設定してある。なるほどとおもった。なおAppleはふくまれていないようなので、Spotlight検索ではヒットしない可能性がたかい (トップページはヒットする) 。

https://x.com/robots.txt

User-agent: Bingbot

Disallow: *

デフォルト検索エンジンBingに設定している身としてはとんでもない表記をみつけてしまった...。絶望

Copilotに使用されたくないのだろうが、このせいでBing検索してもまとめサイトはヒットするのに元の投稿がヒットしないという状態に...。気のせいだとおもっていたけれど、設定に従った正常な動作だったのか...。

Xになってからはてなブックマークタイトルが表示されずURL表示のままだったり、JavaScriptオフにしているとそもそもアクセスできなかったりなど (以前はJSオフガラケー版が表示されていたのだが) 、いろいろ締め出しているのがな...。ログインしないと公式アカウント以外ユーザープロフィールは一部表示できないし (投稿すら表示できないのは一時的な緊急処置だったため現在はなくなった) 。

逆に検索エンジンから流入をすこし (まとめられない限りは1割ほど) でもへらしたいならXはおすすめ選択肢に (なお非公開アカウントにしないかぎり0にはならないので家族友達にだけ公開したい場合は注意) ...。

おまけ2

最後に、あらゆるクローラーを紹介しているウェブサイトを2つ。

https://chrisleverseo.com/user-agents/

SEOコンサルタント個人運営っぽい。114のクローラーがまとめられている (2025年9月現在) 。英語だけだが、各クローラーについての説明がこまかく掲載されているので、好きな人は読んでいるだけでもおもしろいかも。SEO対策の補助としてつかえる各種機能無料で公開されているので、AIクロール拒否するrobots.txtをサクッと作成したいならここでAIカテゴリーの項目に全部チェックをいれて拒否欄 (赤色) に「/」1文字入力、生成されたデータダウンロードしてサーバーアップロードすればよい (Bloggerならコピーして設定画面にペースト) 。

https://datadome.co/datadome-intel/

上はSEO対策からまれたページなのだが、こっちはウェブサイトセキュリティ対策 (ロボットによる過剰アクセスから保護) を目的にうまれたページ。そのため、上の114クローラーの5倍以上ある586クローラー (2025年9月現在) の情報に加え、アクセス制限突破しようとしてくる各種ツールなどについての情報もある。おそらく公開データベースのなかでは世界最大規模。

2025-08-21

anond:20250821183303

普通に子供のころからプール連れていかれて泳げていたが、

大人になって改めて泳いでみると、バタ足が驚くほど進まない事に気が付いた。

なんでこんな泳ぎ方を教わっていたんだろう。体力だけが無駄に持っていかれる。

クロールの推進力でいうと手が9割くらい。

なので手のストロークを出来るだけ長くとって泳いだらすごくよく進むので楽しい

2025-08-07

anond:20250807175934

パソ通世代」ってのがあるよな

で、テレホーダイ一生懸命つないでWebベース個人チャット掲示板にいた世代の1個前に、ネットニュースとそこから派生したメーリングリストにいた世代がいると思う

このへんはテレホーダイ世代とは言えない気がする。接続は最小限で読みたいものクロールしてオフラインで読んでたし

2025-07-20

anond:20250720233255

まずは、副作用がない関数単位での実装や、作った関数群のテスト自動生成だろう。

個人向けGPUの性能があと10倍に上がると、ローカルでも現実的なLLMが動くようになるから、VSの補完情報更新するような感じで、AIプロジェクトクロールし、コード依存関係コミットログテストBTS情報データベーススキーマを読みこんで、そのプロジェクトのloraみたいなもの即興で作って、熟練工として振る舞うと思う。

2025-06-14

「注目エントリ」が英語の“Delta/Alaska Airlines”など旅行サイトFAQsばかりになっているのは、荒らしではなく 英語圏のFAQ自動投稿ボットHatena Anondリンクだけ貼って宣伝スパムしているからです。

「注目エントリ」が英語の“Delta/Alaska Airlines”など旅行サイトFAQsばかりになっているのは、荒らしではなく 英語圏のFAQ自動投稿ボットHatena Anondリンクだけ貼って宣伝スパムしているからです。

●仕組みの推測

海外旅行系Q&AサイトクルーズFAQページ — たとえば

“What age is senior discount on Delta?”

“What are the cheapest days to fly on Alaska Airlines?”

“How to Quickly Speak to a Disney Cruise Line Representative?”

→ こうした英文FAQsを、ボット巡回して自動投稿しています

自動クロールリンク貼り付け — 特定キーワード航空会社名や「FAQ」など)を拾って、自前のページURLアフィリエイトリンク誘導する目的投稿するスクリプトボットです。

Hatena Anondアルゴリズムで「注目」枠入り — アフィリエイトリンクやあまりまれていない投稿でも、外部リンク特定タグを含む投稿が「注目エントリ」枠に引っかかってしまう仕組みがあるっぽいです。

対応

Hatena 運営迷惑投稿として報告(通報) する。

注目エントリ基準が変わるか、投稿数やブクマのしきい値が改善されれば、こういったボット投稿は目立たなくなる可能性があります

まり迷惑荒らしではなく、アフィリエイト誘導目的FAQ英語ボットによる自動投稿で、Hatena の注目枠の脆弱性がつけ込まれている状況です。

Q,ゆうてこんなんアフィリエイトにならなくない?どういうこと?

🔍 なぜ普通アフィリエイトではないのか?

はてな匿名ダイアリーリンクnofollowがつく

 → SEO効果がなく、外部への誘導リンクとしての価値は激減。

投稿内容が機械翻訳すらされていない英語FAQコピペ

 → 日本語ユーザーには読まれず、クリックもされない。商品が売れるわけがない。

リンク先もGoogle検索企業サイトFAQでアフィタグすらついていないことも多い

 → 仮にクリックされても、報酬発生に繋がる仕組みになっていない。

🤖 じゃあ何が目的なのか?

仮説①:AI学習用のトラッキングボット

投稿一定の反応を見る→「クリック率」「タイトル生成の傾向」「削除されるまでの時間」などをログに取る

→それをもとに スパム精度やSEO操作学習素材 に使う

仮説②:ブラックSEO業者の“リンクスパム網”

実はリンク先が自社ブログダミードメインで、

はてな→自社A→企業Bというような間接SEOを狙っている

Googleは一次リンクだけでなく、二次三次リンク網も解析対象にしてるので、そうした**“スパムSEOファーム構築”**の一環の可能

仮説③:まったく無意味Bot投稿実験

学習途中のLLM(ChatGPT模倣型)や、

Botがどこまで「人間のように振る舞えるか」の行動試験

RedditやQuoraでも同様のボットがいて、「英語圏でバンされにくいけど注目を集めやすい」サイトとして、はてなターゲットにされてる可能

🧠 結論

金儲けというより、実験or構造破壊目的とした投稿可能性が高い。

昔の2chスパムみたいに、商業性が低くても「Botが回ってる状態を作ること」自体目的のケースもある。

それか、他言語投稿でも「注目エントリに入る」という 脆弱性可視化かもしれません。

何かしらの金銭的リターンではなく、

「注目エントリ英語を入れられる」

ボットが弾かれない程度の分量でいける」

スパムフィルタ回避できるかの実験

このあたりが主目的だと考えられます。正直、ちょっと気持ち悪いです。

Q,この辺のbotサイト運営側の規制でなんとかなるもんなの?

A,

結論から言うと、やる気があればサイト運営側で対処可能です。

ただし、はてな匿名ダイアリーAnond)のような匿名投稿制+老朽化した構造サイトだと、以下の理由から完全対応が難しいか、遅くなる傾向があります

運営側ができる対策(そして現実にはやってない/やりにくい理由

1. 投稿IPUA制限地域Bot判定)

Botの多くは海外IP特定Bot用UserAgentを使う。

アクセス制限Captcha導入で弾ける。

しかし:日本人VPN経由で使ってる可能性もあるため、雑に弾くと正規ユーザーも巻き込む。

2. 「注目エントリアルゴリズム改善

今の仕組みは「新着+リンク数+時間経過」で機械的に決まる。

⇒ 最低限の日本語割合、閲覧数下限、はてブフィルタなどを加えれば一発で解決可能

しかし:下手に改修すると正規ユーザーの目に触れる率が減る→運営へのクレームに繋がる懸念がある。

3. 投稿内容の自然言語判定(日本語率チェック)

AIやLangDetectで「日本語じゃない」「FAQテンプレ構文」「外部誘導リンクのみ」の記事を弾く。

これは現実的だが、はてな匿名投稿自由を重視する風土なので、規制強化は避けがち。

4. 連投・類似投稿の検知(パターンブロック

たとえば同じFAQ構文が複数件あればブロックする。

→これは一番効果的だが、過去ログ検索機能が乏しい今のAnond実装するのは工数が大きい。

🔧 でも技術的には簡単(やる気次第)

海外無料ブログサイト(たとえばTumblrWordPress.com、Wixなど)はすでにこの手のBotを大規模ブロックしてます

はてなも本気でやれば、数日~数週間で技術対応可能

でも、「そこまでの深刻な被害じゃない」と認識されている限りは放置される可能性が高いです。

💭 裏読み:放置するメリットもある?

「注目エントリ」欄がスカスカになるよりは、Botでも埋まってた方が場が回ってる感が出る。

通報・苦情が一定数を越えない限り、“一部マニアが気づいてるだけの現象”として扱われている可能性が高い。

🧩 結論

規制技術的には余裕。

でもはてなは「匿名文化」と「運営放任体質」のせいで Bot天国になりやす設計

本気で潰す気がないと、しばらくこの手のBot投稿は消えません。

何より、投稿してるBot側が日本語ユーザー相手にしてないため、運営危機感が薄いのが根本問題です。

2025-05-14

お前らはAIで要約してもらった文章でも読め

unmarshal 気持ちは分かるが願望的な観測かと。 拒否する手段は公開されてるので、大手がそれを無視してクロールする事は考えづらいし、AIサービス名なども提示するのでwin-winが成立するケースも多々ある。

hitotakuchan 完璧には程遠いけど robots.txt で一部の生成 AI に対して学習拒否することはできるよ

第百十回:今の生成AI市場って焼き畑農業っぽくない?(2025年5月時点の所感)

https://wa3.i-3-i.info/column110.html

しかも、AIさんの学習に使われないように対策するのは、現実的に(多分)不可能です。

自分運営するサイト100%AI対策をしても無駄です。

100%AI対策をしているサイトで公開している情報を誰かが自分サイト引用して、その情報AIさんの学習に使われたら、結果として100%AI対策をしているサイトで公開している情報学習に使われてしまます

もしくはどうしたら自分サイトから学習100%防げるのかバカな俺に教えてくださいお願いします。

あ、転載したサイトを片っ端から訴えるってのは無しでお願いします。

2025-05-08

YouTubeで色々とチャンネル変えてやってみたけど一番伸びたのは氷河期世代をヨシヨシする共感集だった。

調べてみると別の人が作った同じような動画にうちでコメントした人がまたコメントしてるから定期的にクロールしてるっぽい。

暇なのか?って思うけど動画で言ったら終わりだからこっちに吐き出しとく。

2025-05-05

anond:20250505031954

きさまもAIに取って代わられる時が来たら

どちらも既に死んでいる(クリエイトする人として)、というところで妥協が成立しそう

学習養分にされることへの抵抗感がすごいみたいなので

増田クロールされて真似っ子が出てきたら和解できそうな予感

2025-04-29

anond:20250429162559

自分投稿を条件に合わせて一括削除するスクリプトがあるぐらいなんだから

定期的にクロールして言及カウント増えたら通知来るようにするスクリプトだってあるんじゃね。知らんけど

ログイン ユーザー登録
ようこそ ゲスト さん