Bots, Crawler & KI-Scraper
Wer deine Website wirklich besucht, während du schläfst – und wie du entscheidest, welche dieser Besucher willkommen sind.
Wenn du in deine Server-Logs oder deine Website-Statistik schaust, wirst du überrascht sein: Ein erheblicher Teil aller Zugriffe stammt nicht von Menschen, sondern von automatisierten Programmen – sogenannten Bots. Je nach Website machen Bots zwischen 30 und 60 Prozent des gesamten Traffics aus.
Das ist weder ein Grund zur Panik noch ein Problem. Viele Bots sind hilfreich, einige sogar unverzichtbar. Andere konsumieren Inhalte ohne Gegenleistung, belasten deinen Server oder versuchen gezielt, Schwachstellen zu finden. Dieser Beitrag zeigt, wer da unterwegs ist, was die Unterschiede sind – und wie du entscheidest, wer durfte und wer draussen bleibt.

Was ist ein Bot?
Ein Bot (kurz für «Robot») ist ein Programm, das automatisiert Webseiten aufruft, Inhalte ausliest oder Aktionen ausführt – ohne dass dahinter ein Mensch am Bildschirm sitzt. Der Begriff umfasst eine breite Palette, von seriösen Such-Crawlern bis hin zu aggressiven Scrapern und Angriffs-Bots.
Warum gibt es so viele Bots?
Jeder Bot hat eine Absicht. Die wichtigsten Kategorien, die in den Logs deiner Website auftauchen:
Gute Bots – willkommen
- Suchmaschinen-Crawler wie der Googlebot oder der Bingbot. Sie sind dafür da, deine Inhalte zu finden, zu indexieren und in den Suchergebnissen auffindbar zu machen. Ohne sie findet dich niemand.
- Preview-Bots von Social Media (Facebook, LinkedIn, X, WhatsApp). Sie holen sich Titel, Beschreibung und Bild, damit deine Links mit einer hübschen Vorschau geteilt werden.
- Monitoring-Bots, die Verfügbarkeit, Performance oder Sicherheit deiner eigenen Website überwachen – meist im Auftrag der Betreiberin selbst.
Graubereich – kommt auf dich an
- SEO-Tools und Marketing-Crawler (Ahrefs, Semrush, Majestic, Moz). Sie sammeln Daten für Konkurrenzanalysen und Backlink-Auswertungen. Wertvoll, wenn du ihre Tools selbst einsetzt – sinnlose Serverlast, wenn du das nicht tust.
- Archivierungs-Bots wie der Internet Archive Crawler. Archivieren das Web für die Nachwelt. Gut für die Allgemeinheit, aber nicht jedes Unternehmen möchte ältere Versionen seiner Website öffentlich konserviert haben.
- KI-Trainings-Crawler wie
GPTBot(OpenAI),ClaudeBot(Anthropic),CCBot(Common Crawl) oderBytespider(TikTok). Sie laden deine Inhalte herunter, um damit grosse Sprachmodelle zu trainieren. Hier sollte man sich bewusst entscheiden, ob man zustimmt oder nicht.
Unerwünschte Bots
- Scraper, die Inhalte einsammeln, um sie auf Konkurrenz-Websites wiederzuverwenden.
- Spam-Bots, die Kommentare, Formulare oder Gästebücher befüllen.
- Angriffs-Bots, die systematisch nach Schwachstellen, veralteten Plugins oder Standard-Passwörtern suchen.
- Credential-Stuffing-Bots, die mit geleakten Passwortlisten Logins durchprobieren.
Bot-Familien mit Namen: wer crawlt da überhaupt?
Eine ausführlichere Übersicht – hilfreich, um Einträge in deinen Server-Logs einzuordnen und bewusst zu entscheiden, wem du Zugang gibst. Die Links führen jeweils auf die offizielle Doku oder Info-Seite des Anbieters.
KI- und LLM-Crawler
- GPTBot – OpenAIs Trainings-Crawler für GPT-Modelle.
- ChatGPT-User – Live-Anfragen, die ChatGPT im Auftrag einer Nutzerin ausführt.
- OAI-SearchBot – Crawler für ChatGPT Search.
- ClaudeBot – Anthropics Trainings-Crawler für Claude.
- anthropic-ai – ältere Agent-Variante aus dem Anthropic-Ökosystem.
- Claude-Web – Live-Webzugriffe aus Claude heraus.
- CCBot – Common-Crawl-Projekt, Basis vieler LLM-Trainingsdaten.
- Google-Extended – Opt-out-Flag für Gemini-Training.
- Applebot-Extended – Opt-out für Apple Intelligence.
- PerplexityBot – Perplexity AIs Antwort-Engine.
- cohere-ai – Coheres Trainings-Crawler.
- Bytespider – ByteDance-Crawler, u. a. für TikToks Empfehlungssysteme.
- Meta-ExternalAgent / FacebookBot – Metas Agents für KI-Produkte.
- Diffbot – Scraper mit eigener Wissens-Graph-Datenbank.
- YouBot – Crawler der Suchmaschine you.com.
- KagiBot – Kagis Such- und Zusammenfassungs-Crawler.
- Bravebot – Crawler der Brave Search und Summarizer.
- NeevaBot – eingestellt, taucht in alten Listen noch auf.
SEO- und Scraper-Bots
- AhrefsBot – Backlinks- und SEO-Daten von Ahrefs.
- SemrushBot – Semrushs Crawler für SEO-Analysen.
- MJ12bot – Majestic SEOs Link-Index.
- DotBot – Moz' Crawler für Open Site Explorer.
- BLEXBot – WebMeUps Link-Profiler.
- PetalBot – Huaweis Petal-Search-Crawler.
- SeznamBot – tschechische Suchmaschine Seznam.
- DataForSeoBot – DataForSEOs Daten-API-Crawler.
- ZoominfoBot – B2B-Kontakt- und Firmendaten-Anreicherung.
- rogerbot – Moz' älterer Crawler.
- SiteAuditBot – SEO-Audit-Tools (z. B. Semrush Site Audit).
- Screaming Frog – Desktop-SEO-Spider auf Besucher-Anfrage.
- Sitebulb – Desktop-SEO-Crawler.
- OnCrawl – Enterprise-SEO-Analyse.
- Lumar – Enterprise-Website-Crawler (ehemals Deepcrawl).
Social-Preview-Bots
- facebookexternalhit – Facebook-Link-Previews.
- Twitterbot – Twitter/X-Link-Previews.
- LinkedInBot – LinkedIn-Share-Previews.
- WhatsApp – Link-Vorschau für geteilte URLs in Chats.
- Slackbot-LinkExpanding – Slack-Link-Vorschauen.
- TelegramBot – Telegram-Link-Previews.
- Discordbot – Discord-Link-Embeds.
- SkypeUriPreview – Skype-Link-Vorschauen.
- TeamsBot / Microsoft Office Preview – Link-Vorschauen in Teams und Outlook.
- Pinterestbot – Pin-Vorschauen und Bildindexierung.
Performance- und Monitoring-Bots
- Pingdom – Uptime- und Performance-Monitoring.
- UptimeRobot – gratis/paid Uptime-Monitoring.
- StatusCake – Uptime- und SSL-Monitoring.
- GTmetrix – Performance-Audits auf Abruf.
- Chrome Lighthouse / PageSpeed Insights – Googles Performance-Tooling.
Suchmaschinen und Discovery
Content-Aggregators und RSS-Reader
Archiv-Bots
- ia_archiver / archive.org_bot – Internet Archive, Wayback Machine.
- ArchiveBot – Community-gestütztes Archiv-Projekt der ArchiveTeam-Initiative.
Was willst du
– und was nicht?
Die richtige Bot-Strategie ist keine Grundsatzentscheidung, sondern eine Abwägung pro Website:
- Suchmaschinen: in der Regel ja – sonst findest du bei Google nicht statt.
- Social-Preview-Bots: ja, sobald du Inhalte bewusst teilst.
- SEO-Tools: je nach Einsatz. Nutzt du Ahrefs oder Semrush selbst, lohnt es sich. Sonst: abwägen.
- KI-Crawler: eine strategische Entscheidung. Urheberrecht, Marken- und Content-Schutz spielen mit rein.
- Scraper und Angriffs-Bots: konsequent draussen halten.
Wie steuerst du, wer darf?
Grundsätzlich gibt es drei Ebenen, die man sinnvoll kombiniert.
1. Höflicher Hinweis: robots.txt
Die Datei robots.txt liegt im Wurzelverzeichnis deiner Domain und ist der freundliche Türsteher des Webs. Sie sagt Bots: «Bitte nicht hier rein.» Gut erzogene Bots (Googlebot, Bingbot, GPTBot …) halten sich daran. Böse Bots ignorieren die Datei.
Ein Beispiel, wie du das Crawlen für alle erlaubst, aber bekannte Scraper- und SEO-Bots explizit ausschliesst:
User-agent: *
Allow: /
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: PetalBot
Disallow: /
Sitemap: https://pixelwerft.ch/sitemap.xmlWichtig: robots.txt ist eine Empfehlung, kein Schutz. Wer deine Inhalte trotzdem ausliest, tut das einfach – nur höflich ist das nicht mehr.
2. Harte Sperre: .htaccess (Apache)
Wenn du auf einem Apache-Webserver bist, kannst du über .htaccess Bots auf Ebene des Servers aussperren. Diese Regeln greifen vor deinem CMS und werden direkt am Türspion kontrolliert – unabhängig davon, ob der Bot robots.txt beachtet oder nicht.
Beispiel für das Blockieren einer typischen Liste unerwünschter Bots:
<IfModule mod_rewrite.c>
RewriteEngine On
# Unerwünschte Bots blockieren
RewriteCond %{HTTP_USER_AGENT} (AhrefsBot|SemrushBot|MJ12bot|DotBot|BLEXBot|GPTBot|ClaudeBot|CCBot|Bytespider) [NC]
RewriteRule .* - [F,L]
</IfModule>Die Liste solltest du bewusst zusammenstellen: Jeder Bot, den du blockierst, wird mit dem HTTP-Status 403 Forbidden abgewiesen. Bedenke, dass einige Anbieter ihre User-Agents ändern oder über wechselnde IP-Blöcke operieren – das ist ein laufender Prozess, keine einmalige Einstellung.
3. Web-Application-Firewall & Bot-Management
Für Websites mit sensiblen Inhalten oder hohem Traffic lohnt sich zusätzlich eine Web-Application-Firewall (z. B. Cloudflare, Sucuri, BunkerWeb). Sie erkennt Bots nicht nur am User-Agent, sondern am Verhalten: Zugriffsmuster, Klickgeschwindigkeit, JavaScript-Fähigkeit, Fingerprinting. So fangen sie auch verschleierte oder neue Bots ab, die in keiner Liste stehen.
Dein Bonus: pixelwerft Robots.txt Starter Kit Bonus Pixel
Bot-freundliches Arbeiten: ein paar Grundregeln
- Halte die
robots.txtund Sitemap aktuell – das erleichtert erwünschten Bots das Leben. - Verwende strukturierte Daten (JSON-LD / Schema.org), damit gute Bots deine Inhalte sauber interpretieren.
- Blockiere nur, was du bewusst blockieren willst – ein übereifriger Filter schneidet schnell auch Suchmaschinen ab.
- Überwache deine Logs. Ungewöhnliche Anstiege einzelner User-Agents sind oft der erste Hinweis auf neue Scraper.
- Entscheide bewusst über KI-Crawler: aus Sicht des Content-Schutzes eher nicht zulassen, aus Sicht der Reichweite vielleicht schon.

Bot-Strategie für deine Website?
Von der sauberen robots.txt über Apache-Regeln bis hin zur kompletten Bot-Management-Lösung – wir unterstützen dich bei der Einschätzung deiner Situation und setzen die passenden Schutzmassnahmen technisch um. Inklusive Monitoring, damit du erkennst, wenn sich das Bild ändert.