Selbst Neulinge im Bereich Blogs und Webshops bemerken diese schnell: Bots und Crawler
Was machen die Roboter auf Deiner Webseite?
Wie werde ich die wieder los? Oder sind diese doch nützlich?
Starten wir!
Was ist ein Bot?
Ein Bot (Roboter) ist ein Programm, welches Webseiten besucht. Im Gegensatz zu einem Computernutzer / Smartphonenutzer braucht das Programm keinen Bildschirm. Das Programm wird durch einen Menschen gestartet, der ein bestimmtes Ziel erreichen will.
Was ist Crawler?
Ein Crawler gehört zur Übergruppe Bots und wird von Suchmaschinen und Large Language Models (KI) eingesetzt, um das Internet systematisch zu inventarisieren und alle Informationen durchsuchbar zu machen. Crawler von bekannten Anbietern arbeiten in der Regel ressourcenschonend, indem sie langsam und einzeln die Webseiten abtasten.
Sie springen von Webseite zu Webseite über Links, um jede Information aufzusaugen.

Was sind gute und schlechte Bots / Crawler?
Bots und Crawler sind per se nicht schlecht, sondern können auch Vorteile bieten:
- Hohes Ranking: Suchmaschinen finden mit Crawlern Deine Webseiten und publizieren diese bei vielen Suchbegriffen oben auf der Ergebnisliste. Die Webseite erhält mehr Besucher am Tag, die bei Dir bestellen oder Deine Inhalte konsumieren.
- Sicherheit und Wartung: Techniker nutzten Bots, um Fehler und Sicherheitslücken schneller zu erkennen. Werden alle Texte richtig angezeigt? Ist die TLS-Version auf allen Webseiten aktuell? Ist die Webseite auch um 3 Uhr Nachts erreichbar?
Negative Ziele können sein:
- Diebstahl von Texten und Multimedia: Crawler können systematische Blogbeiträge, Bilder oder Videos stehlen und diese auf anderen Webseiten publizieren. Durch die Qualitätsinhalte können die Betreibe der Crawler dann Besucher anlocken und mit Werbung Geld verdienen. Bilder können die Kriminellen als Stock-Fotos als ihre eigenen verkaufen. Da die Kriminellen nicht im Inland sitzen und eine Nachverfolgung oft schwer ist, greift das deutsche Urheberrecht nicht bzw. hat keine Wirkung.
- Unbezahltes Training von LLM: Seit 2022 machen neue Crawler die Runde. Diese speichern die Inhalte von Webseiten ab, um Large Language Modelle wie ChatGPT zu trainieren. Je mehr qualitative hochwertige Inhalte die Entwickler finden, desto besser lässt sich das LLM trainieren. Ob das legal ist, müssen noch Urteile entscheiden, da die Unternehmen gegen den Willen von Autoren Texte für geschäftliche Zwecke verwenden.

- Überlast erzeugen: Kriminelle können mit Botnets eine Überlast erzeugen, indem alle Bots gleichzeitig auf einen Server im Internet zu greifen. Die Leistung eines einzelnen Servers ist limitiert. Echte Besucher können die Webseite / Server nicht mehr erreichen, da dieser massiv überfordert ist.
- Spam-Mails versenden: Crawler eigen sich um im Internet Mail-Adressen zu finden. Mail-Adressen folgen einem gleichen Muster, welche Crawler leicht erkennen können. Diese Mail-Datenbank nutzen die Kriminellen, um Werbung zu versenden oder andere Spam-Mails zu versenden.
Maßnahmen für Crawler
Statt Crawler den Kampf anzusagen, sollten wir im ersten Schritt den guten Crawler sagen, was diese untersuchen dürfen und wann sich Inhalte ändern. Der Crawler muss nicht alle zwei Minuten alle Webseiten mehr besuchen, nur um festzustellen, dass sich nichts verändert hat.
Klare Anweisungen – Sitemaps
Sitemaps (sitemap.xml) bestehen aus auf einer Auflistung von Webseiten, die der Crawler besuchen soll / kann. Andere Webseiten wie z. B. Archive oder Tags sind dort nicht gelistet, da die Webseitenbetreiber die Suchmaschinen nicht zu müllen wollen.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.beispielseite.de/</loc>
<lastmod>2025-10-31</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.beispielseite.de/ueber-uns</loc>
<lastmod>2025-10-15</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>https://www.beispielseite.de/kontakt</loc>
<lastmod>2025-09-20</lastmod>
<changefreq>yearly</changefreq>
<priority>0.5</priority>
</url>
</urlset>
Nein sagen können – Noindex
Der Meta-Tag Noindex kann der Ersteller einer HTML-Webseite immer setzen, um dem Bot zu sagen: „Nett, dass Du diese Webseite gefunden hast, aber es lohnt sich nicht diese zu indexieren – springe bitte zur nächsten Webseite!“. Den Noindex kann der Crawler ignorieren, weil dieser keine Form der Authentifizierung benötigt. Die Webseiten sind öffentlich zugänglich.
<!DOCTYPE html>
<html lang="de">
<head>
<meta charset="UTF-8">
<meta name="robots" content="noindex">
<title>Beispielseite mit noindex</title>
</head>
<body>
<!-- Markdown-Inhalt (kann z. B. von einem Markdown-Parser wie Marked.js gerendert werden) -->
<h1>Willkommen auf meiner Seite</h1>
<p>Dies ist ein <strong>Beispiel</strong> für eine HTML-Seite mit dem <code>noindex</code>-Tag.</p>
<ul>
<li>Diese Seite wird nicht von Suchmaschinen indexiert.</li>
<li>Sie enthält Inhalte, die mit Markdown geschrieben wurden.</li>
</ul>
</body>
</html>
Zur Orientierung – robots.txt
robots.txt verweist auf die Sitemap(s) und auf Verzeichnisse, die für Roboter verboten oder freigegeben sind. Die robots.txt und Sitemaps sind ein Muss für jede Webseite.
# Alle Crawler dürfen die Startseite indexieren
User-agent: *
Allow: /
# Verbot für das Verzeichnis /privat/
Disallow: /privat/
# Verbot für eine einzelne Datei
Disallow: /geheimnis.html
# Sitemap-Referenz
Sitemap: https://www.beispielseite.de/sitemap.xml
Maßnahmen gegen Crawler / Bots
Bitte richtig – Authentifizierung
Der einzige Weg, um ungebetene Besucher abzuwehren, ist die Authentifizierung. Eine Authentifizierung schreckt massiv Laufkunden ab, die nur mal schnell vorbeischauen können. Engagierte Kunden und Interessenten können mit einer Authentifizierung ein sicherer Weg geschaffen werden, einen Zugang zu exklusiven Inhalten zu schaffen. Nutzernamen und Passwort sind der einfachste Weg und 2FA hilft dabei, weitere Sicherheitsrisiken abzudecken.
Keiner mag Spinnen? – Spidertraps
Mausfallen gibt es auch für Bots und Crawler. Es gibt Skripte die Millionen von Webseiten voller unnötiger Inhalte kreieren, sodass die Crawler sich „verfangen und Mist speichern“. Crawler springen von Link zu Link, sodass diese aus der Spidertrap nicht mehr herauskommen. Wenn der Crawler-Betrieber merkt, dass er in einer Spidertrap gefangen ist, meidet dieser die Webseite.

Buchstabensalat bitte – Encoding-Ducheinander
UTF-8 und HTML stellt uns einen zusätzlichen Anteil an Zeichen zur Verfügung, welche für normale Leser unsichtbar erscheint, aber für Computer eine Bedeutung haben kann. Autoren sprenkeln diese geheimen Zeichen in den Text hinein, um Crawler die Verarbeitung zu erschweren.
Moderner – JavaScript-Webseiten
Viele Crawler laden sich nur das Grundgerüst, die HTML mit den Texten und Links zu den Bildern herunter. JavaScript wurde früher nur für „Effekte und Interaktionen“ eingesetzt. Heutige Webseiten sind JavaScript only und laden die wichtigen Inhalte über AJAX erst nach. Der einzige Zweck der HTML ist es, die JavaScript-Dateien zu laden, die wiederum andere Elemente auf der Webseite rendern lassen. Neue Crawler können auch JavaScript verstehen, aber die simplen Crawler sind nur für HTML fähig.
Aussperren – Sperrung von IPs
Jetzt beginnt das Katz-und-Maus-Spiel. Wir können auf dem Server IPs der Crawler sperren. IPs sind aber nichts Festes, sondern der Kriminelle kann jederzeit eine neue IP sich verschaffen. Im Zeitalter von VPNs und Cloud-Dienstleistungen kann man IPs simpel verschleiern.
Maßnahmen gegen Formular Flodding
- Honeypots: Honeypots sind Teil eines Kontakt-Formulars. Diese sind unsichtbare Felder, die verhindern, dass Roboter tausende von Nachrichten in kurzer Zeit erstellen. Cloud-Anbieter und Mail Provider reagieren allergisch auf Spams und sperren Dich rigoros ohne nett zu fragen. Die unsichtbaren Kontaktfelder füllen die Roboter auch mit Inhalten, da sie glauben, dass der Nutzer muss immer alle Felder ausfüllen. Jetzt prüft ein Algorithmus im Hintergrund, ob das unsichtbare Formularfeld befüllt ist –> Papierkorb. Honeypots gibt es in vielen Varianten, die man regelmäßig wechseln sollte, da Kriminelle selbst diese Honeypots finden.
- Plausibilitätsprüfung: Kriminelle sind Informatiker, die faul sind. Plausibilitätsprüfung können stumpfe Inhalte in den Spam-Mails erkennen. Erwarten wir für das Formular Feld eine Zahl? Welcher Zahlenbereich? Was ist unrealistisch? Der Nachrichtentext ist kleiner als 3 Zeichen? –> Papierkorb!










Schreibe einen Kommentar