1. Liebe Forumsgemeinde,

    aufgrund der Bestimmungen, die sich aus der DSGVO ergeben, müssten umfangreiche Anpassungen am Forum vorgenommen werden, die sich für uns nicht wirtschaftlich abbilden lassen. Daher haben wir uns entschlossen, das Forum in seiner aktuellen Form zu archivieren und online bereit zu stellen, jedoch keine Neuanmeldungen oder neuen Kommentare mehr zuzulassen. So ist sichergestellt, dass das gesammelte Wissen nicht verloren geht, und wir die Seite dennoch DSGVO-konform zur Verfügung stellen können.
    Dies wird in den nächsten Tagen umgesetzt.

    Ich danke allen, die sich in den letzten Jahren für Hilfesuchende und auch für das Forum selbst engagiert haben. Ich bin weiterhin für euch erreichbar unter tti(bei)pcwelt.de.
    Dismiss Notice

robots.txt

Discussion in 'Web-Know-how für die Homepage' started by Obertroll, Feb 23, 2014.

Thread Status:
Not open for further replies.
  1. Obertroll

    Obertroll Byte

    Hallo,
    die Angaben meiner robots.txt werden bei einer Kontrolle mit der robots.txt-Analyse von google als fehlerhaft ausgegeben:
    "Syntax wurde nicht verstanden"

    hier der Quellcode:
    # ===================================
    # Folgende Seiten sollen nicht indexiert werden:
    # ===================================

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /seniorenkompetenz/
    Disallow: /marionetten/

    # ===================================
    # Schließe folgende Spider komplett aus:
    # ===================================

    User-agent: EmailCollector
    User-agent: WebReaper
    User-agent: WebCopier
    User-agent: Offline Explorer
    User-agent: HTTrack
    User-agent: Microsoft.URL.Control
    User-agent: penthesilea
    Disallow: /


    Vieleicht kann mir einer sagen was ich falsch gemacht habe!
    Oder interpretire ich die Aussage von google falsch?
     
  2. VB-Coder

    VB-Coder Megabyte

    Prüf deine Datei mal auf eventuell vorhandene Leerzeichen vor den Einträgen. Also am Anfang jeder Zeile. Falls da Leerzeichen vorhanden sind entferne diese.
     
  3. Obertroll

    Obertroll Byte

    Die Idee hatte ich auch schon.
    Dennoch danke für den Tipp
     
  4. kalweit

    kalweit Hüter der Glaskugel

    Die meisten Tools bemängeln Wildcard-Ausdrücke. Kann man ignorieren. Die meisten Crawler/Spider interessieren sich eh nicht für die Datei. Wenn man unerwünschte Datensammler draußen halten will, muss man schon wirksamere Geschütze auffahren.
     
  5. Obertroll

    Obertroll Byte

    Wie sähe solch ein GESCHÜTZ denn aus? :grübel:
     
  6. kalweit

    kalweit Hüter der Glaskugel

    Über die .htaccess lassen sich z.B. Zugriffsrechte auf Datei-/Verzeichnisebene über die IP festlegen. Zudem kann man mit mod_rewrite UserAgents u.ä. filtern. Letzteres geht aber auf die Performance des Servers, so dass man die Einträge nicht ausufern lassen sollte. Natürlich kann man auch die Firewall des Servers nutzen, wenn man darauf Zugriff hat.
     
  7. Obertroll

    Obertroll Byte

    auf das naheliegendste kommt man immer zu Schluss.
    wed mich mal mit der .htaccess auseinander setzen.

    :danke:

    Grüße vom Obertroll
     
Thread Status:
Not open for further replies.

Share This Page