Wort & Tat
5 Kommentare

Ungebetene Gäste oder: Wie man den Semalt-Crawler wieder nach Hause schickt

Nahaufnahme einer verschnörkelten Türklingel an einer hölzernen Fassade

Kaum drei Tage online, schon kriege ich ungebetenen Besuch — es ist ein bisschen wie bei Oggy und den Kakerlaken. In diesem Fall ist der »Gast« ein Crawler aus der Ukraine, den ich — bevor er es sich richtig gemütlich machen konnte — auch schon wieder vor die Tür gesetzt habe.

Losgeschickt hat das Biest, das in meiner Statistik personalisierte Backlinks wie 79.semalt.com/crawler.php?u=https://trotzendorff.de hinterlässt, die Firma Semalt, die nach eigenen Angaben ein SEO-Tool für Seitenbetreiber*innen anbietet (Pardon, aber einen Backlink will ich Euch nicht auch noch spendieren):

»Semalt is a professional webmaster analytics tool that opens the door to new opportunities for the market monitoring, yours and your competitors’ positions tracking and comprehensible analytics business information.«https://semalt.com/what-is-semalt.php

Ich möchte gar nicht wissen, wie viele Neugierige auf diesen Crawler schon reingefallen sind. Der nämlich scheint leider nicht ganz so harmlos zu sein wie die Firma aus Kiew vorgibt. Vom Referrer-Spam mal ganz abgesehen, scheint der Semalt-Crawler auch fleißig Daten zu sammeln, Nutzer auszuspähen und gegen geltendes Recht zu verstoßen, wie Joram van den Boezem herausgefunden hat. Er vermutet hinter Semalt ein Botnet, das vor allem über Rechner in der Dritten Welt und in Schwellenländern läuft — wie The New Frontier (inzwischen offline) schreibt, scheint sich ein Großteil der Aktivitäten in Brasilien zu bündeln. Weiter heißt es dort:

»The mere fact that Semalt openly admits to using a bot to crawl the web but disguises their user agent as a browser is in and of itself a red flag; never mind that the crawler.semalt.com subdomain is hosted on a network with ties to the Internet’s most notorious cyber crime syndicate. Moreover, the use of such a generic string means that including the user agent in robots.txt is all but guaranteed to block legitimate traffic as well.«The New Frontier

Rewrite für den Semalt-Crawler: »It’s just not ethical«

Zwar bietet das Unternehmen selbst auch einen Service an, um Seiten manuell aus dem Semalt-Index zu nehmen, dieses Angebot aber erscheint mir in etwa so verlockend wie der Trichter eines Ameisenlöwen für Insekten.

Jetzt gibt es zwei Möglichkeiten, über die .htaccess mit solchen Gästen umzugehen. Möglichkeit 1: Man lässt sie gar nicht erst rein.

RewriteEngine on
RewriteCond %{HTTP_REFERER} semalt\.com [NC]
RewriteRule .* — [F]

Möglichkeit 2: Man schickt sie postwendend wieder nach Hause (und leitet den Crawler einfach auf die Semalt-Seite »zurück«). Ich finde die zweite Möglichkeit lustiger.

RewriteEngine on
RewriteCond %{HTTP_REFERER} semalt\.com [NC]
RewriteRule (.*) https://www.semalt.com [R=403,L]

Natürlich sieht Semalt das ganz anders. Noch grotesker: Eine auch an anderen Stellen im Netz mehr als umtriebige Mitarbeiterin hält dieses Vorgehen sogar für unethisch (Wobei sich das Unternehmen in der Ethik-Frage am Ende wohl doch nicht ganz sicher war — inzwischen wurde der Tweet wieder gelöscht).

Ungebetene Gäste oder: Wie man den Semalt-Crawler wieder nach Hause schickt.

Klingt schwer nach einem Treppenwitz der Netzgeschichte.

P.S.: Es gibt auch zwei GitHub-Projekte, um den Semalt-Crawler zu blocken, eines davon von van den Boezem selbst. Ich habe beide nicht ausprobiert, aber der Vollständigkeit halber sollen sie hier nicht fehlen.



5 Kommentare

  1. Nataliya sagt

    Florian, your accusations are groundless. Semalt has nothing to do with your accusations. We are engaged in a legitimate business, provide a web analytics service for webmasters. If you are interested how Semalt Crawler works, I recommend you to visit our blog and learn more before making conclusions. blog.semalt.com
    Anyway, many people, many minds. I’m not gonna argue with you. But it is not professional – spreading misinformation.

    • To decide if your business is legitimate is a thing for lawyers or judges, I think. And to gather sources is not misinformation, but the opposite. It’s information at its best. And it’s not only professional, it’s my job.

  2. Herzlichen Dank für diese Aufklärung, die stehen bei mir auch täglich drin, auch wenn ich mich noch nicht zu den 2 Minuten aufraffen konnte, die auszusperren…

    Freut mich jedenfalls, dass du wieder da bist.
    (Und ich nehme mir vor, diesmal mehr zu kommentieren.)

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.