Wort & Tat
comments 5

Ungebetene Gäste oder: Wie man den Semalt-Crawler wieder nach Hause schickt

Nahaufnahme einer verschnörkelten Türklingel an einer hölzernen Fassade

Kaum drei Tage online, schon kriege ich unge­bete­nen Besuch — es ist ein biss­chen wie bei Oggy und den Kak­er­lak­en. In diesem Fall ist der »Gast« ein Crawler aus der Ukraine, den ich — bevor er es sich richtig gemütlich machen kon­nte — auch schon wieder vor die Tür geset­zt habe.

Los­geschickt hat das Biest, das in mein­er Sta­tis­tik per­son­al­isierte Back­links wie 79.semalt.com/crawler.php?u=https://krikkit.uber.space hin­ter­lässt, die Fir­ma Semalt, die nach eige­nen Angaben ein SEO-Tool für Seitenbetreiber*innen anbi­etet (Par­don, aber einen Back­link will ich Euch nicht auch noch spendieren):

»Semalt is a pro­fes­sion­al web­mas­ter ana­lyt­ics tool that opens the door to new oppor­tu­ni­ties for the mar­ket mon­i­tor­ing, yours and your com­peti­tors’ posi­tions track­ing and com­pre­hen­si­ble ana­lyt­ics busi­ness infor­ma­tion.«https://semalt.com/what-is-semalt.php

Ich möchte gar nicht wis­sen, wie viele Neugierige auf diesen Crawler schon reinge­fall­en sind. Der näm­lich scheint lei­der nicht ganz so harm­los zu sein wie die Fir­ma aus Kiew vorgibt. Vom Refer­rer-Spam mal ganz abge­se­hen, scheint der Semalt-Crawler auch fleißig Dat­en zu sam­meln, Nutzer auszus­pähen und gegen gel­tendes Recht zu ver­stoßen, wie Joram van den Boezem her­aus­ge­fun­den hat. Er ver­mutet hin­ter Semalt ein Bot­net, das vor allem über Rech­n­er in der Drit­ten Welt und in Schwellen­län­dern läuft — wie The New Fron­tier (inzwis­chen offline) schreibt, scheint sich ein Großteil der Aktiv­itäten in Brasilien zu bün­deln. Weit­er heißt es dort:

»The mere fact that Semalt open­ly admits to using a bot to crawl the web but dis­guis­es their user agent as a brows­er is in and of itself a red flag; nev­er mind that the crawler.semalt.com sub­do­main is host­ed on a net­work with ties to the Internet’s most noto­ri­ous cyber crime syn­di­cate. More­over, the use of such a gener­ic string means that includ­ing the user agent in robots.txt is all but guar­an­teed to block legit­i­mate traf­fic as well.«The New Frontier

Rewrite für den Semalt-Crawler: »It’s just not ethical«

Zwar bietet das Unternehmen selb­st auch einen Ser­vice an, um Seit­en manuell aus dem Semalt-Index zu nehmen, dieses Ange­bot aber erscheint mir in etwa so ver­lock­end wie der Trichter eines Ameisen­löwen für Insekten.

Jet­zt gibt es zwei Möglichkeit­en, über die .htac­cess mit solchen Gästen umzuge­hen. Möglichkeit 1: Man lässt sie gar nicht erst rein.

RewriteEngine on
RewriteCond %{HTTP_REFERER} semalt\.com [NC]
RewriteRule .* — [F]

Möglichkeit 2: Man schickt sie post­wen­dend wieder nach Hause (und leit­et den Crawler ein­fach auf die Semalt-Seite »zurück«). Ich finde die zweite Möglichkeit lustiger.

RewriteEngine on
RewriteCond %{HTTP_REFERER} semalt\.com [NC]
RewriteRule (.*) https://www.semalt.com [R=403,L]

Natür­lich sieht Semalt das ganz anders. Noch grotesker: Eine auch an anderen Stellen im Netz mehr als umtriebige Mitar­bei­t­erin hält dieses Vorge­hen sog­ar für unethisch (Wobei sich das Unternehmen in der Ethik-Frage am Ende wohl doch nicht ganz sich­er war — inzwis­chen wurde der Tweet wieder gelöscht).

Ungebetene Gäste oder: Wie man den Semalt-Crawler wieder nach Hause schickt.

Klingt schw­er nach einem Trep­pen­witz der Netzgeschichte.

P.S.: Es gibt auch zwei GitHub-Pro­jek­te, um den Semalt-Crawler zu block­en, eines davon von van den Boezem selb­st. Ich habe bei­de nicht aus­pro­biert, aber der Voll­ständigkeit hal­ber sollen sie hier nicht fehlen.



5 Comments

  1. Nataliya says

    Flo­ri­an, your accu­sa­tions are ground­less. Semalt has noth­ing to do with your accu­sa­tions. We are engaged in a legit­i­mate busi­ness, pro­vide a web ana­lyt­ics ser­vice for web­mas­ters. If you are inter­est­ed how Semalt Crawler works, I rec­om­mend you to vis­it our blog and learn more before mak­ing con­clu­sions. blog.semalt.com
    Any­way, many peo­ple, many minds. I’m not gonna argue with you. But it is not pro­fes­sion­al — spread­ing misinformation.

    • To decide if your busi­ness is legit­i­mate is a thing for lawyers or judges, I think. And to gath­er sources is not mis­in­for­ma­tion, but the oppo­site. It’s infor­ma­tion at its best. And it’s not only pro­fes­sion­al, it’s my job.

  2. Her­zlichen Dank für diese Aufk­lärung, die ste­hen bei mir auch täglich drin, auch wenn ich mich noch nicht zu den 2 Minuten aufraf­fen kon­nte, die auszusperren… 

    Freut mich jeden­falls, dass du wieder da bist.
    (Und ich nehme mir vor, dies­mal mehr zu kommentieren.)

  3. Danke für die Easy — Erleuch­tung, ich wün­sche Dir noch viel Erfolg, Schaf­fen­skraft und viele Humane Leser !

Leave a Reply

Your email address will not be published.