Wort & Tat
comments 5

Ungebetene Gäste oder: Wie man den Semalt-Crawler wieder nach Hause schickt

Nahaufnahme einer verschnörkelten Türklingel an einer hölzernen Fassade

Kaum drei Tage online, schon kriege ich unge­bete­nen Besuch — es ist ein biss­chen wie bei Oggy und den Kak­er­lak­en. In diesem Fall ist der »Gast« ein Crawler aus der Ukraine, den ich — bevor er es sich richtig gemütlich machen kon­nte — auch schon wieder vor die Tür geset­zt habe.

Los­geschickt hat das Biest, das in mein­er Sta­tis­tik per­son­al­isierte Back­links wie 79.semalt.com/crawler.php?u=https://krikkit.uber.space hin­ter­lässt, die Fir­ma Semalt, die nach eige­nen Angaben ein SEO-Tool für Seitenbetreiber*innen anbi­etet (Par­don, aber einen Back­link will ich Euch nicht auch noch spendieren):

»Semalt is a pro­fes­sion­al web­mas­ter ana­lyt­ics tool that opens the door to new oppor­tu­ni­ties for the mar­ket mon­i­tor­ing, yours and your com­peti­tors’ posi­tions track­ing and com­pre­hen­si­ble ana­lyt­ics busi­ness infor­ma­tion.«https://semalt.com/what-is-semalt.php

Ich möchte gar nicht wis­sen, wie viele Neugierige auf diesen Crawler schon reinge­fall­en sind. Der näm­lich scheint lei­der nicht ganz so harm­los zu sein wie die Fir­ma aus Kiew vorgibt. Vom Refer­rer-Spam mal ganz abge­se­hen, scheint der Semalt-Crawler auch fleißig Dat­en zu sam­meln, Nutzer auszus­pähen und gegen gel­tendes Recht zu ver­stoßen, wie Joram van den Boezem her­aus­ge­fun­den hat. Er ver­mutet hin­ter Semalt ein Bot­net, das vor allem über Rech­n­er in der Drit­ten Welt und in Schwellen­län­dern läuft — wie The New Fron­tier (inzwis­chen offline) schreibt, scheint sich ein Großteil der Aktiv­itäten in Brasilien zu bün­deln. Weit­er heißt es dort:

»The mere fact that Semalt open­ly admits to using a bot to crawl the web but dis­guis­es their user agent as a brows­er is in and of itself a red flag; nev­er mind that the crawler.semalt.com sub­do­main is host­ed on a net­work with ties to the Internet’s most noto­ri­ous cyber crime syn­di­cate. More­over, the use of such a gener­ic string means that includ­ing the user agent in robots.txt is all but guar­an­teed to block legit­i­mate traf­fic as well.«The New Frontier

Rewrite für den Semalt-Crawler: »It’s just not ethical«

Zwar bietet das Unternehmen selb­st auch einen Ser­vice an, um Seit­en manuell aus dem Semalt-Index zu nehmen, dieses Ange­bot aber erscheint mir in etwa so ver­lock­end wie der Trichter eines Ameisen­löwen für Insekten.

Jet­zt gibt es zwei Möglichkeit­en, über die .htac­cess mit solchen Gästen umzuge­hen. Möglichkeit 1: Man lässt sie gar nicht erst rein.

RewriteEngine on
RewriteCond %{HTTP_REFERER} semalt\.com [NC]
RewriteRule .* — [F]

Möglichkeit 2: Man schickt sie post­wen­dend wieder nach Hause (und leit­et den Crawler ein­fach auf die Semalt-Seite »zurück«). Ich finde die zweite Möglichkeit lustiger.

RewriteEngine on
RewriteCond %{HTTP_REFERER} semalt\.com [NC]
RewriteRule (.*) https://www.semalt.com [R=403,L]

Natür­lich sieht Semalt das ganz anders. Noch grotesker: Eine auch an anderen Stellen im Netz mehr als umtriebige Mitar­bei­t­erin hält dieses Vorge­hen sog­ar für unethisch (Wobei sich das Unternehmen in der Ethik-Frage am Ende wohl doch nicht ganz sich­er war — inzwis­chen wurde der Tweet wieder gelöscht).

Ungebetene Gäste oder: Wie man den Semalt-Crawler wieder nach Hause schickt.

Klingt schw­er nach einem Trep­pen­witz der Netzgeschichte.

P.S.: Es gibt auch zwei GitHub-Pro­jek­te, um den Semalt-Crawler zu block­en, eines davon von van den Boezem selb­st. Ich habe bei­de nicht aus­pro­biert, aber der Voll­ständigkeit hal­ber sollen sie hier nicht fehlen.



Filed under: Wort & Tat

by

Hello – my name is Florian. I'm a runner and blazing trails for Spot the Dot — an NGO to raise awareness of melanoma and other types of skin cancer. Beyond that, I get lost in the small things that make life beautiful: the diversity of specialty coffee, the stubborn silence of bike rides, and the flashes of creativity in fashion and design. Professionally, I’m an organizational psychologist and communication practitioner, working where people, culture, and language shape how change actually lands. When I’m not doing that, you’ll find me behind the bar at Benson Coffee in Cologne — quality-driven, proudly nerdy.

5 Comments

  1. Nataliya says

    Flo­ri­an, your accu­sa­tions are ground­less. Semalt has noth­ing to do with your accu­sa­tions. We are engaged in a legit­i­mate busi­ness, pro­vide a web ana­lyt­ics ser­vice for web­mas­ters. If you are inter­est­ed how Semalt Crawler works, I rec­om­mend you to vis­it our blog and learn more before mak­ing con­clu­sions. blog.semalt.com
    Any­way, many peo­ple, many minds. I’m not gonna argue with you. But it is not pro­fes­sion­al — spread­ing misinformation.

    • To decide if your busi­ness is legit­i­mate is a thing for lawyers or judges, I think. And to gath­er sources is not mis­in­for­ma­tion, but the oppo­site. It’s infor­ma­tion at its best. And it’s not only pro­fes­sion­al, it’s my job.

  2. Her­zlichen Dank für diese Aufk­lärung, die ste­hen bei mir auch täglich drin, auch wenn ich mich noch nicht zu den 2 Minuten aufraf­fen kon­nte, die auszusperren… 

    Freut mich jeden­falls, dass du wieder da bist.
    (Und ich nehme mir vor, dies­mal mehr zu kommentieren.)

  3. Danke für die Easy — Erleuch­tung, ich wün­sche Dir noch viel Erfolg, Schaf­fen­skraft und viele Humane Leser !

Leave a Reply to xar61 Cancel reply

Your email address will not be published. Required fields are marked *