Comment bloquer l'accès à SeekportBot ou autre crawj'ai cliqué sur un site

La plupart du temps, lorsque vous devez bloquer l'accès SeekportBot ou autres crawl bots avec un site Web, les raisons sont simples. L'araignée Web effectue trop d'accès en peu de temps et demande les ressources du serveur Web, ou elle provient d'un moteur de recherche dans lequel vous ne souhaitez pas que votre site Web soit indexé.

C'est très bénéfique pour un site web visité par crawJe suis tombé sur lui. Ces araignées Web sont conçues pour explorer, traiter et indexer le contenu des pages Web dans les moteurs de recherche. Google et Bing utilisent de tels crawJe suis tombé sur lui. Cependant, il existe également des moteurs de recherche qui utilisent des robots pour collecter des données à partir de pages Web. Seekport est l'un de ces moteurs de recherche, qui utilise crawle chercheur SeekportBot pour l'indexation des pages Web. Malheureusement, il l'utilise parfois à outrance et crée un trafic inutile.

Qu'est-ce que SeekportBot ?

SeekportBot est un web crawler développé par la société Seekport, qui est basé en Allemagne (mais utilise des adresses IP de plusieurs pays, dont la Finlande). Ce bot est utilisé pour explorer et indexer les sites Web afin qu'ils puissent être affichés dans les résultats des moteurs de recherche. Seekport. Un moteur de recherche non fonctionnel, pour autant que je sache. Au moins, il ne m'a renvoyé aucun résultat pour aucune phrase clé.

SeekportBot utilisations user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Comment bloquer l'accès à SeekportBot ou autre crawj'ai cliqué sur un site

Si vous êtes arrivé à la conclusion que cette araignée Web ou une autre, il n'est pas nécessaire d'analyser l'intégralité de votre site Web et de créer un trafic inutile vers le serveur Web, vous disposez de plusieurs méthodes pour bloquer leur accès.

Pare-feu au niveau du serveur Web

Ce sont des applications de pare-feu open-source qui peut être installé sur les systèmes d'exploitation Linux et peut être configuré pour bloquer le trafic en fonction de plusieurs critères. Adresse IP, emplacement, ports, protocoles ou agent utilisateur.

APF (Advanced Policy Firewall) est un tel logiciel grâce auquel vous pouvez bloquer les robots indésirables, au niveau du serveur.

Étant donné que SeekportBot et d'autres robots d'indexation Web utilisent plusieurs blocs d'adresses IP, la règle de blocage la plus efficace est basée sur "user agent". Donc, si vous voulez bloquer l'accès SeekportBot au moyen de APF, il vous suffit de vous connecter au serveur Web via SSH, et ajoutez la règle de filtrage dans le fichier de configuration.

1. Ouvrez le fichier de configuration avec nano (ou un autre éditeur).

sudo nano /etc/apf/conf.apf

2. Recherchez la ligne qui commence par "IG_TCP_CPORTS" et ajoutez l'agent utilisateur que vous souhaitez bloquer à la fin de cette ligne, suivi d'une virgule. Par exemple, si vous souhaitez bloquer user agent "SeekportBot", la ligne devrait ressembler à ceci :

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Enregistrez le fichier et redémarrez le service APF.

sudo systemctl restart apf.service

L'accès "SeekportBot" sera bloqué.

Filtre web crawls avec l'aide de Cloudflare - Bloquer l'accès de SeekportBot

Avec l'aide de Cloudflare, cela me semble la méthode la plus sûre et la plus pratique par laquelle vous pouvez limiter l'accès de certains bots à un site Web de différentes manières. La méthode que j'ai aussi utilisée dans le cas SeekportBot pour filtrer le trafic vers une boutique en ligne.

En supposant que vous avez déjà ajouté le site Web à Cloudflare et que les services DNS sont activés (c'est-à-dire que le trafic vers le site Web passe par Cloudflare), suivez les étapes ci-dessous :

1. Ouvrez votre compte Clouflare et rendez-vous sur le site dont vous souhaitez limiter l'accès.

2. Accédez à : Security → WAF et ajouter une nouvelle règle. Create rule.

3. Choisissez un nom pour la nouvelle règle, Field: User Agent - Operator: Contains - Value: SeekportBot (ou autre nom de bot) – Choose action: Block - Deploy.

Comment bloquer l'accès à SeekportBot
Bloquer l'accès à SeekportBot depuis Cloudflare

En quelques secondes, la nouvelle règle WAF (Web Application Firewall) ça commence à faire effet.

Événements de pare-feu dans Cloudflare
Événements de pare-feu dans Cloudflare

En théorie, la fréquence à laquelle une araignée Web accède à un site peut être définie à partir de robots.txt, mais... ce n'est qu'en théorie.

User-agent: SeekportBot
Crawl-delay: 4

Beaucoup web crawlerii (à l'exception de Bing et Google) ne respectent pas ces règles.

En conclusion, si vous identifiez un web crawl qui accède de manière excessive à votre site, il est préférable de bloquer complètement son accès. Bien sûr, si ce bot n'est pas issu d'un moteur de recherche dans lequel vous souhaitez être présent.

Passionné par la technologie, j'écris avec plaisir sur StealthSettings.com depuis 2006. J'ai une expérience approfondie dans les systèmes d'exploitation : macOS, Windows et Linux, ainsi que dans les langages de programmation et les plates-formes de blogging (WordPress) et pour les boutiques en ligne (WooCommerce, Magento, PrestaShop).

Comment » Surfing net » Comment bloquer l'accès à SeekportBot ou autre crawj'ai cliqué sur un site
Laisser un commentaire