Semalt пропонує поради щодо боротьби з ботами, павуками та гусеницями

Крім створення зручних для пошукових систем URL-адрес, файл .htaccess дозволяє веб-майстрам блокувати конкретні боти для доступу до їх веб-сайту. Один із способів блокувати цих роботів - через файл robots.txt. Однак, Росс Барбер, менеджер із успішності клієнтів Semalt , заявляє, що бачив, як деякі сканери ігнорують цей запит. Один з найкращих способів - використовувати файл .htaccess, щоб запобігти індексації вмісту.

Що це за боти?

Вони являють собою тип програмного забезпечення, яке використовується пошуковими системами для видалення нового вмісту з Інтернету для індексування.

Вони виконують такі завдання:

  • Відвідайте веб-сторінки, на які ви пов’язані
  • Перевірте свій HTML-код на наявність помилок
  • Вони зберігають веб-сторінки, на які ви посилаєтесь, і бачите, які веб-сторінки посилаються на ваш вміст
  • Вони індексують ваш вміст

Однак деякі боти шкідливі і шукають на вашому сайті адреси електронної пошти та форми, які зазвичай використовуються для надсилання небажаних повідомлень або спаму. Інші навіть шукають лазівки у вашому коді.

Що потрібно для блокування веб-сканерів?

Перш ніж використовувати .htaccess файл, вам потрібно перевірити наступні речі:

1. Ваш сайт повинен працювати на сервері Apache. На сьогоднішній день навіть ті веб-хостингові компанії наполовину пристойні у своїй роботі, надають вам доступ до потрібного файлу.

2. Ви повинні мати доступ до необмежених журналів сервера вашого веб-сайту, щоб ви могли знаходити, які боти відвідували ваші веб-сторінки.

Зауважте, що ви не зможете заблокувати всі шкідливі боти, якщо ви не заблокуєте їх усіх, навіть тих, які вважаєте корисними. Щодня з’являються нові боти, а старіші змінюються. Найефективніший спосіб - захистити свій код і ускладнити ботам спам.

Ідентифікація ботів

Ботів можна ідентифікувати за IP-адресою або за їх "Стрункою агента користувача", яку вони надсилають у заголовки HTTP. Наприклад, Google використовує "Googlebot".

Цей список може вам знадобитися з 302 ботами, якщо у вас вже є ім'я бота, який ви хотіли б не використовувати .htaccess

Ще один спосіб - завантажити всі файли журналу з сервера та відкрити їх за допомогою текстового редактора. Їх розташування на сервері може змінюватися залежно від конфігурації вашого сервера. Якщо ви не можете їх знайти, зверніться за допомогою до свого веб-хостингу.

Якщо ви знаєте, яку сторінку відвідали або час відвідування, легше прийти з небажаним ботом. Ви можете шукати файл журналу з цими параметрами.

Одного разу ви відзначили, які боти потрібно заблокувати; потім ви можете включити їх у файл .htaccess. Зауважте, що блокування бота недостатньо для його припинення. Він може повернутися з новим IP-адресою або ім'ям.

Як їх заблокувати

Завантажте копію файлу .htaccess. Зробіть резервні копії, якщо потрібно.

Спосіб 1: блокування IP

Цей фрагмент коду блокує бота, використовуючи IP-адресу 197.0.0.1

Замовляйте відмовити, дозволити

Заперечувати від 197.0.0.1

Перший рядок означає, що сервер заблокує всі запити, що відповідають шаблонам, які ви вказали, і дозволить усім іншим.

Другий рядок повідомляє серверу видати сторінку 403: заборонено

Спосіб 2: Блокування агентами користувача

Найпростіший спосіб - використовувати механізм перезапису Apache

ПереписатиEngine On

ПерепишітьCond% {HTTP_USER_AGENT} BotUserAgent

ПереписатиРуле. - [F, L]

Перший рядок забезпечує включення модуля перезапису. Рядок другий - умова, до якої застосовується правило. "F" у рядку 4 повідомляє серверу повернути 403: Заборонено, тоді як "L" означає, що це останнє правило.

Потім ви завантажите файл .htaccess на ваш сервер і замінить існуючий. З часом вам потрібно буде оновити IP бота. Якщо ви помилитесь, просто завантажте зроблену вами резервну копію.