Як видалити сайт або його окремі фрагменти з індексу Google


Згідно концепції індексації, прийнятої Google, враховується повнота, об'єктивність інформації та відповідність її пошуковому запиту при видачі результатів. Якщо в індексацію потрапляє сайт з протизаконним контентом, або ж ресурс призначений для спаму, то сторінки такого сайту не будуть помічені в загальній базі пошукової системи. Нам же важливо дізнатися, як видалити сайт з видачі сервера за результатами пошуку.

Варіанти нульовий індексації Google

Як тільки пошуковий робот - програма збору інформації про нові ресурсах - просканує сайт посторінково, то, при відповідності вимогам політики Google щодо парсинга, він буде проіндексовані. Але ми також розповімо, як видалити свій сайт чи окремі фрагменти для пошукових систем допомогою robots.txt - покажчика і одночасно обмежувача пошуку.

Щоб виключити з видачі ресурс цілком, в кореневій папці сервера, на якому розташований сайт, створюється певна текстова зона - згаданий robots.txt. Цю зону обробляють пошукові машини і діють, згідно прочитаним інструкціям.

Майте на увазі, що пошукова система Google проиндексирует сторінку, навіть якщо для користувача доступ до перегляду заборонений. Коли браузер видає відповідь 401 або 403 «Доступ недійсний», то це стосується тільки відвідувачів, а не програм-збирачів для цього пошукового сервера.

Щоб зрозуміти, як видалити сайт з пошукової індексації, в текстовий покажчик слід вписати такі рядки:

User-agent: Googlebot

Disallow: /

Це вказує пошуковому роботу на заборону для індексування всього вмісту сайту. Ось як видалити сайт Google, щоб останній не кешуватися ресурс в список виявлених.

Варіанти сканування для різних протоколів

Якщо вам потрібно перерахувати окремі стандарти зв'язку, для яких ви хотіли б застосувати особливі правила щодо індексації Google, наприклад, окремо для гіпертекстових протоколів http / https, це також потрібно прописати в robots.txt наступним шляхом (приклад).

(Http://yourserver.com/robots.txt) - доменне ім'я вашого сайту (any)

User-agent: * - для будь-якої пошукової системи

Allow: / - дозволити повну індексацію

Як видалити сайт з видачі повністю для протоколу https

(Https://yourserver.com/robots.txt):

User-agent: *




Disallow: / повна заборона на індексування

Термінове видалення URL- адреси ресурсу з пошукової видачі Google

Якщо ви не хочете чекати повторної індексації, і сайт потрібно приховати якомога швидше, рекомендую скористатися сервісом https://services.google.com/urlconsole/controller. Попередньо robots.txt вже повинен бути розміщений в кореневому каталозі сервера сайту. У ньому мають бути прописані відповідні інструкції.

Якщо покажчик з якихось причин не доступний для редагування в кореневому каталозі, достатньо створити його в тій папці з об'єктами, для яких потрібно приховування від пошукових систем. Як тільки ви виконаєте це і зверніться на сервіс автоматичного видалення гіпертекстових адрес, Google не скануватиме папки, які прописано вилучити в robots.txt.

Період такої невидимості встановлюється на 3 місяці. Після закінчення цього терміну каталог, вилучений з видачі, знову буде оброблений сервером Google.

Доак видалити сайт для сканування частково

Коли пошуковий бот читає вміст robots.txt, то на підставі його вмісту приймаються певні рішення. Припустимо, вам потрібно виключити з показу весь каталог з назвою anatom. Для цього достатньо прописати такі інструкції:

User-agent: Googlebot

Disallow: / anatom

Або, приміром, ви хочете, щоб не індексувалися всі картинки типу .jpg. Для цього додайте наступний список:

User-agent: Googlebot

Disallow: /*.jpg$

Ось ще один приклад. Нехай потрібно видалити з парсинга інформацію про динамічно генеруються сторінках, тоді додаємо в покажчик запис типу:

User-agent: Googlebot

Disallow: / *?

Ось так, приблизно, і прописуються правила для пошукових систем. Інша справа, що набагато зручніше для всього цього використовувати тег META. І веб-майстри частіше використовують саме такий стандарт, що регулює дію пошукових систем. Але про це ми поговоримо в наступних статтях.

Поділися в соц мережах: