Оптимизация на файла robots.txt за WordPress

robots.txt

Здравей, драги читателю! Тази статия е като продължение на предишна моя статия за файла robots.txt: „robots.txt за WordPress. Борба със дублираните страници в WordPress“. В тази статия малко по-подробно ще разгледаме командите които се съдържат във файла robots.txt.

Файла robots.txt е текстов файл, в който се съдържат инструкции за роботите (специални скриптове които постоянно обхождат Интернет в търсене на нова и уникална информация, за да може тя да бъде индексирана) на търсачките.

В robots.txt може да се забранява индексация на страници или цели раздели в сайта, да се указва правилното огледало (mirror) на сайта (със w.w.w или без), да се покаже наличието и пътя на файл sitemap.xml. Има още много различни команди, но в тази статия ще поговорим само за основните, като за пример ще вземем най-популярната платформа за блог WordPress.

Създаването на този файл трябва да бъде едно от първите неща при създаване на сайт. Естествено, главното е правилното му съставяне, тъй като при каквито и да е недоглеждания и грешки, могат да възникнат определени проблеми със индексацията на сайта.

И така, какви команди ще трябват за създаване на правилен robots.txt файл?

User-Agent

Дава се указание за името на робота, за който се прилагат правилата, описани в файла robots.txt (НЕ ТРЯБВА ДА Е ПРАЗНО!).

Allow и Disallow

Разрешава се, и съответно, се забранява достъпа към някои раздели на сайта, или към целия сайт. Командата Allow се подържа само от Google и Яндекс.

Първо трябва да се използва директива Allow, а след нея Disallow, и между тях не трябва да има празен ред, както и при директива User-Agent.

Sitemap

Указание на робота за наличието и пътя към картата на сайта във формат xml.

Съществува и специален символ *, който означава каквато и да е последователност от символи.

И така, да преминем към създаване на самия robots.txt файл. Създаваме обикновен текстов файл със Notepad и започваме със първата директива User-Agent. За България ни интересуват два бота – Googlebot (бота на Google) и msnbot (бота на Microsoft Bing).

User-agent: Googlebot
Disallow:

User-Agent: *

Ако ще използвате няколко робота, тогава след всеки следващ непременно трябва да има свободен ред! Най-добре започвайте със конкретните роботи, а след това използвайте *.

И така, продължаваме с директиви Allow и Disallow.

Allow: /wp-content/uploads/

Тук даваме достъп само до папка uploads, където се съхраняват картинките качени чрез админ панела на WordPress. След това ще забраним да се индексира папката от по-високо ниво wp-content.

Преминаваме към директива Disallow – която е много важна. С нейна помощ може да забранявате индексацията на раздели в които се дублира съдържанието – това са таговете, категории, архиви, календар и т.н. Какво и как да се забрани ще напиша в примера, а след това си зависи от вас. Мога да ви кажа от собствен и чужд опит, че освен ако нямате груби нарушения (проблеми с хостинга, некачествен рерайтинг или просто откраднато съдържание от друг сайт) за дублиране на текста в рамките на един домейн, няма да ви наложат никакви санкции и филтри.

Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content

И вече избора е само ваш, кои раздели на вашия сайт или WordPress блог да забраните за индексация. Аз само ще ви дам пример, за забрана на популярни раздели:

Disallow: /tag

Напълно е възможно да се класирате добре в търсачките със помощта на таговете, затова помислете добре преди да ги забраните от индексация.

Disallow: /category
Disallow: /archive

Бъдете внимателни, обърнете внимание на това, по какъв начин се изписват URL адресите на вашите статии. Във вашия блог, статиите могат да имат URL – http://вашия сайт/archive/123, и вие може да забраните тяхната индексация. Настройва се от „Настройки“ -> „Постоянни връзки“. Препоръчвам ви да изберете опция „Име на публикация“.

Disallow: /author

Забранявате автор, ако присъства във вашата тема.

След това забраняваме индексацията на фийдовете, различните трекбеци, коментари във вашия фийд и страниците за търсене в сайта:

Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

И на края, двете последни директиви:

Host: вашия сайт.bg
Sitemap: http:// вашия сайт.bg/sitemap.xml

И на края, получаваме този robots.txt файл, който е напълно готов за използване във вашия WordPress блог:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

Sitemap: http://вашия сайт.bg/sitemap.xml

С уважение, Николай Томов.

Хареса ли ви статията? Споделете я с приятелите:

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *