Самый правильный файл robots.txt для wordpress! Robots txt для wordpress


Правильный robots.txt для WordPress

Файл Robots.txt – это простой текстовый файл, который создается и размещается в корневом каталоге блога на WordPress и отвечает за поведение поисковых роботов на сайте.

правильный файл robot.txt для wordpress

Файл для WordPress robots.txt — используется, в основном, для ограничения доступа поисковых роботов (еще их называют поисковыми ботами) к индексации некоторых разделов или файлов вашего сайта.

Если этот файл отсутствует, то поисковые боты будут индексировать все, что размещено в корневой папке вашего сайта, включая системные папки CMS WordPress, страницы регистрации, авторизации или админ-панель. Это приводит к тому, что поисковый робот на индексацию вашего сайта тратит слишком много времени и может пропустить или вовсе не проиндексировать нужные страницы.

Другими словами, при помощи специальных директив файла robots.txt для WordPress, мы сами указываем поисковым ботам что нужно индексировать, а что желательно пропустить. В поиск Google или Яндекс попадает только нужная нам информация. В основном это главная страница и страницы с записями.

Кроме этого, файл robots.txt играет большую роль в поисковой SEO-оптимизации сайта. В файле прописывается специальная директива, в которой указывается путь к файлу sitemap.xml с картой сайта, которая указывает поисковым ботам какие страницы необходимо проиндексировать . Это приводит к быстрой индексации новых записей вашего блога.

Создать xml-карту сайта для WordPress можно с помощью плагина Google XML Sitemaps.

Файл robots.txt для WordPressправильный файл robots.txt для wordpress

Не буду писать много лишнего, все уже давно доступно по этой ссылке. Ниже предлагаю вам готовый, правильный файл robots.txt для WordPress.

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed Disallow: */feed Disallow: /category/*/* Disallow: /comments Disallow: */comment-* Disallow: */trackback User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed Disallow: */feed Disallow: /category/*/* Disallow: /comments Disallow: */comment-* Disallow: */trackback Host: site.ru Sitemap: http://site.ru/sitemap.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/

Скачать готовый файл можно по этой ссылке: robots.txt. Скачайте и разархивируйте файл в любую папку на вашем компьютере. При помощи клиента ftp (например FileZilla), залейте файл в корень вашего сайта, не забыв заменить в файле название site.ru на имя вашего сайта. В итоге файл должен быть доступен по адресу:

http://имя_вашего_сайта/robots.txt

Краткое описание основных директив файла robots.txt

В основном в файле используются несколько директив.

Что блокировать, что разрешать?

Я, как и многие web-мастера, советую предотвратить индексацию всего того, что приводит к дублированию контента. Это новостные ленты rss, результаты поиска или ссылки ответов на комментарии и страницы категорий или рубрик.

Так же советую заблокировать ссылки до комментариев и трэкбеки, так как они доступны на страницах с записями. Их блокировка способствует уменьшению количества исходящих ссылок и положительно влияет на SEO-оптимизацию.

Все остальное разрешается к индексации. Стоит отметить, что доступ к папке /wp-content/uploads с загруженными медиа-файлами желательно разрешить отдельно для каждого робота.

Теперь вы знаете как создать правильный файл robots.txt для WordPress.

 

 

Твитнуть

mywebprofit.ru

Robots.txt для WordPress

Бесплатная школа YouTube 3.0

Файл robots.txt — это инструкция для поисковых роботов (Яндекса, Гугла), которая помогает им правильно индексировать ваш сайта, разрешать или запрещать индексацию разделов, страниц. Правильный robots.txt для WordPress позволяет индексировать только страницы и записи, не засоряя поисковую выдачу дублями страниц и различным мусором.

Итак, сразу к делу. Вот оптимальный файл robots.txt для сайта на WordPress (пояснения смотрите ниже):

User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /feed/ Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */comments Disallow: /category/*/* Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /feed/ Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */comments Disallow: /category/*/* Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /?s= Host: maxtop.org Sitemap: http://maxtop.org/sitemap.xml.gz Sitemap: http://maxtop.org/sitemap.xml

Важно: измените адрес сайта с maxtop.org на ваш собственный!

А теперь расскажу по порядку, какие строки за что отвечают.

1. Как выбрать робота, к которому вы обращаетесь?

User-agent — это обращение к определенному поисковому роботу. Помимо того, что у каждой поисковой системы свой робот (Яндекс, Google), так еще и в рамках одного поисковика есть десяток специфических роботов. Например, YandexBot — основной робот Яндекса, YandexMedia — робот, индексирующий мультимедиа — картинки, аудио, видео, YandexImages — специализированный индексатор картинок (в Яндекс-картинки). Есть даже специальные роботы, которые сканируют микроразметку сайта.

Но нам особо вдаваться в детали не надо, только запомните, что звездочкой (*) отмечается обращение ко всем поисковым роботам.

2. Директивы в robots.txt.

Итак, к роботу мы обратились, теперь надо дать ему команду. Эти команды или директивы могут быть следующие:

Disallow: — запрет на индексацию раздела, страницы, регулярного выражения. Вы говорите роботу: «Вот это не смотри и в поисковую выдачу не добавляй». Нужно для запрета индексации служебных разделов, административной панели и для удаления дублей страниц. Дубли — это одинаковые страницы, доступные по разным адресам. Например, данная статья, которую вы читаете доступна по адресам:

http://maxtop.org/?p=1575 http://maxtop.org/robots-txt-dlya-wordpress/

Однако нам обе ссылки не нужны, т.к. это будет дубль страницы. И в роботс.тхт мы можем закрыть такие и подобные дубли.

Allow: — призыв к индексации страниц, разделов, ссылок. Вы говорите роботу: «Это обязательно нужно проиндексировать и добавить в поисковую выдачу!»

Host: — это указание основного хоста или адреса вашего сайта (совпадает с доменным именем сайта).

Sitemap: — это указание адреса карты сайта (в формате xml или в заархивированном виде). Вы помогаете роботу найти карту сайта, которая отражает структуру материалов у вас на сайте.

Внимание: убедитесь, что у вас установлен плагин карты сайта и что по указанному адресу действительно открывается карта сайта! Если нет — установите плагин Google (XML) Sitemaps Generator for WordPress.

3. Регулярные выражения в файле robots.txt.

Чтобы вручную не прописывать сотни ссылок для запрета или разрешения индексации можно применить регулярные выражения, которые значительно упростят вашу работу. Рассмотрим пример:

Disallow: /category/*/*

Звездочка обозначает подстановку любой части url. Таким образом, приведенная директива запрещает индексацию всех ссылок, содержащих часть «category». Это необходимо для устранения дублей, когда одна запись на вашем сайте доступна по прямой ссылке и по ссылке с префиксом «category».

Другой пример:

Disallow: /?s=

Это запрет индексации всех результатов поиска на сайте (все, что выдается в окне поиска по сайту).

А теперь не забудьте настроить файл .htaccess для своего сайта.

Бесплатная школа YouTube 3.0

Поделитесь этой записью с друзьями, буду благодарен!

maxtop.org

Самый правильный файл robots.txt для wordpress!

Автор: Александр Борисов

 / Дата: 2010-11-22 в 18:13

Правильный robots.txt для вордпресс

Здравствуйте друзья! WordPress robots.txt — файл ограничения доступа к содержимому на вашем блоге, сайте и т.д. Более подробно об этом вы можете прочитать здесь — ссылка

Этот файл необходимо создать в корне вашего сайта  и прописать в нем некоторые строки. Так как я работаю на движке wordpress я буду писать именно о файле robots.txt для wordpress.

Итак. Если у вас еще нет этого файла на вашем блоге, то создайте его и поместите его в корень вашего блога на сервере.

Когда поисковый робот заходит на ваш блог, он сразу же ищет этот файл, потому что именно он указывает что индексировать на блоге можно, а что нельзя.

Так же он указывает на наличие sitemap.xml на сервере, если у вас нет и sitemap.xml, то это говорит о том, что вы еще новичок в блоговедении и вам следует почитать вот этот пост.

На блоге wordpress имеется куча папок которые не нужно индексировать поисковикам, поэтому можно сделать так, чтобы поисковик не тратил на них время а индексировал, только самое необходимое. Вы можете подумать, — «Ну и что, не мое же время».

А это очень важный момент, так как робот может устать индексировать всякую хрень и пропустить некоторые важные страницы вашего блога, так что советую придать файлу robots.txt особое внимание.

Как сделать файл robots.txt? Очень просто. Создайте у себя на рабочем столе текстовый файл robots.txt откройте его и пропишите следующее:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback   User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru Sitemap: http://site.ru/sitemap.xml   User-agent: Googlebot-Image Allow: /wp-content/uploads/   User-agent: YandexImages Allow: /wp-content/uploads/

User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Host: site.ru Sitemap: http://site.ru/sitemap.xml User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: YandexImages Allow: /wp-content/uploads/

Вместо site.ru — укажите адрес вашего блога. Готово!

Не бойтесь, здесь все составлено четко, ваши посты в безопасности =))) Сами разработчики wordpress рекомендуют такой файл wordpress robots.txt. Ну вот и вы теперь знаете как составить правильный wordpress robots.txt! Успехов!!!

P.S. Как вам статья? Советую получать свежие статьи на e-mail, чтобы не пропустить информацию о новых бесплатных видеокурсах и конкурсах блога!

C уважением, Александр Борисов

isif-life.ru

как создать правильный файл robots txt для wordpress

Есть проблемы с ранжированием, проект не растет, хотите проверить работу своих специалистов по продвижению? Закажите профессиональный аудит в Семантике

Узнай первым о новых статьях в нашем блоге

Начальная оптимизация начинается всегда с роботс потому, что это самый быстрый и дешевый способ устранить все косяки на проекте и направить индексацию сайта поисковыми системами в нужном направлении.

Пример, где должен лежать robots:

http://адрес_сайта/robots.txt

Правильный robots.txt для WordPress

User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-admin/ Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed Disallow: */feed Disallow: /*?* Disallow: /20*/* Host: site.ru Sitemap: http://site.ru/sitemap.xml

 

Дополнения к роботс

Если у вас меньше трех авторов, или в шаблоне не предусмотрена страница автора, то обязательно добавьте эту строчку в ваш robots.txt

Disallow: /author

В случае, если главная страница у вас на сайте является "страница", а не лента записей - то нужно добавить обязательно эту строчку в ваш robots.txt - иначе одинаковый контент будет на двух странцах

Disallow: /page/*

 

Разъяснения по роботс

Эти строчки закрывают технические страницы - эо делается больше для подстраховки, так как поисковые системы и так не индексируют эти страницы, если сервер правильно настроен

Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/

Трекбэки — это уведомления, которые приходят на страницу вашего сайта в комментарии, когда кто либо на каком то другом сайте поставил на вашу страницу ссылку. Полезного для поисковых систем в этом ничего нет, так что стоит их закрыть

Disallow: /trackback Disallow: */trackback Disallow: */*/trackback

Редко, но встречаются дубли страниц в RSS и попадают в индекс из-за установленных плагинов.

Disallow: */*/feed Disallow: */feed

Результаты поиска всегда нужно закрывать: поисковые системы считают это мусорными страницами. Сами они никогда не войдут в индекс, но если на них кто-то поставит ссылку, то это не исключено.

Disallow: /*?*

WordPress по старинке популярен как блоговый движок и некоторые блоггеры выводят архивы записей, а не качественно сделанный шаблон будет генерировать дубли архивных записей - так что стоит предостиречься и закрыть их от индексации

Disallow: /20*/*

Карта сайта для поисковых систем или любых других ботов, которых в cети сейчас десятки уже

Sitemap: http://site.ru/sitemap.xml

Host и Sitemap являются межсекционными директивами, которые можно использовать в любом месте в роботс. Мы разделяем их пробелом в общем роботс, чтобы другие боты не посчитали наш файл ошибочным.

 

Настройка роботс

Настроить robots txt для WordPress можно 2 способами:

  1. с помощью любого ftp редактора: Total Commander, FileZilla, CuteFTP, WinSCP, FlashFXP, SmartFTP, Core FTP;
  2. с помощью плагинов.

 

Плагины WordPress для настройки robotstxt

Узко функциональные плагины, которые позволяют работать только с роботсWP Robots TxtWordPress Meta Robots

Комплексные SEO плагины для WordPressSEO Ultimate — один из старейших плагиновWordPress SEO by Yoast — самый популярный плагин по количеству установокSemanticWP SEO — мы намучались с бесплатными версиями и разработали свой плагин

semantica.in

Правильный Robots.txt для WordPress | Danilin.biz

Правильный Robots.txt для WordPress

23 января 2017 2 526

Наверное, только ленивый не писал про то, как должен выглядеть правильный Robots.txt для Вордпресс. Я попробую объяснить, почему многие старые способы больше не работают.

Прежде напомню, на дворе 2017-й год — прогресс не стоит на месте, технологии развиваются. Кто давно в теме — знают, что поисковые системы за последнее десятилетие сильно эволюционировали. Поисковые алгоритмы стали более сложными. Сложными стали и факторы ранжирования, их количество существенно увеличилось. Естественно, всё это не могло не отразиться на методах поисковой оптимизации сайтов и отрасли в целом.

Robots.txt — это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов, разработан Мартином Костером и принят в качестве стандарта 30 июня 1994 года.

Robots.txt — мощное оружие SEO-оптимизации, грамотная настройка которого может существенно помочь в индексации.

В то же время, кривая настройка robots.txt может нанести проекту огромный вред. Рассуждать о правильности того или иного примера robots.txt можно бесконечно долго. Предлагаю остановиться на фактах.

Еще недавно Google был настолько примитивен, что видел сайты лишь в виде HTML-кода. В прошлом году, с приходом алгоритма Panda 4, Google стал видеть сайты такими же, какими их видят пользователи. Вместе с CSS и исполненным JavaScript.

Это изменение коснулось и Вордпресс.

На многих сайтах используются старые приёмы, которые блокируют индексацию системной директории /wp-includes/, в которой часто хранятся JS-библиотеки и стили, необходимые для работы сайта. А это значит, Google увидит сайт уже не таким, каким его видят посетители.

Получается, что старая практика больше не работает.

На многих Вордпресс-сайтах закрывалась от индексации и другая системная директория /wp-admin/. Что правильно, по-сути. Но если на сайте используется асинхронная загрузка страниц (AJAX), это может блокировать загрузку внутренних страниц. Потому что admin-ajax.php, который за всё это отвечает, расположен в /wp-admin/.

Директорию /wp-admin/ можно оставить закрытой от индексации, но тогда необходимо отдельно разрешить индексацию admin-ajax.php.

Allow: /wp-admin/admin-ajax.php

Если в вашем Вордпресс используется один из старых способов оформления robots.txt, нужно обязательно проверить какие конкретно директории скрываются от индексации и удалить все запреты, блокирующие загрузку страниц.

Для проверки рекомендую использовать Google Search Console, в котором необходимо предварительно зарегистрироваться, добавить проверяемый сайт и подтвердить права на него. Это делается очень просто.

Как проверить Robots.txt

Проверить robots.txt на ошибки можно с помощью инструмента проверки файла robots.txt — именно так и называется этот инструмент в разделе «Сканирование» Google для веб-мастеров.

Инструмент проверки файла robots.txt

Кстати, проверить robots.txt на ошибки можно и в Яндекс Вебмастере. Но в Google Search Console все равно нужно зарегистрироваться, потому что только там можно проверить видимость сайта поисковыми пауками Гугла. Конкретно это делается в разделе «Сканирование» с помощью инструмента «Просмотреть как Googlebot».

Посмотреть как Googlebot

Если сайт выглядит таким же как и в браузере, значит все в порядке, robots.txt ничего не блокирует. Если же имеются какие-то отличия, что-то не отображается или сайт не виден вообще, значит придется выяснить, где происходит блокировка и ликвидировать её.

Как же должен выглядеть правильный Robots.txt для Вордпресс

Я все больше убеждаюсь, что лучше делать сразу минимальный robots.txt и закрывать только /wp-admin/. Естественно, открыв admin-ajax.php, если есть AJAX-запросы. И обязательно указываем Host и Sitemap.

Мой robots.txt чаще всего выглядит так:

User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Host: https://danilin.biz Sitemap: https://danilin.biz/sitemap.xml

В заключение

Создать универсальный правильный robots.txt для всех сайтов на Вордпресс невозможно.

На каждом сайте работает конкретная тема, набор плагинов и типов данных (CPT), которые генерируют свой уникальный пул URL.

Robots.txt часто корректируется уже в процессе эксплуатации сайта. Для этого осуществляется постоянный мониторинг индекса сайта. И если в него попадают какие-то ненужные страницы, они исключаются. Например, в индекс иногда попадают страницы с параметрами ?p и ?s.

Их можно исключить.

Disallow: /?p= Disallow: /?s=

Иногда даже попадают фиды, которые тоже можно закрыть.

Disallow: */feed

Вообще, задачи по исключению страниц из индекса правильнее решать на уровне кода, закрывая страницы от сканирования с помощью метатега «noindex».

Для Яндекса инструкции в robots.txt и метатег «noindex» работают одинаково — страница удаляется из индекса. А вот для Гугла robots.txt — это запрет на индексирование, а метатег «noindex» — запрет на сканирование. И если, допустим, страница заблокирована в robots.txt, поисковый робот может просто не обнаружить метатег «noindex» на этой странице, и она останется в индексе. Об этом прямо написано в Справке Search Console.

Как видим, Robots.txt может быть очень опасен для сайта.

Бездумные действия с этим файлом могут привести к печальным последствиям. Не спешите с помощью него закрывать все подряд директории. Пользуйтесь плагином Yoast SEO — он позволяет настроить правильные запреты с помощью метатегов.

Всё самое новое и интересное я публикую в своём Телеграм-канале. Подписывайтесь!

danilin.biz

Правильный robots.txt для wordpress, зачем нужен robots.txt, тэг more

Здравствуйте, дорогие читатели моего блога!

Сегодня я Вам расскажу о том, как составить правильный robots.txt для WordPress.

Многие новички в блоггинге совершают одну очень важную ошибку: они забывают составлять, или составляют неправильно очень важный файл, который называется robots.txt.

Зачем нужен robots.txt?

robots.txt для WordPressПлатформа WordPress является очень удобной платформой, однако у нее имеется ряд недостатков. Самым главным из которых является дублирование контента.

Вот смотрите, если вы опубликовали статью, то она появляется сразу на нескольких страницах и может иметь разные адреса (урлы).

Статья появляется на главной странице, в архиве, в рубрике, в ленте RSS, в поиске и т.д.

Так вот, если на блоге появляется несколько статей с одинаковым содержанием и различными адресами, то это называется дублирование контента.

Это все равно, что скопировать контент с чужого блога и вставить на свой. Эти статьи будут неуникальными.

За такие действия поисковые системы однозначно наложат на блог санкции в виде всеми любимого фильтра АГС.

Чтобы избежать дублирования контента на платформе wordpress, необходимо использовать некоторые обязательные мероприятия. Одним из которых является запрет индексации поисковыми системами тех разделов блога, на которых дубли создаются ввиду особенностей самой платформы.

Как раз robots.txt позволяет нам исключить из индекса поисковиков подобные страницы.

Кроме этого в корне блога содержатся различные служебные каталоги (например, для хранения файлов), которые тоже желательно исключать из индекса.

Как составить правильный robots.txt для WordPress?

Перед тем как приступить к составлению этого файла, нам необходимо знать основные правила его написания – директивы.

1. Директива User-agent

Эта директива определяет, какому именно поисковому роботу следует выполнять команды, которые будут указаны далее.

Например, если Вы хотите запретить индексацию чего-либо поисковому роботу Яндекса, то следует для этой директивы задать следующий параметр:

User-agent: Yandex

Если Вы хотите дать указание всем без исключения поисковым системам, то директива будет выглядеть следующим образом:

User-agent: *

В случае с рунетом, особые указания необходимо задать для Яндекса, а для роботов остальных поисковых систем подойдут общие, которые мы зададим так:

User-agent: *

2. Следующими директивами являются «Allow» и «Disallow».

Allow – разрешает индексацию указанных в ней элементов.

Disallow – соответственно запрещает индексацию.

Правильный robots.txt должен обязательно содержать директиву «Disallow».

Если написать так:

User-agent: Yandex

Disallow:

То мы разрешим индексацию поисковому роботу Яндекса всего блога полностью.

Если написать так:

User-agent: Yandex

Disallow: /

То запретим Яндексу индексировать весь ресурс.

Таким образом, мы можем разрешать или запрещать индексацию своего блога отдельным или всем роботам.

Например:

User-agent: *

Disallow:

User-agent: Yandex

Disallow: /

Здесь мы разрешили индексирование всем поисковикам, а Яндексу запретили. Надеюсь, это понятно.

Теперь нам необходимо знать, что именно следует запретить для индексации в WordPress, то есть какие разделы могут содержать дубли страниц и другой мусор.

1. все системные и служебные файлы:

— wp-login.php

— wp-register.php

— wp-content/

— wp-admin/

— wp-includes/

Отдельно хочу сказать про каталог wp-content. В принципе, все содержимое в нем необходимо закрыть, за исключением папки «uploads» в которой располагаются изображения. Потому что, в случае запрета индексирования «uploads», ваши картинки на блоге индексироваться не будут.

Поэтому будем закрывать каталоги, размещенные внутри папки «wp-content» отдельно:

Disallow: /wp-content/themes

Disallow: /wp-content/plugins

Disallow: /wp-content/languages

Disallow: /wp-content/cache

Если в каталоге «wp-content» Вашего блога есть еще какие-либо папки, то можно (и даже нужно) их закрыть (за исключением «uploads»).

2. Дубли страниц в категориях:

— category/*/*

3. RSS ленту:

— feed

4. Дубли страниц в результатах поиска:

— *?*

— *?

5. Комментарии:

— comments

6. Трэкбэки:

— trackback

Я не буду описывать структуру WordPress, а выкладываю Вам свой файл robots.txt, который установлен на моем блоге. Я считаю, что он наиболее правильный. Если Вы найдете в нем какие-либо недочеты, то просьба написать об этом в комментариях.

User-agent: *Disallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /xmlrpc.phpDisallow: /webstat/Disallow: /feed/Disallow: /trackbackDisallow: */trackbackDisallow: */feedDisallow: */commentsDisallow: /*?*Disallow: /*?Disallow: /category/*/*Disallow: /wp-content/themesDisallow: /wp-content/pluginsDisallow: /wp-content/languagesDisallow: /wp-content/cacheDisallow: /wp-admin/Disallow: /wp-includes/Disallow: /comments

Здесь же нужно задать отдельные указания Яндексу:

User-agent: YandexDisallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /xmlrpc.phpDisallow: /webstat/Disallow: /feed/Disallow: /trackbackDisallow: */trackbackDisallow: */feedDisallow: */commentsDisallow: /*?*Disallow: /*?Disallow: /category/*/*Disallow: /wp-content/themesDisallow: /wp-content/pluginsDisallow: /wp-content/languagesDisallow: /wp-content/cacheDisallow: /wp-admin/Disallow: /wp-includes/Disallow: /commentsHost: mysite.ruSitemap: http://mysite.ru/sitemap.xmlSitemap: http:// mysite.ru/sitemap.xml.gz

Если Вы не составляли файл robots.txt или сомневаетесь в правильности его составления, советую Вам использовать этот.

Для этого необходимо создать обычный текстовый документ, скопировать весь текст, представленный выше, вставить его в свой файл. Затем сохранить его под именем: robots.txt (первая буква не должна быть заглавной).

Не забудьте поменять mysite.ru на свой.

После создания файл robots.txt необходимо разместить в корне блога, затем добавить его в панель вебмастера Яндекса.

Рекомендую Вам посмотреть видео, посвященное дублированию контента:

Еще пару слов о дублировании контента.     Тэг «More»

Дело в том, что у нас на главной странице блога (mysite.ru) тоже выводятся статьи.

При нажатии на заголовок поста, мы переходим на его страницу (mysite.ru/…./….html). Таким образом, часть поста (та, что на главной) является дублем такой же части текста основной статьи.

Закрыть от индексации здесь ничего нельзя. Поэтому рекомендую Вам выводить на главную страницу как можно меньше текста основной статьи.

А именно приветствие и небольшой анонс.

Пример Вы можете посмотреть у меня на главной странице (анонс к этой статье).

Тег more

Для этого используется тэг more.

Проще говоря: набрали небольшой фрагмент (приветствие и анонс), который будет выведен на главную, перешли в редактор HTML и вставили следующий код:

<!- -more- ->

Тэг more

И продолжаете дальше писать статью.

Тэг more

Вся часть текста, расположенная перед тэгом more, будет выведена на главную страницу.

Рекомендую посмотреть видео: «Что такое Robots.txt?»:

На этом у меня все. Обязательно создайте правильный robots.txt для WordPress!

С уважением, Александр Бобрин

asbseo.ru

Правильный robots txt для wordpress!

Привет всем, сейчас предоставлю правильный robots txt для wordpress. Если вы не никак не можете его настроить, то мой совет будет как раз кстати и вы не попадете под АГС!

Файл robots.txt может запретить индексировать сайт, а может и запретить. Он нужен для того, чтобы поисковики не смогли проиндексировать ненужные страницы (админ панель, скрытые страницы) и они не попали в выдачу.

Внимание: если его не правильно настроить - можно без проблем попасть под фильтр АГС (примеры видел) и вот тогда он уже вам не понадобиться :). Сейчас мы с вами создадим правильный робот тхт, но сперва посмотрите на свой.

Вбейте в браузере: ваш-сайт.ru/robot.txt Если видна вот такая картинка:

То это очень плохо! У такого блога всё открыто, будет дубль контента и т.д.

 

Лежит этот файл в главной категории вашего сайта, создать его очень просто - создаете простой txt и переименовываете в robot, в него копируете код ниже и радуетесь жизнью.

 

Предлагаю в наглую скопировать у меня: //seonotes.com.ua/robots.txt

User-agent: YandexDisallow: /cgi-binDisallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /webstat/Disallow: /wp-adminDisallow: /wp-includesDisallow: /wp-content/pluginsDisallow: /wp-content/cacheDisallow: /wp-content/themesDisallow: /wp-trackbackDisallow: /wp-feedDisallow: /wp-commentsDisallow: /*/?replytocom=*Disallow: */comment-page-*Disallow: /trackbackDisallow: /feedDisallow: /commentsDisallow: */trackbackDisallow: */feedDisallow: */commentsDisallow: /*?*Disallow: /*?Disallow: /tagDisallow: /sidebar/Disallow: /xmlrpc.phpDisallow: /page/Disallow: /images/

User-agent: GooglebotDisallow: /cgi-binDisallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /webstat/Disallow: /wp-adminDisallow: /wp-includesDisallow: /wp-content/pluginsDisallow: /wp-content/cacheDisallow: /wp-content/themesDisallow: /wp-trackbackDisallow: /wp-feedDisallow: /wp-commentsDisallow: /*/?replytocom=*Disallow: */comment-page-*Disallow: /trackbackDisallow: /feedDisallow: /commentsDisallow: */trackbackDisallow: */feedDisallow: */commentsDisallow: /*?*Disallow: /*?Disallow: /tagDisallow: /sidebar/Disallow: /xmlrpc.phpDisallow: /page/Disallow: /images/

User-agent: *Disallow: /cgi-binDisallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /webstat/Disallow: /wp-adminDisallow: /wp-includesDisallow: /wp-content/pluginsDisallow: /wp-content/cacheDisallow: /wp-content/themesDisallow: /wp-trackbackDisallow: /wp-feedDisallow: /wp-commentsDisallow: /*/?replytocom=*Disallow: */comment-page-*Disallow: /trackbackDisallow: /feedDisallow: /commentsDisallow: */trackbackDisallow: */feedDisallow: */commentsDisallow: /*?*Disallow: /*?Disallow: /tagDisallow: /sidebar/Disallow: /xmlrpc.phpDisallow: /page/Disallow: /images/

Host: seonotes.com.uaSitemap: //seonotes.com.ua/sitemap.xmlSitemap: //seonotes.com.ua/sitemap.xml.gz

Для внимательных расскажу - Disallow запрещает к индексированию файл или отдельный каталог.

 

Host - адрес вашего сайта. ВНИМАНИЕ!!! Заранее определитесь, будет ли ваш сайт доступен по www.ваш-сайт.ru или просто  ваш-сайт.ru, если будет доступен так и так - это грубейшая ошибка вашего сайта.

 

В будущем всегда оставляйте ссылки на свой блог только с тем вариантом (с www или без) который вы указали в роботе, ибо все ваши старания будут на смарку. Для нас 1 сайт, но для поисковиков его 2-ва, вот таки дела, в отдельном случае может и 4-е варианта быть.

 

Как узнать что в индексе?

Я надеюсь ваш сайт уже в Яндекс.Вебмастере, нет - регистрируйтесь сейчас же! Заходим во вкладку "Страниц в поиске":

 

Как видите, у меня в индексе есть "Туристический кроссворд", его можно бы и закрыть, тогда я бы вписал в robots.txt для wordpress -Disallow: /kross<Кстати интересно то, что Google индексирует намного больше хлама чем Яндекс, сравните:

Кто знает как от этого избавиться?

Смысл понятен? Если найдете страницы, которые не нужно индексировать - вписываете и дело с концом.

 

Дубль страниц

Многие страницы нашего блога повторяются, точнее не страницы а контент. К примеру на главной есть анонсы постов, этот же текст есть на странице категории, он есть на странице тегов и непосредственно в самом посте.

 

Представляете, что ваш анонс на блоге повторяется аж 4-е раза! Главную и страницу поста мы закрывать не будет, но вот страницы категорий и тегов - закрыть обязательно. Перейдите в настройку плагина "SEO все в одном" и поставьте нужные галочки:

 

За дубль и за доступность www и без него - поисковики жестоко наказывают, кстати это еще не всё, есть что рассказать.

Если нужно закрыть определённую страницу на сайте, скачайте плагин "Robots Meta" и тогда при редактировании постов и страниц появится вот такой вот виджетик:

Очень удобно!

Один раз сделайте и забудьте об этом файле, положите его в главную категорию вашего сайта через FTP.

На этом все дорогие друзья, теперь вы знаете как составить правильный robots txt для wordpress, если я что-то не правильно сказал - пишите в комментариях, если будет вопрос - отвечу.

 

На десерт: Что такое лиды? Как настроить тугую струю клиентов. Посмотрите обязательно!

seonotes.com.ua


Смотрите также

Prostoy-Site | Все права защищены © 2018 | Карта сайта