Как создать правильный robots txt для CMS MODx. Правильный robots txt для modx


Правильный robots.txt для WordPress, Opencart, Bitrix и Joomla!

Мы подготовили для Вас правильные robots.txt для самых популярных CMS Рунета. Но нужно понимать, что мы исключили лишь общие файлы и страницы. Если на сайте появится Ваш собственный «мусор», его придется убирать самостоятельно.

Ниже все инструкции прописаны для User-agent: Yandex. По желанию Вы можете добавить эти же инструкции и для User-agent: *

Не забывайте вписывать свое главной зеркало и актуальный путь к Вашей sitemap.xmlДля корректной работы на всех сайтах должно быть включено ЧПУ. Поисковые системы любят небольшие читаемые URL, особенно, если они отражают суть страницы.Выберите свою CMS:

Robots.txt для WordPress

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml

Robots.txt для Joomla!

User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /modules/ Disallow: /plugins/ Disallow: /tmp/ Disallow: /layouts/ Disallow: /cli/ Disallow: /bin/ Disallow: /logs/ Disallow: /components/ Disallow: /component/ Disallow: /component/tags* Disallow: /*mailto/ Disallow: /*% Disallow: /index.php Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml

Robots.txt для MODx EVO

User-agent: Yandex Disallow: /assets/cache/ Disallow: /assets/docs/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/modules/ Disallow: /assets/plugins/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /manager/ Disallow: /? Disallow: /*? Disallow: /index.php Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml

Robots.txt для Bitrix

User-agent: Yandex Disallow: /bitrix/admin/ Disallow: /admin/ Disallow: /bitrix/ Disallow: /about/pics/ Disallow: /blog/user/ Disallow: /blog/friends/ Disallow: /sitemanager/projects/ Disallow: /partners/list/ Disallow: /support/forum/topic/new/ Disallow: /support/forum/users/ Disallow: /support/forum/user/ Disallow: /support/forum/search/ Disallow: /support/forum/rules/ Disallow: /support/forum/help/ Disallow: /support/forum/pm/ Disallow: /support/forum/subscribe/ Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml

Robots.txt для Opencart

User-agent: Yandex Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/category Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml

Robots.txt для DLE

User-agent: Yandex Disallow: /engine/go.php Disallow: /engine/download.php Disallow: /user/ Disallow: /newposts/ Disallow: /statistics.html Disallow: /*subaction=userinfo Disallow: /*subaction=newposts Disallow: /*do=lastcomments Disallow: /*do=feedback Disallow: /*do=register Disallow: /*do=lostpassword Disallow: /*do=addnews Disallow: /*do=stats Disallow: /*do=pm Disallow: /print/ Disallow: /tags/ Disallow: /admin.php?mod=main Disallow: /backup/ Disallow: /engine/ Disallow: /index.php?do=search Disallow: /page/ Host: ГЛАВНОЕ ЗЕРКАЛО САЙТА Sitemap: http://ВАШ ДОМЕН/sitemap.xml

dh-agency.ru

Правильный Robots.txt для Modx - Бери и внедряй!

Robots.txt для Modx

Создайте текстовый файл с названием robots.txt и скопируйте в него следующее содержание, после загрузите этот файл в корень сайта.

User-agent: * Disallow: /manager/ Disallow: /assets/components/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/cache/ Disallow: /assets/plagins/ Disallow: /assets/modules/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: /search Disallow: /profile/ Disallow: *? Host: site.ru Sitemap: http://site.ru/sitemap.xml

Наш блог

pgdv.ru

Как создать правильный robots txt для CMS MODx

Всем привет друзья! Продолжаю вместе с вами осваивать премудрости системы управления сайтом под названием MODx и сегодняшний урок я вместе с вами решил посвятить созданию файла robots txt для нее.

Скажу честно, эта CMS немного непонятная…была, как мне показалось, но как только стал в ней «ковыряться», крутить болтики и гаечки, то все вроде как стало на свои места.

Ничего сложного никогда не бывает, только в самом начале пути, а потом все нормально.

Итак, будем вместе составлять правильный robots txt для поисковых роботов яндекса и гугла, чтобы наш сайт на MODx быстрее проиндексировался и в него попали только страницы с информативным содержанием.

У меня есть клиентский сайт интернет магазин автомагнитол у него имеется вот такая структура файлов и папок.

Как создать правильный robots txt для CMS MODx

 

Для этого сайта мой правильный robots для modx был вот таким:

User-agent: * Disallow: /assets/cache/ Disallow: /assets/docs/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/modules/ Disallow: /assets/plugins/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /manager/ Host: ms-autotech.ru Sitemap: http://ms-autotech.ru/sitemap.xml

Обязательно сделайте sitemap, чтобы поисковый робот занес к себе в базу нужные страницы.

Далее все просто. Сохраняете выше приведенную инструкцию в файлик с расширением robots.txt и заливаете его в корень вашего сайта, как это показано у меня вот здесь:

Как создать правильный robots txt для CMS MODx

И с последующей переиндексацией служебные и ненужные страницы не будут ранжироваться и показываться во всех поисковых системах, поскольку вы указали следующее правило

User-agent: *

 , эта запись говорит, что содержимое должны сканировать все без исключения роботы.

Важно! Если вы не используете на своем сайте файл robots.txt, то вы сильно рискуете в продвижении своего проекта в интернете. В индекс будет попадать весь «мусор» и поисковые системы просто будут понижать вас в выдаче и не давать вашему сайту пробиться в ТОП. Внимательно отнеситесь к этому.

На этом урок завершен. Записал небольшое короткое видео для любителей посмотреть все в живую. Всем спасибо и до встречи в следующих выпусках!

a666.ru

Как сделать правильный файл robots.txt

Иногда, веб-мастеру, может потребоваться закрыть от индексации часть сайта. Эта задача легко решается при помощи файла robots.txt. Вы наверное спросите: «А для чего веб-мастера закрываю часть своего портала от индексации роботами?» Некоторые страницы закрываются чтобы избежать плохой индексации роботами поисковиков, или чтобы не попасть под фильтры поисковиков (да да, и такое бывает) из-за не уникального контента…, а чаще всего, чтобы закрыть от индексации различный мусор в CMS такой к примеру как дубли страниц, админку, тему офорления.

Файл robots.txt  – это текстовый файл, находящийся в корневой директории на хостинге, в котором записываются специальные действия для страниц, записей, картинок и.т.д.

Поисковые роботы при заходе на сайт сразу ищут файл robots.txt и рассматривают инструкции этого файла оставленные вебмастером для поисковых роботов.

Инструкции файла robots.txt могут

Файл robots.txt включает в себя две основные инструкции: «User-agent» и «Disallow» при помощи которых и описывается, что поисковым роботам индексировать, а что пропустить. Некоторые поисковые системы поддерживают еще и дополнительные инструкции. Так, например, поисковая система «Yandex» использует еще инструкцию «Host».

Давайте, подробно рассмотрим каждую инструкцию и записи, которые делают вебмастера после них в файле robots.txt

Инструкция файла robots.txt «User-agent»

Эта инструкция определяет для каких поисковых роботов производить запрет или разрешать индексировать страницы (каталога). Если мы хотим производить запрет или разрешать индексацию для всех роботов, то в файле robots.txt делается следующая запись:

User-agent: *

По сути, «*» означает разрешение для просмотра всеми поисковиками (Yandex, Google, Bing…). Если мы хотим, чтобы запрет производился только для google, то нужно сделать запись:

User-agent: googlebot

Инструкция файла robots.txt «Disallow»

Эта запись определяет, какие страницы (каталоги) нужно запретить к просмотру поисковиков в файле robots.txt.

Disallow: /

Если поставить просто » / «, то будет происходить запрет на все каталоги и страницы ресурса.

Disallow: /image/

Если сделать так, то происходит запрет на индексацию всего каталога «/image/«, то-есть всех вложенных папок.

Disallow: /page1-small.htm

Если, сделать такую запись произойдет запрет на индексацию отдельной страницы «/page1-small.htm«

Если, Вы не хотите вообще, делать запрет на какие-либо страницы и каталоги оставьте место для записи пустым:

Disallow:

Одно из важнейших правил правильной записи правил файла robots.txt — каждая новая инструкция пишется с новой строки.

Yandex инструкция файла robots.txt «Host»

Эта инструкция указывает yandexbot основное зеркало вашего сайта. В этой директиве файла robots.txt прописывается адрес с www или без www:

Host: www.goldserfer.ru

Не пишите http://ваш сайт.ru инструкция работать не будет.

Yandex инструкция файла robors.txt «Crawl-delay»

Эта инструкция robots.txt указывает минимальный интервал в секундах, между запросами на загрузку страниц сайта для индексации роботами (применяется для уменьшения нагрузки на сервер).

Crawl-delay: 5

Инструкция файла robots.txt «Visit-time»

Эта инструкция robots.txt указывает поисковым роботам время загрузки страниц сайта для индексации (с 1 утра до 3:45 по Гринвичу).

Visit—time: 0100-0345 

По-моему, очень удобная штука! К примеру мы производим какие-то изменения, а тут притопал один из ботов — «не званный гость», и все слопал с нужными (не нужными) изменениями…. Сами понимаете, не есть хорошо. Поэтому, обязательно прописываем это правило для ботов с нужными временными рамками посещений.

Примеры файлов robots.txt.

 

User-agent: *

Disallow:

Для всех поисковых роботов сайт полностью доступен к индексации.

User-agent: *

Disallow: /images/

Disallow: /buttons/

Disallow: /themes/

Для все поисковых роботов на сайте запрещены к индексации каталоги » /images/, /buttons/, /themes/ «

Файл robots.txt для WordPress блога:

User-agent: *Disallow: /cgi-bin/Disallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /wp-includes/Disallow: /search/Disallow: /xmlrpc.phpDisallow: /wp-admin/Disallow: /wp-content/pluginsDisallow: /wp-content/cacheDisallow: /wp-content/themesDisallow: /tag/Disallow: /feed/Disallow: /trackback/Disallow: */trackback/Disallow: */?s*Disallow: */?p*Disallow: */*.js*Sitemap: http://ваш сайт/sitemap.xmlCrawl-delay: 5Visit- time: 0200-0545Host: ваш сайт.ru

Файл robots.txt для Joomla:

User-agent: *Disallow: /administrator/Disallow: /cache/Disallow: /components/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /libraries/Disallow: /media/Disallow: /modules/Disallow: /plugins/Disallow: /templates/Disallow: /tmp/Disallow: /xmlrpc/Disallow: /index2.php?option=com_contentDisallow: /index.php?option=com_content Crawl-delay: 10Request-rate: 1/10         Visit-time: 0200-0545 Host: ваш сайт.ruSitemap: http://ваш сайт/sitemap.xml

Файл robots.txt для Drupal:

User-agent: * Disallow: /database/ Disallow: /includes/ Disallow: /misc/ Disallow: /modules/ Disallow: /sites/ Disallow: /themes/ Disallow: /scripts/ Disallow: /updates/ Disallow: /profiles/ Disallow: /xmlrpc.php Disallow: /cron.php Disallow: /update.php Disallow: /install.php Disallow: /index.php Disallow: /admin/ Disallow: /comment/reply/ Disallow: /contact/ Disallow: /logout/ Disallow: /search/ Disallow: /user/register/ Disallow: /user/password/ Disallow: /user/login/ Disallow: /top-rated- Disallow: /messages/ Disallow: /book/export/ Disallow: /user2userpoints/ Disallow: /myuserpoints/ Disallow: /tagadelic/ Disallow: /referral/ Disallow: /aggregator/ Disallow: /files/pin/ Disallow: /your-votes Disallow: /comments/recent Disallow: /*/edit/ Disallow: /*/delete/ Disallow: /*/export/html/ Disallow: /taxonomy/term/*/0$ Disallow: /*/edit$ Disallow: /*/outline$ Disallow: /*/revisions$ Disallow: /*/contact$ Disallow: /*downloadpipe Disallow: /node$ Disallow: /node/*/track$ Disallow: /*& Disallow: /*% Disallow: /*?page=0 Allow: /*?page= Disallow: /*?Visit-time: 0200-0545  Host: ваш сайт.ruSitemap: http://ваш сайт/sitemap.xml

Файл robots.txt  для MODx Evo.

User-agent: *Disallow: /assets/cache/Disallow: /assets/docs/Disallow: /assets/export/Disallow: /assets/import/Disallow: /assets/modules/Disallow: /assets/plugins/Disallow: /assets/snippets/Disallow: /install/Disallow: /manager/  Visit-time: 0200-0545 Host: ваш сайт.ruSitemap: http://ваш сайт/sitemap.xml

Файл robot.txt для MODx Revo.

User-agent: * Disallow: /assets/cache/ Disallow: /assets/docs/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/modules/ Disallow: /assets/plugins/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /manager/ Disallow: /? Disallow: /*?id=Visit-time: 0200-0545  Host: ваш сайт.ru Sitemap: http://ваш сайт/sitemap.xml

Спонсор показа статьи Seo-Sem. Сегодня поисковое продвижение сайта является одним из самых эффективных и выгодных способов рекламы ресурса. Вы не знаете с чего начать продвижение? Не беда! Компания Seo-Sem организует комплексное продвижение сайтов по доступным ценам и на высоком уровне.

goldserfer.ru

Правильные Robots.txt для CMS

LiveStreetUser-agent: * Disallow: /search/ Disallow: /rss/ Disallow: /yarss/ Sitemap: http://site.ru/sitemap.xml Host: site.ru

SimplaUser-agent: * Disallow: /sections/404 Disallow: /simpla/ Disallow: /order/ Disallow: /user/ Disallow: /js/ Disallow: /captcha/ Disallow: /Smarty/ Disallow: /design/ Disallow: /api/ Disallow: /compiled/ Disallow: /cart/ Disallow: /resize/ Disallow: /password.php Sitemap: http://site.ru/sitemap.xml Host: site.ru

InstantCMSUser-agent: * Disallow: /admin/ Disallow: /backups/ Disallow: /backup/ Disallow: /core/ Disallow: /components/ Disallow: /wysiwyg/ Disallow: /includes/ Disallow: /modules/ Disallow: /filters/ Disallow: /languages/ Disallow: /install/ Disallow: /users/ Disallow: /core/ Sitemap: http://site.ru/sitemap.xml Host: site.ru

Typo3User-Agent: * Disallow: /fileadmin/website/notimportant/ Disallow: /flow/drafts/ Disallow: /neos/drafts/ Disallow: /t3lib/ Disallow: /typo3/ Disallow: /typo3conf/ Disallow: /typo3temp/ Disallow: /typo3cms/drafts/ Disallow: /*?id=* Sitemap: http://site.ru/sitemap.xml Host: site.ru

UCOZUser-agent: * Disallow: /a/ Disallow: /stat/ Disallow: /index/1 Disallow: /index/2 Disallow: /index/3 Disallow: /index/5 Disallow: /index/7 Disallow: /index/9 Disallow: /panel/ Disallow: /admin/ Disallow: /secure/ Disallow: /informer/ Disallow: /mchat Disallow: /search Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap-forum.xml Host: site.ru

WebAsyst Shop-ScriptUser-agent: * Disallow: /auth/ Disallow: /cart/ Disallow: /checkout/ Disallow: /feedback/ Disallow: /installer/ Disallow: /published/ Disallow: /installer/ Disallow: /published/wbsadmin/ Disallow: /login/ Disallow: /logout/ Disallow: /myaccount/ Disallow: /order_status/ Disallow: /published/SC/html/scripts/ Disallow: /register/ Disallow: /remind_password/ Disallow: /*view=* Disallow: /*/reviews/ Disallow: /order_status/ Disallow: /order_history/ Disallow: /*ukey=order_history Disallow: /*print_form* Disallow: /*save_voting_results=yes Disallow: /category/*/offset Disallow: /en/ Sitemap: http://site.ru/sitemap.xml Host: site.ru

PHPShopUser-Agent: * Disallow: /java/ Disallow: /opros/ Sitemap: http://site.ru/sitemap.xml Host: site.ru

NetCatUser-Agent: * Disallow: /? Disallow: /install/ Disallow: /links/ Disallow: /js/ Disallow: /netcat/ Disallow: /netcat_files/ Disallow: /*.swf Disallow: /eng/ Sitemap: http://site.ru/sitemap.xml Host: site.ru

MagentoUser-agent: * Disallow: /CVS Disallow: /*.svn$ Disallow: /*.idea$ Disallow: /*.sql$ Disallow: /*.tgz$ Disallow: /admin/ Disallow: /app/ Disallow: /downloader/ Disallow: /errors/ Disallow: /includes/ Disallow: /lib/ Disallow: /pkginfo/ Disallow: /shell/ Disallow: /var/ Disallow: /api.php Disallow: /cron.php Disallow: /cron.sh Disallow: /error_log Disallow: /get.php Disallow: /install.php Disallow: /LICENSE.html Disallow: /LICENSE.txt Disallow: /LICENSE_AFL.txt Disallow: /README.txt Disallow: /RELEASE_NOTES.txt Disallow: /*?dir* Disallow: /*?dir=desc Disallow: /*?dir=asc Disallow: /*?limit=all Disallow: /*?mode* Disallow: /*?SID= Disallow: /checkout/ Disallow: /onestepcheckout/ Disallow: /customer/ Disallow: /customer/account/ Disallow: /customer/account/login/ Disallow: /catalogsearch/ Disallow: /catalog/product_compare/ Disallow: /catalog/category/view/ Disallow: /catalog/product/view/ Disallow: /cgi-bin/ Disallow: /cleanup.php Disallow: /apc.php Disallow: /memcache.php Disallow: /phpinfo.php Sitemap: http://site.ru/sitemap.xml Host: site.ru

ImageCMSUser-agent: * Disallow: /applications/modules/admin Disallow: /rss Disallow: /captcha Disallow: /js Sitemap: http://site.ru/sitemap.xml Host: site.ru

DLE (Data life Engine)User-agent: * Disallow: /*print Disallow: /user/ Disallow: /backup/ Disallow: /engine/ Disallow: /language/ Disallow: /templates/ Disallow: /upgrade/ Disallow: /uploads/ Disallow: /autobackup.php Disallow: /admin.php Disallow: /index.php?do=addnews Disallow: /index.php?do=feedback Disallow: /index.php?do=lostpassword Disallow: /index.php?do=pm Disallow: /index.php?do=register Disallow: /index.php?do=stats Disallow: /index.php?do=search Disallow: /index.php?subaction=newposts Disallow: /?do=lastcomments Disallow: /statistics.html Sitemap: http://site.ru/sitemap.xml Host: site.ru

UMI CMSUser-Agent: * Disallow: /? Disallow: /emarket/addToCompare Disallow: /emarket/basket Disallow: /go_out.php Disallow: /images Disallow: /images/lizing Disallow: /images/ntc Disallow: /files Disallow: /users Disallow: /admin Disallow: /search Disallow: /install-temp Disallow: /install-static Disallow: /install-libs Sitemap: http://site.ru/sitemap.xml Host: site.ru

HostCMSUser-agent: * Disallow: /404/ Disallow: /403/ Disallow: captcha.php Disallow: download_file.php Sitemap: http://site.ru/sitemap.xml Host: site.ru

Amiro CMSUser-agent: * Disallow: /admin Disallow: /_admin/ Disallow: /members Disallow: /search Disallow: /subscribe Disallow: /users Disallow: /*offset=0 Disallow: /*forum_ext= Disallow: /*_print_version= Disallow: /*action=export_rss Disallow: /*action=search Disallow: /*action=view_posts Disallow: /*display_form= Sitemap: http://site.ru/sitemap.xml Host: site.ru

JoomlaUser-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Sitemap: http://site.ru/sitemap.xml Host: site.ru

WordpressUser-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Sitemap: http://site.ru/sitemap.xml Host: site.ru

BitrixUser-agent: * Disallow: /bitrix/ Disallow: /search/ Disallow: /auth/ Disallow: /service-pages/ Disallow: /include/ Disallow: /cgi-bin/ Disallow: /personal/ Disallow: /auth.php Disallow: /*?print= Disallow: /*&print= Disallow: /*register=yes Disallow: /*forgot_password=yes Disallow: /*change_password=yes Disallow: /*login=yes Disallow: /*logout=yes Disallow: /*auth=yes Disallow: /*backurl=* Disallow: /*back_url=* Disallow: /*back_url_admin=* Disallow: /*index.php?set_filter=* Disallow: /*index.php?sort=* Disallow: /*index.php?arrFilter* Disallow: /*?PAGEN Disallow: /*?count Disallow: /*?action Disallow: /access.log Disallow: /*?set_filter=* Disallow: /*?q=* Sitemap: http://site.ru/sitemap.xml Host: site.ru

MODxUser-agent: * Disallow: /assets/cache/ Disallow: /assets/docs/ Disallow: /assets/export/ Disallow: /assets/import/ Disallow: /assets/modules/ Disallow: /assets/plugins/ Disallow: /assets/snippets/ Disallow: /install/ Disallow: /manager/ Disallow: /? Disallow: /*? Disallow: /index.php Sitemap: http://site.ru/sitemap.xml Host: site.ru

DrupalUser-agent: * Disallow: /database/ Disallow: /includes/ Disallow: /misc/ Disallow: /modules/ Disallow: /themes/ Disallow: /scripts/ Disallow: /updates/ Disallow: /profiles/ Disallow: /xmlrpc.php Disallow: /cron.php Disallow: /update.php Disallow: /install.php Disallow: /index.php Disallow: /admin/ Disallow: /comment/reply/ Disallow: /comment/ Disallow: /contact/ Disallow: /logout/ Disallow: /search/ Disallow: /user/register/ Disallow: /user/password/ Disallow: /user/login/ Disallow: /top-rated- Disallow: /messages/ Disallow: /book/export/ Disallow: /user2userpoints/ Disallow: /myuserpoints/ Disallow: /tagadelic/ Disallow: /referral/ Disallow: /aggregator/ Disallow: /files/pin/ Disallow: /your-votes Disallow: /comments/recent Disallow: /?q=comment/ Disallow: /*/edit/ Disallow: /*/delete/ Disallow: /*/export/html/ Disallow: /taxonomy/term/*/0$ Disallow: /*/edit$ Disallow: /*/outline$ Disallow: /*/revisions$ Disallow: /*/contact$ Disallow: /*downloadpipe Disallow: /node$ Disallow: /node/ Disallow: /*& Disallow: /*?page=0 Allow: /*?page= Disallow: /*? Sitemap: http://site.ru/sitemap.xml Host: site.ru

OpencartUser-agent: * Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /wishlist Disallow: /login Sitemap: http://site.ru/sitemap.xml Host: site.ru

i-leon.ru

Правильная настройка robots.txt для различных CMS

Поисковые роботы, индексируют сайт независимо от наличия robots.txt и sitemap.xml, с помощью фаила robots.txt можно указать поисковым машинам, что исключить из индекса, и настроить другие важные параметры. 

Стоит учесть, что краулеры поисковых машин игнорируют определенные правила, например:

Директивы

Директивы — это правила для роботов. Есть спецификация W3C от 30 января 1994 года и расширенный стандарт от 1996 года. 

Основные - часто используемые директивы

User-agent: директива с которой начинается Robots.txt. 

Пример:

User-agent: * # указания для всех поисковых роботов. User-agent: Yandex # указания для робота Яндекса. User-agent: GoogleBot # указания для робота Google. Disallow: # запрещающая деректива,запрет индексции того, что указанно после /. Allow: # разрешающая деректива, для указание на индексацию URL.  Disallow: # не работает без спецсимвола /. Allow: / # игнорируются, если после / не указан URL.

Спецсимволы которые используются в robots.txt  /, * , $.

Обратите внимание на символ /, можно допустить крупную ошибку прописав например:

User-agent:* Disallow: / # таким образом можно закрыть весь сайт от индексации

Спецсимвол * означает любую, в том числе и пустую последовательность символов, например:

Disallow: /cart/* # закрывает от индексации все страницы после URL: site.ru/cart/

Спецсимвол $ ограничивает действие символа *, дает строгое ограничение:

User-agent:* Disallow: /catalog$ # при таком символе не будет индексироваться catalog, но в индексе будет catalog.html

Директива sitemap - указывает путь к карте сайта и выглядит так:

User-agent:* Allow: /   Sitemap: http://www.site.ru/sitemap.xml # ее необходимо указывать с http:// или https://, https:// - указывается если подключён SSL сертефикат

Директива Host - указывает главное зеркало сайта с "WWW" или без "WWW"

User-agent:* Allow: /   Sitemap: http://www.site.ru/sitemap.xml  Host: www.site.ru # следует писать путь к домену без http и без слешей, убедитесь, что домен склеен. Без правильной склейки домена одна и та же страница может попасть в индекс поисковых систем более одного раза, что может повлечь пессимизацию. 

Директива Crow-Delay - ограничивает нагрузку на сервер, задает таймаут для поисковых машин:

User-agent: * Crawl-delay: 2 # задает таймаут в 2 секунды User-agent: * Disallow: /search Crawl-delay: 4.5 # задает таймаут в 4.5 секунды

Директива Clean-Param необходима если адреса страниц сайта содержат динамические параметры, которые не влияют на содержимое, например: идентификаторы сессий, пользователей, рефереров и т.п..

Робот Яндекса, используя значения дерективы Clean-Param, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, страницы с таким адресом: 

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.site.com/some_dir/get_book.pl?ref=site_3&book_id=123

Параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой book_id=123. Тогда, если указать директиву следующим образом:

User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

робот Яндекса сведет все адреса страницы к одному:

www.site.com/some_dir/get_book.pl?ref=site_1&book_id=123,

Также стоит отметить, что для этой директивы есть несколько вариантов настройки

Кириллические символы в robots.txt

Использование символов русского алфавита запрещено в robots.txt, для этого необходимо использовать Punycode (стандартизированный метод преобразования последовательностей Unicode-символов в так называемые ACE-последовательности)

#Неверно: User-agent: * Disallow: /корзина Host: интернет-магазин.рф #Верно: User-agent: * Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0 Host: xn----8sbalhasbh9ahbi6a2ae.xn--p1ai

Рекомендации по тому, что нужно закрывать в фаиле robots.txt

Ошибки, которые могут быть в robots.txt

Проверка ошибок в robots.txt c помощью Лабрики

labrika→в левом меню Технический аудит→в выпадающем меню→Ошибки robots.txt→перепроверить robots.txt

Необходимо учесть, что фаил размером больше 32кб считывается как полностью разрешающий вне зависимости от того, что написано.

Избыточное наполнение robots.txt. Начинающие вебмастера впечатляются статьями, где сказано, что все ненужное необходимо закрыть в robots.txt и начинают закрывать вообще все, кроме текста на строго определенных страницах. Это, мягко говоря, неверно. Во-первых, существует рекомендация Google не закрывать скрипты, CSS и прочее, что может помешать боту увидеть сайт так же, как видит его пользователь. Во-вторых, очень большое количество ошибок связано с тем, что закрывая одно, пользователь закрывает другое тоже. Безусловно, можно и нужно проверять доступность страницы и ее элементов . Как вариант ошибки - путаница с последовательностью Allow и Disallow. Лучше всего закрывать в robots.txt только очевидно ненужные боту вещи, вроде формы регистрации, страницы перенаправления ссылок и т.п., а от дубликатов избавляться с помощью canonical. Обратите внимание, что то, что Вы поправили robots.txt совсем не обозначает, что Yandex- bot и Google-bot его сразу перечитают. Для ускорения этого процесса достаточно посмотреть на robots.txt, соответствующем разделе вебмастера.

Примеры правильно настроенного robots.txt для разных CMS:

WordPress

User-Agent: * Allow: /wp-content/uploads/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content Disallow: /tag Disallow: /category Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: site.ru Sitemap: http://site.ru/sitemap.xml

ModX

User-agent: * Disallow: /manager/ Disallow: /assets/components/ Disallow: /core/ Disallow: /connectors/ Disallow: /index.php Disallow: *? Host: example.ru Sitemap: http://example.ru/sitemap.xml

OpenCart

User-agent: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /download Disallow: /export Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*?page= Disallow: /*&page= Disallow: /wishlist Disallow: /login Disallow: /index.php?route=product/manufacturer Disallow: /index.php?route=product/compare Disallow: /index.php?route=product/category

Joomla

User-agent:* Allow: /index.php?option=com_xmap&sitemap=1&view=xml Disallow: /administrator/   Disallow: /cache/ Disallow: /components/ Disallow: /go.php Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /logs/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /*com_mailto* Disallow: /*pop=* Disallow: /*lang=ru*     Disallow: /*format=*     Disallow: /*print=* Disallow: /*task=vote* Disallow: /*=watermark*     Disallow: /*=download* Disallow: /*user/*     Disallow: /.html         Disallow: /index.php? Disallow: /index.html Disallow: /*? Disallow: /*% Disallow: /*& Disallow: /index2.php Disallow: /index.php   Disallow: /*tag         Disallow: /*print=1         Disallow: /trackback         Host: Ваш сайт                

Bitrix

User-agent: * Disallow: /*index.php$ Disallow: /bitrix/ Disallow: /auth/ Disallow: /personal/ Disallow: /upload/ Disallow: /search/ Disallow: /*/search/ Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*?print= Disallow: /*&print= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*?action= Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*BACKURL=* Disallow: /*back_url=* Disallow: /*BACK_URL=* Disallow: /*back_url_admin=* Disallow: /*print_course=Y Disallow: /*COURSE_ID= Disallow: /*?COURSE_ID= Disallow: /*?PAGEN Disallow: /*PAGEN_1= Disallow: /*PAGEN_2= Disallow: /*PAGEN_3= Disallow: /*PAGEN_4= Disallow: /*PAGEN_5= Disallow: /*PAGEN_6= Disallow: /*PAGEN_7= Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*SHOWALL Disallow: /*show_all= Host: sitename.ru Sitemap: http://www.sitename.ru/sitemap.xml

В данных примерах, в указании User-Agent указан параметр * разрешающий доступ всем поисковым роботам, для настройки robots.txt под отдельные поисковые системы вместо спецсимвола указывается название робота  Yandex, GoogleBot, StackRambler, Aport, Slurp, MSNBot, ia_archiver.

 

labrika.ru


Prostoy-Site | Все права защищены © 2018 | Карта сайта