RSS сайта | RSS форума | RSS каталога файлов | RSS блога | Карта форума | Карта сайта | Все теги сайта
Главная страница

ГлавнаяФорумБлогФайлыОбратная связьО сайтеГостевая книгаПоиск
Настал ваш час, чтобы заработать реальные деньги на своем сайте
ВНИМАНИЕ!!!
Не зарегистрированные участники сайта ProSIdr, т.е. гости, НЕ могут оставлять сообщения на форуме. 
Для более корректного общения убедительная просьба
РЕГИСТРАЦИЯ или ВХОД
Реклама:
[ Новые сообщения · Заработай на своем сайте · Участники · Правила форума · Поиск · RSS ]
Страница 1 из 11
Модератор форума: Admin 
Форум "ProSIdr" » Веб местерам » Статьи вебмастерам » Создание файла robots.txt
Создание файла robots.txt
JockerДата: Воскресенье, 12.12.2010, 18.43.27 | Сообщение # 1
Глава сайта
Группа: Администраторы
Сообщений: 496
« »

Смайл настроения:
Ранг:

Доп. данные:
Всем привет. Вот сегодня столкнулся с такой задачей, мне нужно прописать зеркало индексируемого сайта. Так как там трудность заключается в указании поисковым роботам индексируемых страниц и отдельных тонкостей. Эти тонкости заключаются в отдельно прописываемых директивах.
Что должно обязательно быть в файле robots.txt? Две директивы: «User-agent» и «Disallow». Существуют еще и дополнительные записи для различных поисковых систем. Например, Яндекс для определения главного зеркала веб-сайта использует директиву «Host».

1, Обязательная директива «User-agent»
Если обращение происходит абсолютно ко всем поисковикам, то пишем символ звездочку «*», выглядит это так:
User-agent: *
Если нужно обратиться к роботу Яндекса, то запись будет выглядеть так:
User-agent: Yandex

2, Обязательная директива «Disallow»
Директива «Disallow» укажет поисковому роботу, какие файлы, каталоги запрещается индексировать.
Если сайт открыт для индексирования весь, то нужно писать так:
Disallow:
или
Allow: /
Наложим запрет на индексацию файла links.html из корневой папки. Тогда запись будет такой:
Disallow: /links.html
Теперь запретим индесирование файла my.html, находящегося в папке «noybot». Это будет выглядеть так:
Disallow: /noybot/my.html
Запретим индексацию определенных директорий, например, содержащих файлы форума - папка «forum» и папку со сценариями «cgi-bin». Это значит, что все, что находится в этих папках не будет доступно для поисковиков. Выглядеть запись будет так:
Disallow: /cgi-bin/
Disallow: /forum/

Зная этот минимум, мы уже можем написать свой файл робот и запретить в нем индексировать какие-либо файлы или любые папки вместе с их содержимым.
Впрочем, эта шпаргалка минимальна. И требует продолжения. Что мы и сделаем.
Можно запретить индексировать страницы и директории, название которых начинается с одних и тех же символов. Запрет накладывается всего одной записью «Disallow».
Например, запретим к индексированию директории и файлы, начинающиеся с символов my. Это папки my, my1, my2 и страницы my.html, mylove.html и тому подобное. Для этого пропишем так:
Disallow: /my
В директиве «Disallow» разрешено пользоваться регулярными выражениями, но не во всех поисковых системах. Google поддерживает символы «*» (звездочка - любая последовательность символов) и «$» (доллар - окончание строки).
Что это дает нам? Можно запретить индексацию файлов с определеным расширением, например, «htm», достаточно написать:
Disallow: *.htm$
Еще пример запрета индексации файлов PDF для гугл
User-agent: Googlebot
Disallow: *.pdf$

Другой вариант решить эту задачу - это создать отдельный каталог pdf и размещать документы PDF в нем. Тогда пишем так:
User-agent: *
Disallow: /pdf/

3, Директива «Host»
Директива «Host» используется для определения главного зеркала сайта. С ее помощью можно выбрать url, под которым будет проиндексирован веб-сайт. Эта директива поддерживается русскими поисковиками, такими как Яндекс, Рамблер, Апорт.
Без этой директивы робот яндекса выберет основное зеркало самостоятельно, а все другие имена получат запрет к индексации. Т.к. директиву «Host» понимают не все поисковики, поэтому саму запись нужно вставлять обязательно после «Disallow», в конце блока.
Записывается следующим образом:
Host: www.site.ru
На что еще обратить внимание? На поведение гугл при встрече с директивой хост. Google игнорирует всю секцию, где прописана директива «Host». Это решаемо, для гугл нужно создать свой блок с записями.
Например:
User-Agent: * # Все поисковый системы
Disallow: /admin/ # Запрет директории админ и всех, файлов этой папки
Host: www.mainsite.ru # Главное зеркало
User-Agent: Googlebot # Личный блок для гугла
Disallow: /admin/ # Запрет директории гуглом

Эта информация взята с просторов сети интернет. Мне лично помогла во всем этом разобраться информация по Использованию robots.txt находящаяся здесь


Сколько людей, столько и мнений.

добавить на Яндекс
 
Форум "ProSIdr" » Веб местерам » Статьи вебмастерам » Создание файла robots.txt
Страница 1 из 11
Поиск:
Сегодня нас посетили
kilapoun, trigall, fiace, Anutochkaaa777, САНЁК, krot82, Jamespeddy, NiklRone, PetrSmern, snegirofom, FrankSib, DarrellRap, BrianBuh


www.megastock.ru
PR-CY.ru Яндекс.Метрика

Администрация сайта не претендует на авторские права. Материалы предоставленные на сайте, принадлежат их владельцам и предоставляются исключительно в ознакомительных целях.
Cайт оптимизирован для просмотра браузером Opera, Google Chrome, Mozilla Firefox, Safari.
           

Яндекс.Метрика