Robots.txt и личные папки, которые используются веб-сайтом,но не должны индексироваться Google и др.
Всем привет,
Допустим, у вас есть веб-сайт, который использует некоторые ресурсы в специальных папках.
PHP-код имеет доступ к этим ресурсам, но они не связаны конкретно ни на одной из страниц...
Конечно, если я использую robots.txt файл, чтобы исключить любую поисковую систему для обхода этих страниц, я делаю имена/пути личных папок общедоступными.
Должен ли я просто не помещать все эти страницы в файл роботов?
Теперь, когда я пишу это, я начинаю думать, что, помещая их туда, всем гораздо легче узнать слабые места веб-страницы...
но... как вы гарантируете, что эти страницы не будут сканироваться?
Основной вопрос заключается в следующем:
- Как обходятся сайты? это только по ссылкам, которые появляются на тех же страницах? не читая реальную структуру папок, не читая PHP (или любой другой) код и не читая только конечную созданную страницу?
- А если страница специально не связана, будет ли она сканироваться, даже если ее нет в списке? robots.txt?
Большое спасибо!
Что я уже пробовал:
Просто читаю справку со страниц google webmaster...
Bernhard Hiller
Отметим, что "машина обратного пути" объявила несколько дней назад, что ее не будут наблюдать robots.txt больше и ползти просто все...
Joan M
Но как... они могут прочитать содержимое папки или просто начать читать документы веб-страницы, и если какой-то файл внутри "скрытой" папки будет найден, то он будет сканирован?
Richard Deeming
Это зависит. Если вы никогда не собираетесь передавать файл клиенту из одной из этих папок, то вам, вероятно, следует вообще запретить доступ к ним. Если вы находитесь на Apache, вы бы использовали .htaccess
файл, чтобы сделать это.