Как парсить весь интернет))? - Общие вопросы о сети

Вопрос Как парсить весь интернет))?

Регистрация
16 Ноя 2013
Сообщения
83
Репутация
0
Спасибо
0
Монет
0
Вопрос теоретический. Просто интересно как делают парсеры или роботов, которые гуляют по интернету и парсят данные.



Больше вопрос в том как эти пареры понимают какие ссылки на сайты стоит открывать. Как они находят ссылки или они генерируют их рандомно?
 
Регистрация
24 Мар 2013
Сообщения
125
Репутация
2
Спасибо
0
Монет
0
Парсеры или веб-краулеры (роботы) используются для автоматического сбора данных с веб-сайтов. Вот как они работают:

Начальная точка: Парсер начинает с одного или нескольких начальных URL-адресов, которые называются "семенами" (seeds).

Извлечение ссылок: Парсер загружает страницу и извлекает все ссылки на другие страницы.

Очередь ссылок: Все извлеченные ссылки добавляются в очередь для последующего посещения.

Фильтрация: Парсер может использовать фильтры, чтобы определить, какие ссылки стоит посещать. Например, он может игнорировать ссылки на изображения, видео или внешние сайты.

Повторение процесса: Парсер повторяет процесс для каждой новой ссылки, пока не достигнет заданного лимита или не обойдет все доступные страницы.

Парсеры могут использовать различные алгоритмы для определения, какие ссылки посещать. Некоторые из них:

Глубина обхода: Парсер может ограничивать глубину обхода, чтобы не заходить слишком далеко от начальной точки.

Приоритеты: Парсер может присваивать приоритеты ссылкам в зависимости от их важности или релевантности.

Фильтры: Парсер может использовать регулярные выражения или другие методы для фильтрации ссылок.

Парсеры не генерируют ссылки случайным образом. Они следуют структуре веб-сайтов и извлекают ссылки, которые уже существуют на страницах.
 
Регистрация
24 Сен 2013
Сообщения
89
Репутация
14
Спасибо
2
Монет
0
Видосов же полно.
Посмотри. Это явно не в рамках "Ответов"
Тут целая книга нужна. И для начала HTML надо изучить чтобы понимать структуру сайтов и что читать и сохранять
 
Регистрация
6 Авг 2013
Сообщения
86
Репутация
0
Спасибо
0
Монет
0
Прочитав вопрос . Я просто сделала вид что я спокойна !..: Да-да !!!После чего отошла на минуту на кухню.
Вернувшись, еще раз перечитала вопрос, и написала " это позор какой то !". После чего отошла на минуту на кухню.
Возвратилась почти бегом. Торопливо стерев про позор написала: " .. а как узнать ?", после чего, удовлетворенно крякнув, удалилась на кухню.
не спеша и что-то мурлыкая... Перечитав свой комментарий, стерла его и написала: " как много еще неопознанного мной !". После чего, довольная, рассмеялся.
Так початая бутылка шампанского повышает толерантность к чужому вопросу ...
 
Сверху Снизу