Поиск &ампер; сортировка
Я не новичок, когда дело доходит до алгоритмов, но у меня есть потребность искать несколько веб-сайтов и извлекать определенные точки данных, в конечном счете сортируя их по категориям. Есть ли простой алгоритм, который я могу запустить, чтобы сделать это, или мне нужно что-то совершенно другое?
Извините, если это слишком расплывчато. Как я уже упоминал, я чрезвычайно новичок в алгоритмах, и это моя единственная потребность в них.
Любая помощь и / или разъяснение очень ценятся.
Спасибо.
Что я уже пробовал:
Я пытался гуглить различные типы алгоритмов только для того, чтобы запутаться до невероятности. У меня нет опыта в алгоритмах, кодировании или чем-то подобном. Я решил обратиться к этому форуму и посмотреть, можно ли указать мне правильное направление.
Richard Deeming
Извлечение полезных данных с веб-сайтов, которые не хотят, чтобы вы это делали, чрезвычайно сложно и хрупко. По сути, вам придется анализировать HTML-код, чтобы попытаться найти данные, для которых потребуется другой набор правил для каждого сайта. И как только сайт хоть немного меняет свою разметку, ваши правила становятся недействительными и должны быть переписаны.
Beginner'sbeginner
Привет, Ричард.
Прежде всего, спасибо, что нашли время ответить на мой вопрос. Данные, которые я пытаюсь извлечь, не являются конфиденциальными и доступными для общественности. Например: я пытаюсь найти самое дешевое место для покупки определенной книги и хотел бы запустить алгоритм, который ищет различные сайты книжных магазинов, чтобы найти лучшую цену. Помогает ли это каким-либо образом, форма или форма?
Richard Deeming
Не совсем. Данные могут быть общедоступными, но это не значит, что сайт хочет, чтобы вы очистили их данные для отображения на вашем собственном сайте.
Если сайт не предоставляет API для запроса их данных - а большинство этого не делает, - то вы застряли в попытке проанализировать HTML-страницы, которые они возвращают.
Если Вам повезет, они могут использовать структурированные данные[^] в рамках HTML для представления своих продуктов. Если они это делают, то вам просто нужно выяснить, какой формат структурированных данных они используют, и извлечь эти данные из HTML.
Если нет, то вы застряли с попыткой понять их HTML-разметку, чтобы найти набор правил для извлечения данных. И как только они хоть немного изменят свою разметку, ваши правила нужно будет переписать.
(PS: используйте кнопку "ответить" рядом с комментарием, чтобы отправить ответ; таким образом, автор будет уведомлен.)