Веб-скребок динамического веба с использованием Python selenium scrapy
Я не могу очистить данные динамического веб-сайта. Веб-сайт не имеет robot.txt файл. Я использовал xpath для очистки данных. Я хочу получить название продукта, цену продукта и т. д. адрес сайта есть
https://shopee.co.id/Komputer-Aksesoris-cat.134/
Что я уже пробовал:
import scrapy from scrapy_selenium import SeleniumRequest class MytestSpider(scrapy.Spider): name = 'mytest' def remove_characters(self, value): return value.strip('\xa0') def start_requests(self): yield SeleniumRequest( url='https://shopee.co.id/Komputer-Aksesoris-cat.134/', wait_time=3, callback=self.parse ) def parse(self, response): products = response.xpath("//div[@class='product-recommend-items__item-wrapper']") for product in products: yield { 'name': product.xpath("//div[@class='collection-card__collection-title']/text()").get() }
F-ES Sitecore
Если они хотят, чтобы у вас были их данные, они предоставят API или какой-то канал данных. Если у них нет такой возможности, то они не хотят, чтобы у вас были их данные.
ZurdoDev
И где же ты застрял?