Nagendra kumar 2 Ответов: 0

Веб-скребок динамического веба с использованием Python selenium scrapy


Я не могу очистить данные динамического веб-сайта. Веб-сайт не имеет robot.txt файл. Я использовал xpath для очистки данных. Я хочу получить название продукта, цену продукта и т. д. адрес сайта есть
https://shopee.co.id/Komputer-Aksesoris-cat.134/

Что я уже пробовал:

import scrapy
from scrapy_selenium import SeleniumRequest


class MytestSpider(scrapy.Spider):
    name = 'mytest'

    def remove_characters(self, value):
        return value.strip('\xa0')
    
    def start_requests(self):
        yield SeleniumRequest(
            url='https://shopee.co.id/Komputer-Aksesoris-cat.134/',
            wait_time=3,
            callback=self.parse
        )

    def parse(self, response):
        products = response.xpath("//div[@class='product-recommend-items__item-wrapper']")
        for product in products:
            yield {
                'name': product.xpath("//div[@class='collection-card__collection-title']/text()").get()
               
            }

F-ES Sitecore

Если они хотят, чтобы у вас были их данные, они предоставят API или какой-то канал данных. Если у них нет такой возможности, то они не хотят, чтобы у вас были их данные.

ZurdoDev

И где же ты застрял?

0 Ответов