Почему scrapy не может сканировать весь url-адрес? ,Когда я узнаю, что контент отсутствует в базе данных, а затем найден на веб-сайте, обход таким образом может быть успешным
class YinPin(CrawlSpider): name = "yingping" allowed_domains = ['movie.mtime.com'] start_urls = ['http://movie.mtime.com/' ] rules = ( Rule(LinkExtractor(allow=(r'http://movie.mtime.com/\d+/$')), callback='movie_info', follow=True), ) def movie_info(self, response): selector = Selector(response) movie_url = response.url # number = re.compile(r'\d+') movie_num = int(number.search(str(movie_url)).group()) movie_name = selector.xpath('//*[@id="db_head"]/div[2]/div/div[1]/h1/text()').extract_first() movie_release_time = selector.xpath('//*[@id="db_head"]/div[2]/div/div[1]/p[1]/a/text()').extract_first() movie_type = selector.xpath('//*[@id="db_head"]/div[2]/div/div[2]/a/text()').extract() if movie_type: movie_type_l = movie_type.pop() movie_type = ' '.join(movie_type) self.logger.info(response.url) item = YingpingItem( movie_num = movie_num, movie_name = movie_name, movie_release_time = movie_release_time, movie_type = movie_type, ) yield item
Что я уже пробовал:
Измените настройки и протестируйте одну страницу для обхода,но этот метод не сработал,я не знаю, как это сделать