to 004

Germey · Germey · commit 669e3b41baa3 · 2020-07-15T23:34:26.000+08:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -0,0 +1,12 @@
+# Gerapy Auto Extractor Changelog
+
+## 0.0.4 (2020-07-15)
+
+### Bug Fixes
+
+* Fix Bug of un-closing Pyppeteer when loaded failed
+
+### Features
+
+* Add support for `GERAPY_IGNORE_RESOURCE_TYPES`
+* Add support for retrying
diff --git a/README.md b/README.md
@@ -55,4 +55,95 @@ GERAPY_PYPPETEER_DISABLE_GPU = True
 
 ## Example
 
-For more detail, please see [example](./example).
+For more detail, please see [example](./example).
+
+Also you can directly run with Docker:
+
+```
+docker run germey/gerapy-pyppeteer-example
+```
+
+Outputs:
+
+```shell script
+2020-07-13 01:49:13 [scrapy.utils.log] INFO: Scrapy 2.2.0 started (bot: example)
+2020-07-13 01:49:13 [scrapy.utils.log] INFO: Versions: lxml 4.3.3.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.7.7 (default, May  6 2020, 04:59:01) - [Clang 4.0.1 (tags/RELEASE_401/final)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.8, Platform Darwin-19.4.0-x86_64-i386-64bit
+2020-07-13 01:49:13 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.asyncioreactor.AsyncioSelectorReactor
+2020-07-13 01:49:13 [scrapy.crawler] INFO: Overridden settings:
+{'BOT_NAME': 'example',
+ 'CONCURRENT_REQUESTS': 3,
+ 'NEWSPIDER_MODULE': 'example.spiders',
+ 'RETRY_HTTP_CODES': [403, 500, 502, 503, 504],
+ 'SPIDER_MODULES': ['example.spiders']}
+2020-07-13 01:49:13 [scrapy.extensions.telnet] INFO: Telnet Password: 83c276fb41754bd0
+2020-07-13 01:49:13 [scrapy.middleware] INFO: Enabled extensions:
+['scrapy.extensions.corestats.CoreStats',
+ 'scrapy.extensions.telnet.TelnetConsole',
+ 'scrapy.extensions.memusage.MemoryUsage',
+ 'scrapy.extensions.logstats.LogStats']
+2020-07-13 01:49:13 [scrapy.middleware] INFO: Enabled downloader middlewares:
+['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
+ 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
+ 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
+ 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
+ 'gerapy_pyppeteer.downloadermiddlewares.PyppeteerMiddleware',
+ 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
+ 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
+ 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
+ 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
+ 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
+ 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
+ 'scrapy.downloadermiddlewares.stats.DownloaderStats']
+2020-07-13 01:49:13 [scrapy.middleware] INFO: Enabled spider middlewares:
+['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
+ 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
+ 'scrapy.spidermiddlewares.referer.RefererMiddleware',
+ 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
+ 'scrapy.spidermiddlewares.depth.DepthMiddleware']
+2020-07-13 01:49:13 [scrapy.middleware] INFO: Enabled item pipelines:
+[]
+2020-07-13 01:49:13 [scrapy.core.engine] INFO: Spider opened
+2020-07-13 01:49:13 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
+2020-07-13 01:49:13 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
+2020-07-13 01:49:13 [example.spiders.book] INFO: crawling https://dynamic5.scrape.center/page/1
+2020-07-13 01:49:13 [gerapy.pyppeteer] DEBUG: processing request <GET https://dynamic5.scrape.center/page/1>
+2020-07-13 01:49:13 [gerapy.pyppeteer] DEBUG: set options {'headless': True, 'dumpio': False, 'devtools': False, 'args': ['--window-size=1400,700', '--disable-extensions', '--hide-scrollbars', '--mute-audio', '--no-sandbox', '--disable-setuid-sandbox', '--disable-gpu']}
+2020-07-13 01:49:14 [gerapy.pyppeteer] DEBUG: crawling https://dynamic5.scrape.center/page/1
+2020-07-13 01:49:19 [gerapy.pyppeteer] DEBUG: waiting for .item .name finished
+2020-07-13 01:49:20 [gerapy.pyppeteer] DEBUG: wait for .item .name finished
+2020-07-13 01:49:20 [gerapy.pyppeteer] DEBUG: close pyppeteer
+2020-07-13 01:49:20 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://dynamic5.scrape.center/page/1> (referer: None)
+2020-07-13 01:49:20 [gerapy.pyppeteer] DEBUG: processing request <GET https://dynamic5.scrape.center/detail/26898909>
+2020-07-13 01:49:20 [gerapy.pyppeteer] DEBUG: processing request <GET https://dynamic5.scrape.center/detail/26861389>
+2020-07-13 01:49:20 [gerapy.pyppeteer] DEBUG: processing request <GET https://dynamic5.scrape.center/detail/26855315>
+2020-07-13 01:49:20 [gerapy.pyppeteer] DEBUG: set options {'headless': True, 'dumpio': False, 'devtools': False, 'args': ['--window-size=1400,700', '--disable-extensions', '--hide-scrollbars', '--mute-audio', '--no-sandbox', '--disable-setuid-sandbox', '--disable-gpu']}
+2020-07-13 01:49:20 [gerapy.pyppeteer] DEBUG: set options {'headless': True, 'dumpio': False, 'devtools': False, 'args': ['--window-size=1400,700', '--disable-extensions', '--hide-scrollbars', '--mute-audio', '--no-sandbox', '--disable-setuid-sandbox', '--disable-gpu']}
+2020-07-13 01:49:21 [gerapy.pyppeteer] DEBUG: set options {'headless': True, 'dumpio': False, 'devtools': False, 'args': ['--window-size=1400,700', '--disable-extensions', '--hide-scrollbars', '--mute-audio', '--no-sandbox', '--disable-setuid-sandbox', '--disable-gpu']}
+2020-07-13 01:49:21 [gerapy.pyppeteer] DEBUG: crawling https://dynamic5.scrape.center/detail/26855315
+2020-07-13 01:49:21 [gerapy.pyppeteer] DEBUG: crawling https://dynamic5.scrape.center/detail/26861389
+2020-07-13 01:49:21 [gerapy.pyppeteer] DEBUG: crawling https://dynamic5.scrape.center/detail/26898909
+2020-07-13 01:49:24 [gerapy.pyppeteer] DEBUG: waiting for .item .name finished
+2020-07-13 01:49:24 [gerapy.pyppeteer] DEBUG: wait for .item .name finished
+2020-07-13 01:49:24 [gerapy.pyppeteer] DEBUG: close pyppeteer
+2020-07-13 01:49:24 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://dynamic5.scrape.center/detail/26861389> (referer: https://dynamic5.scrape.center/page/1)
+2020-07-13 01:49:24 [gerapy.pyppeteer] DEBUG: processing request <GET https://dynamic5.scrape.center/page/2>
+2020-07-13 01:49:24 [gerapy.pyppeteer] DEBUG: set options {'headless': True, 'dumpio': False, 'devtools': False, 'args': ['--window-size=1400,700', '--disable-extensions', '--hide-scrollbars', '--mute-audio', '--no-sandbox', '--disable-setuid-sandbox', '--disable-gpu']}
+2020-07-13 01:49:25 [scrapy.core.scraper] DEBUG: Scraped from <200 https://dynamic5.scrape.center/detail/26861389>
+{'name': '壁穴ヘブンホール',
+ 'score': '5.6',
+ 'tags': ['BL漫画', '小基漫', 'BL', '『又腐又基』', 'BLコミック']}
+2020-07-13 01:49:25 [gerapy.pyppeteer] DEBUG: waiting for .item .name finished
+2020-07-13 01:49:25 [gerapy.pyppeteer] DEBUG: crawling https://dynamic5.scrape.center/page/2
+2020-07-13 01:49:26 [gerapy.pyppeteer] DEBUG: wait for .item .name finished
+2020-07-13 01:49:26 [gerapy.pyppeteer] DEBUG: close pyppeteer
+2020-07-13 01:49:26 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://dynamic5.scrape.center/detail/26855315> (referer: https://dynamic5.scrape.center/page/1)
+2020-07-13 01:49:26 [gerapy.pyppeteer] DEBUG: processing request <GET https://dynamic5.scrape.center/detail/27047626>
+2020-07-13 01:49:26 [gerapy.pyppeteer] DEBUG: set options {'headless': True, 'dumpio': False, 'devtools': False, 'args': ['--window-size=1400,700', '--disable-extensions', '--hide-scrollbars', '--mute-audio', '--no-sandbox', '--disable-setuid-sandbox', '--disable-gpu']}
+2020-07-13 01:49:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://dynamic5.scrape.center/detail/26855315>
+{'name': '冒险小虎队', 'score': '9.4', 'tags': ['冒险小虎队', '童年', '冒险', '推理', '小时候读的']}
+2020-07-13 01:49:26 [gerapy.pyppeteer] DEBUG: waiting for .item .name finished
+2020-07-13 01:49:26 [gerapy.pyppeteer] DEBUG: crawling https://dynamic5.scrape.center/detail/27047626
+2020-07-13 01:49:27 [gerapy.pyppeteer] DEBUG: wait for .item .name finished
+2020-07-13 01:49:27 [gerapy.pyppeteer] DEBUG: close pyppeteer
+...
+```
diff --git a/gerapy_pyppeteer/__version__.py b/gerapy_pyppeteer/__version__.py
@@ -1,3 +1,3 @@
-VERSION = (0, 0, '3')
+VERSION = (0, 0, '4')
 
 version = __version__ = '.'.join(map(str, VERSION))
diff --git a/gerapy_pyppeteer/downloadermiddlewares.py b/gerapy_pyppeteer/downloadermiddlewares.py
@@ -1,7 +1,11 @@
 import sys
 import asyncio
+
+from pyppeteer.errors import PageError, TimeoutError
 from scrapy.http import HtmlResponse
 import twisted.internet
+from scrapy.utils.python import global_object_name
+from scrapy.utils.response import response_status_message
 from twisted.internet.asyncioreactor import AsyncioSelectorReactor
 from twisted.internet.defer import Deferred
 from gerapy_pyppeteer.request import PyppeteerRequest
@@ -32,6 +36,45 @@ class PyppeteerMiddleware(object):
     Downloader middleware handling the requests with Puppeteer
     """
     
+    def _retry(self, request, reason, spider):
+        """
+        get retry request
+        :param request:
+        :param reason:
+        :param spider:
+        :return:
+        """
+        if not self.retry_enabled:
+            return
+        
+        retries = request.meta.get('retry_times', 0) + 1
+        retry_times = self.max_retry_times
+        
+        if 'max_retry_times' in request.meta:
+            retry_times = request.meta['max_retry_times']
+        
+        stats = spider.crawler.stats
+        if retries <= retry_times:
+            logger.debug("Retrying %(request)s (failed %(retries)d times): %(reason)s",
+                         {'request': request, 'retries': retries, 'reason': reason},
+                         extra={'spider': spider})
+            retryreq = request.copy()
+            retryreq.meta['retry_times'] = retries
+            retryreq.dont_filter = True
+            retryreq.priority = request.priority + self.priority_adjust
+            
+            if isinstance(reason, Exception):
+                reason = global_object_name(reason.__class__)
+            
+            stats.inc_value('retry/count')
+            stats.inc_value('retry/reason_count/%s' % reason)
+            return retryreq
+        else:
+            stats.inc_value('retry/max_reached')
+            logger.error("Gave up retrying %(request)s (failed %(retries)d times): %(reason)s",
+                         {'request': request, 'retries': retries, 'reason': reason},
+                         extra={'spider': spider})
+    
     @classmethod
     def from_crawler(cls, crawler):
         """
@@ -61,6 +104,13 @@ def from_crawler(cls, crawler):
         cls.disable_gpu = settings.get('GERAPY_PYPPETEER_DISABLE_GPU', GERAPY_PYPPETEER_DISABLE_GPU)
         cls.download_timeout = settings.get('GERAPY_PYPPETEER_DOWNLOAD_TIMEOUT',
                                             settings.get('DOWNLOAD_TIMEOUT', GERAPY_PYPPETEER_DOWNLOAD_TIMEOUT))
+        cls.ignore_resource_types = settings.get('GERAPY_IGNORE_RESOURCE_TYPES', GERAPY_IGNORE_RESOURCE_TYPES)
+        
+        cls.retry_enabled = settings.getbool('RETRY_ENABLED')
+        cls.max_retry_times = settings.getint('RETRY_TIMES')
+        cls.retry_http_codes = set(int(x) for x in settings.getlist('RETRY_HTTP_CODES'))
+        cls.priority_adjust = settings.getint('RETRY_PRIORITY_ADJUST')
+        
         return cls()
     
     async def _process_request(self, request: PyppeteerRequest, spider):
@@ -111,32 +161,55 @@ async def _process_request(self, request: PyppeteerRequest, spider):
         await page.setRequestInterception(True)
         
         @page.on('request')
-        async def _handle_headers(pu_request):
+        async def _handle_interception(pu_request):
+            # handle headers
             overrides = {
                 'headers': {
                     k.decode(): ','.join(map(lambda v: v.decode(), v))
                     for k, v in request.headers.items()
                 }
             }
-            await pu_request.continue_(overrides=overrides)
+            # handle resource types
+            _ignore_resource_types = self.ignore_resource_types
+            if request.ignore_resource_types is not None:
+                _ignore_resource_types = request.ignore_resource_types
+            if pu_request.resourceType in _ignore_resource_types:
+                await pu_request.abort()
+            else:
+                await pu_request.continue_(overrides)
         
         timeout = self.download_timeout
         if request.timeout is not None:
             timeout = request.timeout
         
         logger.debug('crawling %s', request.url)
-        response = await page.goto(
-            request.url,
-            options={
+        
+        response = None
+        try:
+            options = {
                 'timeout': 1000 * timeout,
                 'waitUntil': request.wait_until
             }
-        )
+            logger.debug('request %s with options %s', request.url, options)
+            response = await page.goto(
+                request.url,
+                options=options
+            )
+        except (PageError, TimeoutError):
+            logger.error('error rendering url %s using pyppeteer', request.url)
+            await page.close()
+            await browser.close()
+            return self._retry(request, 504, spider)
         
         if request.wait_for:
-            logger.debug('waiting for %s finished', request.wait_for)
-            await page.waitFor(request.wait_for)
-            logger.debug('wait for %s finished', request.wait_for)
+            try:
+                logger.debug('waiting for %s finished', request.wait_for)
+                await page.waitFor(request.wait_for)
+            except TimeoutError:
+                logger.error('error waiting for %s of %s', request.wait_for, request.url)
+                await page.close()
+                await browser.close()
+                return self._retry(request, 504, spider)
         
         # evaluate script
         if request.script:
@@ -156,6 +229,9 @@ async def _handle_headers(pu_request):
         await page.close()
         await browser.close()
         
+        if not response:
+            logger.error('get null response by pyppeteer of url %s', request.url)
+        
         # Necessary to bypass the compression middleware (?)
         response.headers.pop('content-encoding', None)
         response.headers.pop('Content-Encoding', None)
diff --git a/gerapy_pyppeteer/request.py b/gerapy_pyppeteer/request.py
@@ -6,8 +6,8 @@ class PyppeteerRequest(Request):
     Scrapy ``Request`` subclass providing additional arguments
     """
     
-    def __init__(self, url, callback=None, wait_until=None, wait_for=None, script=None, sleep=None, timeout=10,
-                 proxy=None, *args,
+    def __init__(self, url, callback=None, wait_until=None, wait_for=None, script=None, sleep=None, timeout=None,
+                 proxy=None, ignore_resource_types=None, *args,
                  **kwargs):
         """
         :param url: request url
@@ -26,5 +26,6 @@ def __init__(self, url, callback=None, wait_until=None, wait_for=None, script=No
         self.sleep = sleep
         self.proxy = proxy
         self.timeout = timeout
+        self.ignore_resource_types = ignore_resource_types
         
         super().__init__(url, callback, *args, **kwargs)
diff --git a/gerapy_pyppeteer/settings.py b/gerapy_pyppeteer/settings.py
@@ -21,3 +21,9 @@
 GERAPY_PYPPETEER_NO_SANDBOX = True
 GERAPY_PYPPETEER_DISABLE_SETUID_SANDBOX = True
 GERAPY_PYPPETEER_DISABLE_GPU = True
+
+# ignore resource types, ResourceType will be one of the following: ``document``,
+# ``stylesheet``, ``image``, ``media``, ``font``, ``script``,
+#  ``texttrack``, ``xhr``, ``fetch``, ``eventsource``, ``websocket``,
+#  ``manifest``, ``other``.
+GERAPY_IGNORE_RESOURCE_TYPES = []
diff --git a/requirements.txt b/requirements.txt
@@ -1,2 +1,2 @@
 scrapy>=2.0.0
-pyppeteer
+pyppeteer>=0.2.2

Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,3 @@`
`1`		`-VERSION = (0, 0, '3')`
	`1`	`+VERSION = (0, 0, '4')`
`2`	`2`
`3`	`3`	`version = __version__ = '.'.join(map(str, VERSION))`
Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`	`scrapy>=2.0.0`
`2`		`-pyppeteer`
	`2`	`+pyppeteer>=0.2.2`