-scrapy-

流程图

这几天工作任务轻松一点了，重新完善这个项目。前段时间学习了flask的源码，个人觉得flask的设计模式很好，我参照flask的设计模式，重新写了一遍引擎部分代码。

2017.1.22更新

今天测试了一下框架可以基本工作了，虽然还有很多功能没有完善，后面会逐步加上的。
这个小框架只使用了lxml的第三方库，本来想使用request库的，后来觉得还是尽量减少第三库的依赖就去掉了。
本人学习python时间不长，对很多东西理解不深刻，还请各位大佬多多指教。

下面是基本的使用教程

1.首先介绍一下整个代码的组织结构

MyScrapy
|
|----src
|     |
|     MyScrapy.py
|
|

整个工程都包含在MyScrapy这个目录下面，MyScrapy的根目录下面放置的工程的源代码，src目录下的MyScrapy文件是需要使用这自己编写的。

2.MyScrapy.py文件的编写

from myScrapy import Myscrapy
from myScrapy import Request

app = Myscrapy(__name__)

class test(object):
    def start_request(self):
        yield Request(url = 'http://www.baidu.com/', method = 'GET', callback = self.deal_response)

    def deal_response(self, response):
        print response.xpath("//head/title")[0].text

app.run(execute_app = test())

这是一个最基本的实例，首先需要导入两个基本的类，Myscrapy和Request。
将Myscrapy实例化app = Myscrapy(__name__),这里可以传入一个参数是，是当前爬虫的名字。
下面编写一个执行的类，类必须有一个def start_request方法，名字不能变。这个方法返回一个Request()实例，上述例子展示了基本用法。但是如果是POST方法，增加一个formdata参数用来提交表单yield Request(url = 'http://www.baidu.com/', method = 'post', formdata = {xxxxx},callback = self.deal_response), callback的参数是接受一个函数，来用作返回消息值的回调。
等请求提交之后，回返回服务器的相应结果，通过deal_response的response参数传入，response参数已经用lxml处理过了，可以直接使用xpath()方法来解析，获得相应的结果。
app.run()是爬虫启动指令,接受刚才编写的类的实例

Name		Name	Last commit message	Last commit date
Latest commit History 53 Commits
image		image
myScrapy		myScrapy
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

-scrapy-

About

Releases

Packages

Languages

eric54205420/-scrapy-

Folders and files

Latest commit

History

Repository files navigation

-scrapy-

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages