reading

A media product.

如果用多台机器来做并行爬虫，那么每台机器负责几个网站（本质上也是map操作，每台机器上的爬虫对应自己负责的网站），存储在hadoop数据库中，然后用MapReduce做数据库查询。

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
.ipynb_checkpoints		.ipynb_checkpoints
news		news
.gitignore		.gitignore
README.md		README.md
crawl.ipynb		crawl.ipynb
create_tables.py		create_tables.py
media.ipynb		media.ipynb
test_TableCreator.py		test_TableCreator.py

Provide feedback