Web_Crawler

Simple web crawler

1 . Objective

I work with a simple web crawler to measure aspects of a crawl, study the characteristics of the crawl, download web pages from the crawl and gather webpage metadata, all from pre-selected news websites.

2 . Preliminaries

To begin I will make use of an existing open source Java web crawler called crawler4j. This crawler is built upon the open source crawler4j library which is located on github. For complete details on downloading and compiling see https://github.com/yasserg/crawler4j Also see the following document for help installing Eclipse and crawler4j http://www-scf.usc.edu/~csci572/2017Spring/hw2/Crawler4jinstallation.pdf

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
Controller.java		Controller.java
MyCrawler.java		MyCrawler.java
MyFileReader.java		MyFileReader.java
README.md		README.md
Revise.java		Revise.java

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Web_Crawler

About

Releases

Packages

Languages

xchengyu/Web_Crawler

Folders and files

Latest commit

History

Repository files navigation

Web_Crawler

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages