go_sipder_zhenai

golang 珍爱网爬虫

资深工程师深度讲解Go语言 下教程爬虫部分代码，因珍爱网后续对用户详情页做反爬虫机制所有本项目针对次问题做了相关的优化，用户详情数据在列表页面获取，详情页面数据使用了goquery 包获取。数据目前能正常返回为方便查看代码本项目项目已经将单任务版本爬虫与多任务版本爬虫分开了，方便大家对比查阅因为珍爱网详情的反爬虫机制，但是由于数据在列表数据是可以有获取所有的用户信息的，对于原本的教程已做修改通过获取页面的window.__INITIAL_STATE__= 对象获取即可获取所有的用户数据，在在 json 数据转换一下即可获取整个数据结构

目录结构

├── ConcurrenceTask  // 并发爬虫项目
└── SingleTask   # 单任务版本爬虫

项目架构明

单任务爬虫架构

并发爬虫项目爬虫架构图

Web 页面展示效果

环境要求

golang >=1.7
elasticsearch 5.8

项目运行

下载至本地，SingleTask、ConcurrenceTask 都是通过 mod 创建的独立项目需要项目的初始化步骤如下

# 下载项目到本地：
 git clone git@github.com:HeRedBo/go_sipder_zhenai.git

# 进入对应的项目 如 SingleTask  一次 执行如下命令：
go  mod tidy 
go mod vendor

#  在执行 如下 命令 运行项目 
go run main.go  


# 运行 web 环境 展示数据页面
进入项目 ConcurrenceTask 目录 frontend 项目目录 
运行 如下命令
go run starter.go 
启动后台web 服务

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
ConcurrenceTask		ConcurrenceTask
SingleTask		SingleTask
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

go_sipder_zhenai

目录结构

项目架构明

单任务爬虫架构

并发爬虫项目爬虫架构图

Web 页面展示效果

环境要求

项目运行

下载至本地，SingleTask、ConcurrenceTask 都是通过 mod 创建的独立项目需要项目的初始化步骤如下

About

Uh oh!

Releases

Packages

Languages

HeRedBo/go_sipder_zhenai

Folders and files

Latest commit

History

Repository files navigation

go_sipder_zhenai

目录结构

项目架构明

单任务爬虫架构

并发爬虫项目爬虫架构图

Web 页面展示效果

环境要求

项目运行

下载至本地，SingleTask、ConcurrenceTask 都是通过 mod 创建的独立项目 需要项目的初始化 步骤如下

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

下载至本地，SingleTask、ConcurrenceTask 都是通过 mod 创建的独立项目需要项目的初始化步骤如下

Packages