Skip to content

HeRedBo/go_sipder_zhenai

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 

Repository files navigation

go_sipder_zhenai

golang 珍爱网爬虫

资深工程师深度讲解Go语言 下教程爬虫部分代码,因珍爱网后续对用户详情页做反爬虫机制 所有本项目针对次问题做了相关的优化 ,用户详情数据 在列表页面获取,详情页面数据 使用了goquery 包获取 。数据目前能正常返回 为方便查看代码 本项目项目已经将 单任务版本爬虫与多任务版本爬虫分开了,方便大家对比查阅 因为 珍爱网详情的反爬虫机制,但是由于数据在列表数据是可以有获取所有的用户信息的,对于原本的教程已做修改 通过获取页面的window.__INITIAL_STATE__= 对象获取即可获取所有的用户数据,在在 json 数据转换一下即可获取整个数据结构

目录结构

├── ConcurrenceTask  // 并发爬虫项目
└── SingleTask   # 单任务版本爬虫

项目架构明

单任务爬虫架构

示例图片

并发爬虫项目爬虫架构图

示例图片

Web 页面展示效果

示例图片

环境要求

  • golang >=1.7
  • elasticsearch 5.8

项目运行

下载至本地,SingleTask、ConcurrenceTask 都是通过 mod 创建的独立项目 需要项目的初始化 步骤如下

# 下载项目到本地:
 git clone git@github.com:HeRedBo/go_sipder_zhenai.git

# 进入对应的项目 如 SingleTask  一次 执行如下命令:
go  mod tidy 
go mod vendor

#  在执行 如下 命令 运行项目 
go run main.go  


# 运行 web 环境 展示数据页面
进入项目 ConcurrenceTask 目录 frontend 项目目录 
运行 如下命令
go run starter.go 
启动后台web 服务

About

go 珍爱网爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published