Skip to content

Lightblues/10-playground

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

playground

记录一些日常代码

Automation

  • Telegram-linkbot
    • 基于 Telegram Bot 的自动化链接整合方案.

Spyder

基本框架: requests_html + beautifulsoup4 + pymongo. 参见 xiaoyuzhou.py


  • douban_豆瓣 豆瓣个人+书籍列表 @2204
    • 比较成熟的框架了, 对于反爬策略不太强的网络应该可以借鉴
  • 01-basic-framework 基本的 requests+lxml 爬取框架
    • requests 之后用 lxml.etree 解析, 利用 xpath 获取内容.
    • 适合简单网站, 少量数据的爬取; 这里的示例是 GitHub
  • daily_fudan 基于「平安复旦」API的自动化填写, 利用 GitHub Action;
    • 还用了OCR模块进行验证码识别
  • Selenium 框架
    • Weibo-Xuyongbo 给新闻学院一个学长写的爬虫作业 @2203
  • WaiJiaoBu 爬取外交部例行记者会数据 @2107
  • fudan_dataanalysis 爬取复旦专业 + QS大学排名 @2111
  • Selenium-music 重新看了一个基于 Selenium 框架的歌单同步repo; 正好借机管理歌单 @2204

ML