本项目是基于延安大学图书馆资源文泉学堂PDF下载的python脚本
文泉学堂: “文泉学堂”由清华大学出版社出品,以清华大学出版社近10年出版的电子书为基础,聚合多媒体附件和特色课程内容资源,突出理学、工学、经济学、管理学等专业学科领域知识。是国内高等院校最有针对性的专业知识内容资源,方便师生快速、精准查找专业知识内容,高效率阅读、学习和辅助教学。
本项目是在文泉学堂PDF(带书签)下载原理详细讲解_python脚本实现1秒1页以及webvpn-HFUT 文泉学堂PDF下载 的基础上进行了修改,支持了延安大学下载。
程序整体思路:
下载高清图片---->合成PDF---->下载书签---->给PDF添加书签
可以直接执行
pip install -r requirements.txt
安装本项目所依赖的模块
from PIL import Image
from reportlab.lib.pagesizes import A4, portrait, landscape, mm
from reportlab.pdfgen import canvas
import os
from io import BytesIO
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.common.keys import Keys
import time
import datetime
import base64
import queue
from Crypto.Util.number import *
from PyPDF2 import PdfFileReader, PdfFileWriter
import requests- 安装模块可以加载国内镜像(这样速度会很快),具体Google
- Crypto模块的安装可能会出错,具体Google,可以参考 这里
- Crypto.Util可能会报错,
其实是安装pycrypto,也就是pip install pycrypto,这里发现这个模块安装过程中需要依赖VS2008环境。还是不完美- 所以可以使用
pip install pycryptodome进行替换。想请看这里
- 所以可以使用
程序的第31到37行,是需要替换的部分
# 请替换url末尾的数字,例如这里的3207861,替换为目标书籍的ID
url = "https://lib-yau.wqxuetang.com/read/pdf?bid=3207861"
cookie_dict = {} # cookie字典,这里不用管
# 图片路径
_image_path = "F:\\test\\temp\\img"
# PDF路径(不要与图片路径相同)
_pdf_path = "F:\\test\\temp\\pdf"- 将url末尾的书籍ID进行替换
- 存储图片的路径、PDF的路径
合理使用,使用愉快。
下载后可以使用ABBYY对PDF文档进行OCR识别,这样便解决了文档复制问题。
感谢Dr.Wang对该项目进行调试修改