免责声明:
- 仅供学习与交流: 本文仅供学习和交流之用途,作者并不对其中的任何信息的准确性、完整性或实用性作出保证。读者在使用这些信息时应自行判断,并对其行为负全部责任。
- 知识更新: 由于知识不断更新,本文的内容可能已过时或不再准确。读者在应用其中的观点、建议或信息时,请注意核实并参考最新的可靠来源。
- 个人观点: 本文中的观点和建议仅代表作者个人,不代表任何机构或组织的观点。读者应理性对待这些观点,并在需要时寻求专业意见。
- 风险承担: 读者在采纳本文中的建议或信息时,应自行承担相应的风险。作者不对任何由此产生的直接或间接损失负责。
- 版权声明: 本文的知识产权归作者所有。未经授权,禁止任何形式的转载、复制或修改。读者如需使用本文内容,请事先取得作者的书面许可。
- 法律责任: 本文仅为作者个人的观点和经验总结,不构成法律、金融或专业建议。读者在遇到法律问题时应咨询专业律师,并在做出决策前充分了解相关法规。
通过阅读本文,您表明已经阅读并同意接受上述免责声明的所有条款。如果您不同意这些条款,请不要使用本文提供的信息。
- 本项目仅供学习交流使用, 请勿用于商业用途
- 默认下载在data目录下, 以用户id命名的文件夹下
- 其中的json文件夹保存请求的json数据
- 图文下载时, 一张图片不新建文件夹, 格式为jpeg; 多个图文时, 新建文件夹保存多个图片
- 视频为mp4格式
- 项目使用3.12版本开发, 其他版本未测试
- 若全部下载成功, 文件夹内的文件数应该有(作品数+1)个文件(包括请求的json文件数据)
- 分页大小默认为32(但是有时候实际获取的数据量会上下浮动, 不知道为啥)
- webid, ttwid等参数最好修改一下
- 个人喜欢/收藏下载
- 保存文件名添加用户名, 更具可读性
运行效果
运行结果
运行效果视频
7.97 qEH:/ 08/24 L@J.II 整了三天终于整出来了(*σ´∀`)σ# 爬虫# python https://v.douyin.com/iRBCq7E9/ 复制此链接,打开Dou音搜索,直接观看视频!
以下大部分是大多数是边学习边做的, 有很多测试/笔记, 记录得比较乱..., 会阅读得很困难不通顺是正常的, 因为就是想到一点记一点
- 创建项目
scrapy startproject douyin
- 创建爬虫
scrapy genspider douyin douyin.com
- 运行爬虫
scrapy crawl douyin
- curl to code : https://curlconverter.com/python/
- https://www.kgtools.cn/convert/curl
- 键值对转换: https://www.toolhelper.cn/Char/KeyValueConvert
- scrapy官网: https://scrapy.org/
- 文档: https://docs.scrapy.org/en/latest/index.html
- 中文文档: https://scrapy-16.readthedocs.io/zh-cn/latest/
- 配置国内源: https://mirrors.tuna.tsinghua.edu.cn/help/pypi/
https://juejin.cn/post/7184705216095191098
用 requests 做数据采集面对要登录的网站时,要分析数据包、JS 源码,构造复杂的请求,往往还要应付验证码、JS 混淆、签名参数等反爬手段,门槛较高,开发效率不高。 使用浏览器,可以很大程度上绕过这些坑,但浏览器运行效率不高。
网页自动化工具
- Clicknium: https://clicknium.com/
- selenium: https://www.selenium.dev/documentation/webdriver/getting_started/install_library/ https://github.com/SeleniumHQ/selenium
- DrissionPage: https://github.com/g1879/DrissionPage
分享链接eg
3.84 h@B.te daA:/ 08/13 为了预防自然灾害,人类研制出了“天气武器”# 影视推荐 # 燃剪 # 灾难片 https://v.douyin.com/iRdgEGme/ 复制此链接,打开Dou音搜索,直接观看视频!
4.87 Ivf:/ C@H.VL 10/24 复制打开抖音,看看【Eva桑的作品】真没拉腿# 05 https://v.douyin.com/iRdt6DAJ/
分享段地址 https://v.douyin.com/iRdt6DAJ/ 302 重定向到真正的视频地址 视频html地址组成: https://www.douyin.com/video/+aweme_id eg: https://www.douyin.com/video/7271869157971397944
step1: 获取一个接口curl step2: 修改入参count等, 获取更多数据 step3: 通过三方工具生成X-bogus参数等 step4: 重新组成url, 发起请求, 获取数据
- 完善日志
- 完全视频下载统计
- 使用FFmpeg获取视频信息
- https://jeremylee.sh/bins/
- https://pypi.org/project/python-ffmpeg/
- 图文下载? 图文"images"字段不为null, 一张图4个地址; 视频url变为mp3
- 下载个人喜欢的视频/收藏夹