Skip to content

Latest commit

 

History

History
28 lines (21 loc) · 1.23 KB

ch7.md

File metadata and controls

28 lines (21 loc) · 1.23 KB

7. 爬蟲程式經驗談

被封鎖的常見原因: Timing, Policy Violation (robots.txt)

常用 Header 欄位、網站隱藏欄位

  • 最常見的是 User-Agent. 其他 headers 如 Referer 也有看過
    • ch7/kingstone.py
  • 網站的安全機制 (防止跨站請求偽造 CSRF) (維基百科說明)
    • hidden 欄位的值要先連線取得, 再一併送出 (e.g., ASP.NET 網頁的 __VIEWSTATE 等欄位)
    • ch7/airtw_epa.py

使用代理伺服器