HtmlContentParse

解析网页文本，提取时间

使用：

url = "https://bestyuan.fun/blog/2019-10/%E7%9F%A5%E4%B9%8E%E7%88%AC%E8%99%AB%E4%BA%8Cscrapy%E7%AF%87/"
response = requests.get(url)
response.encoding = 'utf-8'
text = response.text
htmlcontent =HtmlContentExtract(text ，delete_text_length=5) # 默认为5，可根据实际情况剔除相应长度的垃圾文本
#print(htmlcontent.title)
#print(htmlcontent.content)
time_parse = htmlcontent.time_parse()
format_date = htmlcontent.dateformat(time_parse)
print(format_date)

若提取不到时间会返回1970.01.01

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.gitignore		.gitignore
HtmlContentParse.py		HtmlContentParse.py
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

HtmlContentParse

About

Releases

Packages

Languages

LLLLLyuan/HtmlContentParse

Folders and files

Latest commit

History

Repository files navigation

HtmlContentParse

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages