`TEANAPS` News Article Scraper

TEANAPS News Article Scraper는 네이버 뉴스기사 및 댓글 수집을 위한 웹스크래핑(크롤링) 도구입니다. 네이버 뉴스기사 검색결과를 수집 대상으로 하며 키워드 검색으로 원하는 기간, 개수 만큼 뉴스기사 데이터수집이 가능합니다. 본 자료는 10년치 이상의 뉴스기사를 수집하며 테스트 및 최적화를 진행하여 안정된 데이터 수집을 지원합니다. 직접 뉴스기사 데이터를 수집하고 TEANAPS를 활용해 텍스트 분석에 활용해보세요.

본 자료는 텍스트 마이닝을 활용한 연구 및 강의를 위한 목적으로 제작되었습니다.
본 자료를 강의 또는 연구 목적으로 활용하고자 하시는 경우 꼭 아래 메일주소로 연락주세요.
본 자료에 대한 상업적 활용과 허가되지 않은 배포를 금지합니다.
강의, 저작권, 출판, 특허, 공동저자에 관련해서는 문의 바랍니다.
Contact : ADMIN(admin@teanaps.com)

Notice!

본 자료는 2021 한국지능정보시스템학회 춘계 학술대회 튜토리얼 세션을 위한 자료로 활용되었습니다.

User Guide

1. Install Selenium

Selenium - pip install selenium
Python Code (in Jupyter Notebook) :
```
!pip install selenium
```

2. Chrome Driver Setting

자신의 PC에 설치된 Chrome 브라우저에 맞는 Chrome Driver 버전을 다운로드합니다. [Chrome Driver 다운로드]

다운로드한 Chrome Driver 파일 경로를 아래 코드의 DRIVER_PATH에 입력합니다.

Python Code (in Jupyter Notebook) :

# Windows 운영체제
#DRIVER_PATH = "chromedriver.exe"

# MAC, Linux 운영체제
# - 경고메시지 출력 시 보안 및 개인정보보호 메뉴에서 "확인없이 허용" 클릭 필요함
DRIVER_PATH = "./chromedriver"

3. 수집할 뉴스기사 정보입력

아래 코드에서 수집할 뉴스기사 정보를 입력합니다.

단, 아래 조건을 만족하더라도 네이버 플랫폼에서 제공하지 않는 기사는 수집 대상에서 제외됩니다.

Python Code (in Jupyter Notebook) :

# 수집할 뉴스기사 정보를 입력합니다.
QUERY = "코로나19"          # 필터링 키워드
START_DATE = "2020.12.01" # 필터링 일자 (작성일 기준)
END_DATE = "2020.12.03"
START_PAGE = 1            # 검색결과 저장 페이지 범위 (네이버 뉴스기사는 검색결과 중 최대 4,000페이지만 제공)
END_PAGE = 2     
                          # 기사와 댓글을 저장할 파일명
article_filename = "article_" + QUERY + "_" + START_DATE + "_" + END_DATE + "_" + str(START_PAGE) + ".txt"
comment_filename = "comment_" + QUERY + "_" + START_DATE + "_" + END_DATE + "_" + str(START_PAGE) + ".txt"

4. 수집시작

1~3번 과정 준비가 완료되면 전체 코드를 실행합니다. [수집 데이터 정보(Excel)]

Release history

2021.06.06. teanaps-news-scraper v1.0.1 업데이트
2021.05.30. teanaps-news-scraper v1.0.0 업데이트

Update History

2021.06.06. User Guide 업데이트
2021.05.30. 기본 구성 입력

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

teanaps_web_scraper_guide-news_scraper.md

teanaps_web_scraper_guide-news_scraper.md

`TEANAPS` News Article Scraper

Notice!

User Guide

1. Install Selenium

2. Chrome Driver Setting

3. 수집할 뉴스기사 정보입력

4. 수집시작

Release history

Update History

Files

teanaps_web_scraper_guide-news_scraper.md

Latest commit

History

teanaps_web_scraper_guide-news_scraper.md

File metadata and controls

TEANAPS News Article Scraper

Notice!

User Guide

1. Install Selenium

2. Chrome Driver Setting

3. 수집할 뉴스기사 정보입력

4. 수집시작

Release history

Update History

`TEANAPS` News Article Scraper