안녕하세요. Team Bang9 입니다.
5년마다 치러지는 대통령 선거!
너무 많은 대통령 후보들...
더 많은 공약들...
일일이 다 보기 어려우셨죠!?
지금부터 보여줄게... 완전히 달라진 시각화
제 20대 대통령 선거는 모두 14명이 입후보하였으며 처음 사전 투표가 도입된 2014년 지방 선거 이후 역대 최고치의 사전 투표율을 보여준 선거입니다.
모든 후보들의 공약을 한눈에 파악하기 어렵기 때문에 공약데이터의 활용 및 시각화를 통해 유권자들에게 의미있는 정보를 전달하는 것에 목적을 두었습니다.
| 기호 | 정당 | 이름 | 슬로건 |
|---|---|---|---|
| 1번 | 더불어민주당 | 이재명 | 위기에 강한 |
| 유능한 경제대통령 | |||
| 2번 | 국민의힘 | 윤석열 | 국민이 키운 윤석열 |
| 내일을 바꾸는 대통령 | |||
| 3번 | 정의당 | 심상정 | 주4일제 복지국가 |
| 일하는 시민의 대통령 | |||
| 4번 | 국민의당 | 안철수 | 바르고 깨끗한 과학경제강국 |
| 믿을 사람, 바른 사람 안철수 | |||
| 5번 | 기본소득당 | 오준호 | 누구나 나답게 |
| 기본소득 대한민국 | |||
| 6번 | 국가혁명당 | 허경영 | 국가에 돈이 없는 것이 아니라 |
| 도둑놈이 많습니다! | |||
| 7번 | 노동당 | 이백윤 | 계속 이렇게 살거야? |
| 바꾸고 싶다면, 사회주의 | |||
| 8번 | 새누리당 | 옥은호 | 선거를 국민에게 |
| 자유를 국민에게 | |||
| 선관위 개혁, 부정선거 단죄 | |||
| 9번 | 새로운물결 | 김동연 | 품격있는 경제대통령 |
| 기득권공화국에서 기회의 나라로 | |||
| 10번 | 신자유민주연합 | 김경재 | 자유대한민국 재건의 선봉장 |
| 자유 우파 구국 대통령 | |||
| 11번 | 우리공화당 | 조원진 | 부정부패 쓰레기정치 확! |
| 개혁적인 자유우파 유일 후보 | |||
| 12번 | 진보당 | 김재연 | 당신의 땀이 빛나도록 |
| 일하는 사람들의 정치혁명 | |||
| 13번 | 통일한국당 | 이경희 | 오직 경제! 오직 통일! |
| 국민분열정치 이제 그만, | |||
| 국민통합정치 이제 시작! | |||
| 14번 | 한류연합당 | 김민찬 | 국가를 지키고 국민을 보호하겠습니다. |
| 새로운 시대! 새로운 나라! 새로운 사람! |
시각화를 위한 데이터는 데이콘의 데이터탭에서 정리된 후보 공약 pdf 파일을 사용했습니다.
2022년 3월 2일 기준 수집한 대선 후보들의 공약입니다.
출처 : https://policy.nec.go.kr/
✅ 데이터 사용을 위해 PDF파일을 TXT파일로 변환하는 작업을 진행
원본 파일에 없는 특수 문자가 삽입되고 텍스트 순서가 변경되었습니다.
페이지 하단의 기호와 페이지 번호도 함께 변환되었습니다.
원본 파일과 동일하게 텍스트 변환되었습니다.
페이지 하단의 기호와 페이지 번호도 함께 변환되었습니다.
결과적으로 모든 PDF파일 → TXT파일 변환작업에서 pdfplumber 모듈 사용했습니다.
✅ 텍스트 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업
특수 문자가 사용된 경우 데이터전처리 단계에서 오류가 발생할 가능성이 있습니다.
위의 사진에서는 △가 해당되며 모두 삭제했습니다.
원본 파일의 이미지로 삽입된 표와 같은 경우 txt파일에서 누락됩니다.
수기로 표의 내용을 추가했습니다.
문장의 끝에 오는 단어가 줄이 넘어가며 하나의 단어에서 두 개로 나뉘어지는 현상이 발생합니다.
위의 사진에서는 유니콘기업이 해당 되며 이와 같은 단어를 찾아 이어 붙이는 작업을 진행했습니다.
14명의 후보들의 공약데이터를 활용하기 위해 데이터 전처리 작업을 진행하였습니다.
- 워드카운트 설명
- Okt (Twitter)를 사용
- morphs, nouns, pharase, pos 중에 nouns(text)를 통해 시각화 데이터를 처리하였습니다.
- 데이터에서 등장한 횟수가 많은 순으로 200개의 단어를 출력했습니다.
- 불용어처리 대충 설명
- 명사 형태로 출력을 하니 ‘및’, ‘등’과 같은 부사와 ‘도입’, ‘순위’, ‘이행’과 같이 명사임에도 목적어나 주어가 생략되 의도가 불분명한 단어를 삭제하는 작업을 수기로 진행하였습니다.
14명의 후보들의 공약을 데이터 전처리 작업을 한뒤 텍스트 시각화 작업을 하였습니다.
- 워드클라우드 설명
- 할 말
네모모양 결과
- 마스크 대충 설명
- 청와대 공식 로고를 사용했습니다.
- 파이썬 PIL모듈이 검정과 흰색을 구분지어야 명확하게 구분하기 때문에 테두리를 내부에 검정색으로 채운 이미지를 사용했습니다.
- [후보자들이 뭐뭐뭐에 대해 관심이 많은 것을 알 수 있습니다. :)]
일요일까지 끝나걸로보고
화요일 저녁 데드라인
7시~9시까지 끝내기











