- 모델 최종 출력 .txt -> .wav(음성)로 수정.
- 음성의 욕설 부분은 블러 처리 되어 출력.
- ex) 아 진짜 씨발 기훈이형 일 좆같이 할래? -> 아 진짜 (---) 기훈이형 일 (---)이 할래?
동아대학교 컴퓨터공학과 학생 팀
개발 기간: 2023.07.14 ~
본 프로젝트는 2023 공개SW 개발자 대회 출품작으로, 머신러닝을 이용한 실시간 음성 한국어 욕설 필터링 시스템을 API 서비스로 제공하는 프로젝트입니다.
컴퓨터공학과 4학년 |
컴퓨터공학과 4학년 |
컴퓨터공학과 4학년 |
컴퓨터공학과 4학년 |
컴퓨터공학과 4학년 |
김현우 | 김혜영 | 박성민 | 서지헌 | 이영우 |
개발 | PM | 개발 | 개발 | 개발 |
Bidirectional-LSTM을 사용하였고 어텐션 메커니즘을 적용하여 욕설 마스킹 기능을 구현했습니다.
Google Cloud STT API를 사용하여 Time Stamp 및 STT를 구현하였습니다.
Pydub 라이브러리를 활용하여 오디오 블러처리를 구현하였습니다.
모델 구조는 아래와 같습니다
더 자세한 내용은 코드를 참고해 주세요.
욕설 데이터셋은 약 41,000개의 문장에 대해 욕설 여부를 분류한 데이터셋입니다.
- 연속적인 글자 단축 (ㅋㅋㅋㅋ → ㅋㅋ)
- 초성, 중성, 종성으로 분리 (안녕 → ㅇㅏㄴㄴㅕㅇ)
-
fasttext 임베딩
fasttext를 활용하여 의미 기반의 임베딩 수행
이 레포지토리에선 미리 학습된 fasttext 모델을 사용합니다.
때문에 예측을 위해선 fasttext 모델이
embedding_models
폴더에fasttext.bin
이라는 이름으로 옮겨져 있어야 합니다.fasttext 모델은 여기에서 다운로드받을 수 있습니다.
-
mfcc 임베딩
비슷한 발음의 단어를 비슷한 벡터로 임베딩 (MFCC 알고리즘 활용)