๋ณธ ํ๋ก์ ํธ๋ YuanGongND๋์ด ๊ตฌํํ ast ์์ค ์ฝ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌํํ์ต๋๋ค.
- ๊ณ ๋ นํ ์ฌํ์ ์ ์ด๋ค๋ฉฐ ๋
ธ์ธ 1์ธ ๊ฐ๊ตฌ ๋น์ค์ด ์ฆ๊ฐํ๋ฉฐ, ๊ณ ๋
ํ๊ฒ ์๋ช
๊ณผ ์ง๊ฒฐ๋ ์ํ์ ๋์ฌ์๋ ๋
ธ์ธ ๋น์ค๋ ์ฆ๊ฐํ๊ณ ์์ต๋๋ค. ์ ๋ถ์ ์ง์์ฒด๋ ์ด ๋ฌธ์ ๋ฅผ ํ์
ํ์ฌ SKT ๋ฑ ๊ธฐ์
๊ณผ ํ์
ํ์ฌ ๋์์ ์ค ์ ์๋ ์ธ๊ณต์ง๋ฅ์ ๋ณด๊ธํ๊ณ ์๋ค. ์ด์ ๋ฐ๋ผ AI ์คํผ์ปค์ ํ์ฌ๋ ์ ์๋ ์ค์๊ฐ์ผ๋ก ์๊ธ ์ํฉ์ ๊ฐ์งํ ์ ์๋ ๊ธฐ๋ฅ์ ๊ฐ๋ฐํ๊ณ ์ ํฉ๋๋ค.
- Real-time์ผ๋ก ์ค๋์ค ์ ํธ๋ฅผ ์ฝ๊ณ , ์๊ธ ์ํฉ์ ์์ธกํ๊ณ ์ฆ๊ฐ์ ์ธ ๋์
- Transformer ๊ธฐ๋ฐ ๊ณ ์ฑ๋ฅ Audio Classification ๋ชจ๋ธ AST ์ฑํ
AST(Audio Spectrogram Transformer)
- ์ค๋์ค์ ๋ํ STFT ๊ฒฐ๊ณผ๋ฌผ์ธ Spectrogram์ n๊ฐ๋งํผ ๋๋๊ณ linear projection ์ํํฉ๋๋ค.
- Linear projection ๊ฒฐ๊ณผ๋ฌผ์ positional embedding์ ๊ฑฐ์ณ์ ํฌ์ง์
๊ฐ์ ๊ฐ๊ณ Transformer์ Encoder ํต๊ณผํฉ๋๋ค.
- Encoder์ ๊ฒฐ๊ณผ๋ฌผ์ ํ์ฑํ ํจ์๊ฐ sigmoid(softmax)์ธ Dense layer๋ฅผ ์ง๋ ์ต์ข
๊ฒฐ๊ณผ๋ฌผ์ ํ๋ฅ ์์ธกํฉ๋๋ค.
- Vision Transformer์ ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ ธ Vision Transformer๋ก ImageNet์ ํ์ตํ Pre-trained ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ฉํฉ๋๋ค. ์ด๋, Transfer Learning์ ์ํํ์ ๋ ์๊ธ ์ํฉ ๋ฐ์ดํฐ ๊ธฐ์ค 40 epoch 99.1% ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
- Mixup ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ ํ๋ ๋ฐ์ดํฐ์ ๋๋คํ ๋ฐ์ดํฐ๋ฅผ beta ๋ถํฌ๋ก ์์ด ํ์ต์ ํ์ฉํฉ๋๋ค.
ํ์ต์ ์ํํ๊ธฐ ์ , label indices.csv์ data.csv๋ฅผ ๋ฏธ๋ฆฌ ์ค๋นํฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ egs/emergency ๋๋ ํ ๋ฆฌ์์ run_emergency.sh ์คํฌ๋ฆฝํธ๋ฅผ ์คํํฉ๋๋ค. (./run_emergency.sh)