[실험] SOM-DST 논문 정리 #62
changwoomon
started this conversation in
Experiments
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
SOM-DST 논문 리뷰
문제 정의
Open-vocab 기반 DST 중, SOM-DST 가 속도와 성능에 있어 좋은 성능을 보이므로 적용해보기 위함
참고 자료
기존 모델의 문제점
Ontology-based DST 문제점
TRADE 문제점
SOM-DST
Definition
: turn
: slot
: corresponding slot value
: total number of such slots
: System response
: User utterance
State Operation Predictor (Encoder)
Encoder 모델로 pretrained BERT encoder 사용
Encoder Input을 만들기 위한 준비물
⊕ ; ⊕ ⊕ : dialogue utterances at turn t
;
와 를 구분하기 위한 스페셜 토큰[SEP]
dialogue turn이 끝났다는 것을 표시하기 위한 스페셜 토큰⊕ ⊕ - ⊕ : representation of the j-th slot-value pair
j-th slot-value pair를 하나의 벡터로 aggregate
[SLOT] 이라는 스페셜 토큰을 사용
BERT의 [CLS] 토큰과 같은 역할
⊕ ... ⊕ : representation of the dialogue state at turn t
Encoder Input
⊕ ⊕ ⊕
segment id: 0 1 1
⇒ Input : Sum( embedding, segment id embedding, positional embedding)
dialogue history로 이전 턴의 dialogue utterances 을 사용한다.
dialogue history의 size: 1
모델이 입력으로 들어오는 dialogue 간의 Markov property를 가정
이전 turn dialogue state 은 전체 dialogue history를 압축적으로 표현하는 역할
Encoder Output
: (t=1...t) 까지 집합
State Operation Prediction
: learnable parameter
: j-th slot의 turn t에서의 연산에 대한 확률 분포
SOM-DST에서는 ,
→
→ slot의 Operation의 결과가
UPDATE
일 때 slot value를 generationEncoder에서 나온 Operation의 결과가
Update
인 경우를 집합으로 표현하면, and its size as
Recab for V
Slot Value Generator (Decoder)
Encoder에서 나온 Operation의 결과가
Update
인 경우 해당 slot의 value를 예측SOM-DST의 generator는 value를 가 아닌 개의 slot에 대해서만 만들어준다.
대부분의 경우에서 이기 때문에 더 효율적이라고 주장
Decoder 모델로 GRU 사용
입력으로 word embedding vector 를 받으면서 GRU의 hidden state vector 를 recurrent하게 업데이트
, : GRU에 들어가는 초기값
가 [EOS] 토큰이 나올때까지 진행
hidden state 는 k-th decoding step을 거치면서 vocabulary 와 user utterance의 단어에 대한 확률 분포로 변함
: final output distribution
Objective Function
State operation predictor
Main Task
state operation classification
Auxiliary Task
domain classification
state operation classification 외에도 domain classification을 보조 task로 사용하여 모델이 dialogue turn 간의 slot operation과 domain transition의 상관 관계를 학습하도록 함
Average of the negative log-likelihood
Slot value generator
Average of the negative log-likelihood
Final Loss
to minimized
Experimental Setup
Datasets
MultiWOZ 2.0 and MultiWOZ 2.1
Training
결과
Joint Goal Accuracy
Domain-specific Accuracy
Latency
평가
Beta Was this translation helpful? Give feedback.
All reactions