Introduction to MAPPO

본 시뮬레이션의 MAPPO 구현는 기존 policy based 알고리즘과 동일하게 actor-critic 아키텍쳐를 사용한다.
CTDE라고 해서 critic 함수를 cetralized하게 학습한 뒤, 각자의 policy network대로 동작을 수행한다.