Skip to content

p.198 수식 5.21 질문 #53

@driedpollack

Description

@driedpollack

안녕하세요. 좋은 책으로 즐겁게 공부하고 있습니다.
p.198에 수식 5.21에 보면 policy gradient theorem에 의해서 유도된 gradient J (theta)가 expectation의 형태로 나타나지는데,
이 부분에 대한 식이 잘 이해가 안되서 Sutton 교수님의 RL:an introduction 책을 살펴보니 이 책에는 Expectation 안에 Sigma가 있는데 (구체적으로 Sutton 교수님 책 p.326, equation 13.6입니다.) 혹시 오타인가요?

이는 p.198 중간 쯤에 sigma_s * d_pi(x) * sigma_a * pi(a | s)가 에이전트가 어떤 상태 s에서 행동 a를 선택할 확률이라는 부분에서 오류가 있는 것 같습니다.

혹시 제가 잘못 이해하고있다면, 보충 설명이나 자료 공유해주시면 감사하겠습니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions