For the rlhf learning environment of Koreans 한국 사람들의 RLHF(Reinforcement Learning from Human Feedback) LLM 학습을 위해 성균관대학교 바이브컴퍼니 산학협력 과제 과정에서 일상대화 챗봇 개발을 목적으로 데이터 선별, 자연스러운 전처리 등의 과정을 거쳐서 만든 데이터셋입니다.
이 데이터셋은 DeepSpeedChat 라이브러리용으로 제작이 되었기에 prompt, chosen, rejected의 구조를 가지고 있습니다.