메타정보 (source)를 데이터셋에 추가 + prediction까지 고려한 커스텀 EDA 툴 #22
papari1123
started this conversation in
Ideas
Replies: 1 comment
-
100점이요...! |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
요약
개선 필요점
1. source 메타정보 이용
먼저, 메타 데이터인 source는 총 6개의 category로 구성되어 있습니다.
이를 6차원의 one-hot encoding할 수 있으나, rtt/sampled 여부에 따라 label의 분포 차이가 있음을 발견하였습니다.
source의 경우는 rtt/sampled 보다는 적은 차이를 보입니다.
따라서 source를 다시 2개의 카테고리 (rtt : rtt/sampled, source : nsmc/slack/pertition)으로 나누었고,
바뀐 source 데이터에 대해 one-hot encoding을 한 후, rtt 여부를 concat한 4차원 벡터를 만들었습니다.
이를 aux (auxiliary)라고 dataset class에 정의하고, 학습에 사용할 수 있도록 코드를 변경하였습니다.
2. EDA 툴
2.1 분석용 데이터 생성 방법
2.2 EDA 실행 방법
2.2.1. feature들의 mean, std, 4분위 통계량 확인
2.2.2. 표본 집단들의 mean, std, 4분위 통계량 확인
-표본집단에 대한 통계값도 데이터값으로 사용할 수 있습니다. 예를 들어 피어슨 상관계수의 경우 샘플 하나에 대해서 계산할 수 없고 여러 개의 샘플(표본집단)에 대해서 계산이 가능하기 때문에 2.2.1의 방법이 아닌 이 방법을 사용해 분포를 구할 수 있습니다.
2.2.3. scatter plot
분석할 두 지표를 vs_col에 넣고, 추가적으로 알고싶은 정보를 color_col에 넣습니다.
표본집단에 대한 데이터프레임인 sfd에 대해서도 수행이 가능합니다.
2.2.4. scatter matrix plot
여러 지표에 대해 2개씩 묶어 상관관계를 분석하고 싶은 경우 scatter matrix를 사용합니다.
2.2.5. box, violin plot
2.2.2.처럼 reference column을 정해서 구해진 표본 집단들 각각의 bot plot 또는 violin plot을 그립니다.
TH_LIST를 설정하지 않을 경우, 데이터 백분위수를 구해 자동으로 threshold를 계산합니다.
범주형 데이터, 예를 들면 rtt를 reference로 잡을 경우, 0/1 값만을 가지기 때문에 TH_LIST를 [0.5]로 설정하면 됩니다.
Beta Was this translation helpful? Give feedback.
All reactions