학습 목표
- 결측치를 처리하고, 시각화할 수 있습니다.
핵심 키워드
- replace()
- plot.barh()
- mean()
학습하기
학습 목표
- 결측치를 처리하고, 시각화할 수 있습니다.
핵심 키워드
- replace()
- plot.barh()
- mean()
학습하기
학습내용
cols = feature_columns[1:]
cols
feature_columns 중에서 첫번째 열을 빼고, 나머지 열들을 cols 변수로 가져옵니다.
결과 :
df_null = df[cols].replace(0, np.nan)
df_null = df_null.isnull()
df_null.sum()
0으로 기록된 값을 null로 처리하고, 결측치를 알아봅니다.
글루코스, 혈압, BMI 등도 결측치가 있는데 인슐린이 특히 결측치가 많습니다.
인슐린 수치가 당뇨병을 예측하는 데에 크게 도움이 되지 않았는데 결측치가 너무 많아서 그렇다는 예상을 할 수 있습니다.
결과 :
df_null.sum().plot.barh()
결측치 수치를 시각화로 볼 수 있습니다.
결과 :
df_null.mean() * 100
인슐린의 경우 전체 대비 48%가 결측치입니다.
결과 :
plt.figure(figsize=(15, 4))
sns.heatmap(df_null, cmap="Greys_r")
히트맵을 그려봅니다. True 값은 1, False 값은 0입니다.
plt.figure으로 시각화 그래프의 사이즈를 조절할 수 있고, cmap 옵션을 지정하여 색상을 grayscale로 변경할 수 있습니다.
결과 :
https://colab.research.google.com