-
python - 빠진 자리 data (missingno)Python/tip of python 2020. 7. 20. 20:58
Pandas 등에서 빠진 data 자리 : NaN = Not a Number
NaN은 연산에서 빠짐
df['column명'].mean() # NaN 빼고 평균 구함
df['column명'].fillna(0) #빈자리를 0으로 채움
df['column명'].fillna(0).mean() # 빈자리 0으로 채우고, 합쳐서 평균 구함
[빈자리 data를 시각화 해주는 라이브러리 : missingno]
예시 만들기 부터 하면,
%matplotlib inline
import pandas as pd
import numpy as pd
df = pd.DataFrame(np.random.rand(100,100))
cond = df > 0.3
df[cond]
# 0.3보다 큰 값만 남기고 남은 것은 빈칸 처리 : NaN으로 채워짐
df = df[cond]
import missingno as msn
msn.matrix(df)
다음과 같은 결과물이 뜬다.
100 x 100 의 random 숫자 중 0.3 아래는 NaN 처리 후 missingno로 표현 위 그림에서 흰 색 부분이 NaN 영역이다. 그림을 보면서 이 부분을 어떻게 처리할 지 고민하게 해준다.
missingno의 표현방식은 3가지가 더 있다.
msn.barchart(df) # 바차트
msn.heatmap(df) # 히트맵
msn.dendrogram(df) #덴드로그램(히트맵보다 좀더 상세하게)
좀 더 전문적인 용어로 '결측치 시각화'.
random하게 생성한 data말고 좀 더 의미있는 것으로 확인하면 결측치 확인과 분석에 좀더 의미가 있을 것으로 보인다.'Python > tip of python' 카테고리의 다른 글
xlwings 라이브러리에서 좌표로 내용 입력하는 함수 (0) 2020.08.19 installing libraries on conda (0) 2020.07.20 data frame 문자열 다루기 (0) 2020.07.16 python - tip : 원하는 조건의 값을 받아내기 전까지 반복 (0) 2020.07.13 a, b값 바꿔치기(상호 교환) (0) 2020.07.13