인공지능2 [기계학습/데이터 전처리] 2 . 데이터 정제 & 통합 & 불균형 해결 [ 지난 글 ] 에서 데이터 실수화와 변환에 대해서 다뤄봤는데 이번에는 1️⃣ 데이터 정제 2️⃣ 데이터 통합 3️⃣ 데이터 불균형 해결에 대해서 정리한다 🟣 데이터 정제 ( Data Cleaning ) - 결측 데이터 채우기 ex) np.nan, npNAN, none ➡️ 결측 데이터를 1️⃣ 평균 ( mean ) , 2️⃣ 중위수 ( median ) , 3️⃣ 최빈수 ( most frequent value ) 로 채움 from sklearn.impute import SimpleImputer 위의 코드를 사용해서 쓸 수 있다 빨간 상자 부분을 바꿔서 평균, 중위수, 최빈수로 바꿀 수 있는데 각각 mean, median, most_frequent로 바꿀 수 있다 im.fit(x_miss) a = im.t.. 2020. 9. 14. [기계학습/데이터 전처리] 1. 데이터 실수화 & 데이터 변환 ( 표준화 / 정규화 ) 데이터 전처리란? 데이터의 품질을 올리는 과정 하는 이유는 ? 컴퓨터가 이해할 수 있는 값으로 변환해 주기 위해서 ex) 남성 ➡️ 0 , 여성 ➡️ 1 불완전한 데이터 제거 ex) NULL , NA , NAN 제거 잡음 섞인 데이터 제거 가격 데이터에 ➖ 값 제거 연령 데이터에 있는 큰 값 제거 ex) 200 , 300 ••• 모순된 데이터 해결 ex) 남성인데 주민번호 뒷자리 시작이 2인 경우 불균형 데이터 해결 클래스의 값이 너무 차이가 많이 나는 것을 해결 ex ) 🅰️ - 10000개 🅱️ - 100개 ➡️ 이런 상황을 해결하기 위해 데이터 전처리 기법 🟢 데이터 실수화 ( Data vectorization ) - 범주형, 텍스트, 이미지 자료를 실수 형태로 전환하는 것 자료의 유형 연속형 - .. 2020. 9. 12. 이전 1 다음