본문 바로가기

sklearn3

[기계학습] 이차 판별 분석 | Quadratic Discriminat Analysis [ 이전 글 ] LDA에서는 결정경계를 선형으로 가정하고 있어 서로 다른 공분산 분류에 어려움이 있는데( 비선형 분류가 가능하긴 함 ) 이것은 QDA로 해결할 수 있다. QDA Quadratic Discriminat Analysis ] - 서로 다른 공분산 데이터 분류 가능 ( 비선형 분류 가능 ) - 서로 다른 공분산 데이터 분류를 위해 샘플이 많이 필요하다. - 독립변수(설명변수)의 개수가 많을 경우, 추정해야하는 모수가 많아짐 ➡️ 연산량이 큼 🔎 모수 아래의 식에서 β에 해당하는 것을 모수라고 함 QDA 예시 평균이 각각 (0,0) (1,1) (-1,1) 이고 class2 와 class3 의 공분산 구조는 같지만 class1의 구조가 다르기 때문에 QDA를 사용한다 [ 파이썬에서 ' IRIS 데이.. 2020. 10. 15.
[기계학습] 선형 판별 분석 | Linear Discriminant Analysis [ 지난 글 ] 에서 판별 분석에 대해서 다뤄봤는데, 이번에는 판별 분석 중에 선형 판별 분석에 대해 정리해보자 선형 판별 분석 [ Linear Discriminant Analysis ] - 데이터를 특정 한 축에 사영(projection)한 후에 두 범주를 잘 구분할 수 있는 직선을 찾는 것이 목표 위의 경우 왼쪽보다 오른쪽이 더 분류가 잘 됐다고 판단 가정 ( Assumptions ) - 아래의 가정을 만족해야 이 모델을 사용할 수 있다. 1️⃣ 각 클래스 집단은 정규분포 ( normal distribution ) 형태의 확률분포를 가짐 2️⃣ 각 클래스 집단은 비슷한 형태의 공분산 ( covariance ) 구조를 가짐 ➡️ 각 클래스 집단 모두가 아래의 3가지 형태중 한가지 형태를 띄워야 함 🧩 .. 2020. 10. 14.
[기계학습/데이터 전처리] 1. 데이터 실수화 & 데이터 변환 ( 표준화 / 정규화 ) 데이터 전처리란? 데이터의 품질을 올리는 과정 하는 이유는 ? 컴퓨터가 이해할 수 있는 값으로 변환해 주기 위해서 ex) 남성 ➡️ 0 , 여성 ➡️ 1 불완전한 데이터 제거 ex) NULL , NA , NAN 제거 잡음 섞인 데이터 제거 가격 데이터에 ➖ 값 제거 연령 데이터에 있는 큰 값 제거 ex) 200 , 300 ••• 모순된 데이터 해결 ex) 남성인데 주민번호 뒷자리 시작이 2인 경우 불균형 데이터 해결 클래스의 값이 너무 차이가 많이 나는 것을 해결 ex ) 🅰️ - 10000개 🅱️ - 100개 ➡️ 이런 상황을 해결하기 위해 데이터 전처리 기법 🟢 데이터 실수화 ( Data vectorization ) - 범주형, 텍스트, 이미지 자료를 실수 형태로 전환하는 것 자료의 유형 연속형 - .. 2020. 9. 12.