본문 바로가기

CODING/AI & ML & DL18

[ML] BoVW : bag of visual words | Feature engineering [ ML 텀 프로젝트로 진행했던 2D caltech101 data 분류 정리] BoVW [ bag of visual words ] 사진이나 영상 분류를 위해 영상에서 feature를 뽑아 분류하는 것 ❗️ feature를 뽑는다는 것 - SIFT 기법과 같은 방법을 통해 영상의 특징이 되는 부분 예를 들면 아래 왼쪽과 같은 그림에서 특징이라고 할 수 있는 코나, 입, 턱 선등을 영상에서 뽑아내는 것을 의미한다. BoVW 알고리즘 방법 1️⃣ 모든 영상의 특징점 검출 2️⃣ 모든 특징점들이 Codebook 계산 ( 중요한 특징들을 뽑는 것 ) 3️⃣ 모든 영상과 Codebook을 비교해서 histogram ( 빈도수 ) 계산 4️⃣ 분류기를 사용해 학습 및 예측 SIFT 기법 영상의 특징점을 검출하는 방법.. 2020. 12. 22.
[기계학습] 의사결정나무 | Decision Tree 🔎 의사결정나무 - 학습 데이터를 분석하여 데이터에 내재되어 있는 패턴을 통해 새로운 데이터를 예측 및 분류하는 모델 - 분리 기준과 정지 규칙을 지정해서 의사결정나무를 생성 장점 1️⃣ 이해하기 쉽고 적용하기 쉽다 2️⃣ 의사결정과정에 대한 설명 가능 ✔️ 의료부분이나 금융부분에서 이유를 알려줄 수 있어 응용이 가능함 3️⃣ 중요한 변수 선택에 유용 ✔️ 상단에 사용된 변수가 중요한 변수 ( 위의 사진으로는 날씨 ) 4️⃣ 데이터의 통계적 가정이 필요 없음 ✔️ ex ) LDA : 데이터 정규성이라는 가정이 필요했음 단점 1️⃣ 많은 데이터 필요 2️⃣ 트리를 만드는데 상대적으로 시간이 많이 소요 3️⃣ 데이터 변화에 민감 ✔️ 학습 데이터 ↔️ 테스트 데이터의 도메인(영역)이 유사해야함 4️⃣ 선형 .. 2020. 10. 30.
[기계학습] 이차 판별 분석 | Quadratic Discriminat Analysis [ 이전 글 ] LDA에서는 결정경계를 선형으로 가정하고 있어 서로 다른 공분산 분류에 어려움이 있는데( 비선형 분류가 가능하긴 함 ) 이것은 QDA로 해결할 수 있다. QDA Quadratic Discriminat Analysis ] - 서로 다른 공분산 데이터 분류 가능 ( 비선형 분류 가능 ) - 서로 다른 공분산 데이터 분류를 위해 샘플이 많이 필요하다. - 독립변수(설명변수)의 개수가 많을 경우, 추정해야하는 모수가 많아짐 ➡️ 연산량이 큼 🔎 모수 아래의 식에서 β에 해당하는 것을 모수라고 함 QDA 예시 평균이 각각 (0,0) (1,1) (-1,1) 이고 class2 와 class3 의 공분산 구조는 같지만 class1의 구조가 다르기 때문에 QDA를 사용한다 [ 파이썬에서 ' IRIS 데이.. 2020. 10. 15.
[기계학습] 선형 판별 분석 | Linear Discriminant Analysis [ 지난 글 ] 에서 판별 분석에 대해서 다뤄봤는데, 이번에는 판별 분석 중에 선형 판별 분석에 대해 정리해보자 선형 판별 분석 [ Linear Discriminant Analysis ] - 데이터를 특정 한 축에 사영(projection)한 후에 두 범주를 잘 구분할 수 있는 직선을 찾는 것이 목표 위의 경우 왼쪽보다 오른쪽이 더 분류가 잘 됐다고 판단 가정 ( Assumptions ) - 아래의 가정을 만족해야 이 모델을 사용할 수 있다. 1️⃣ 각 클래스 집단은 정규분포 ( normal distribution ) 형태의 확률분포를 가짐 2️⃣ 각 클래스 집단은 비슷한 형태의 공분산 ( covariance ) 구조를 가짐 ➡️ 각 클래스 집단 모두가 아래의 3가지 형태중 한가지 형태를 띄워야 함 🧩 .. 2020. 10. 14.
[기계학습] 판별 분석 | Discriminant analysis 🔍 판별 분석이란 ? - 두 개 이상의 모 집단(= 집단 전체)에서 추출된 표본(=관찰한 결과, 집단의 성질을 추축할 수 있는 통계자료)들이 지니고 있는 정보(= 분포)를 이용하여 이 표본들이 어느 모 집단에서 추출된 것인지를 결정해 줄 수 있는 기준을 찾는 분석법 ex) 은행에서 부동산 담보 대출을 행하고자 할 경우 채무자가 대출금을 갚을 것인가? 그렇지 않을 것인가? 를 알고 싶을 때, 과거에 대출금을 반환하지 않은 사람의 정보 유형(연령, 소득, 직업, 결혼 유무)을 참고하여 신청자의 정보 유형을 과거의 유형과 비교하여 파악하는 것 📌 과거에 대출금을 반환하지 않은 사람 - 표본 📌 과거에 대출금을 반환하지 않은 사람의 정보 유형 - 판별 변수 📌 대출을 승인받은 그룹 A, 대출을 승인받지 못한 그.. 2020. 10. 13.
[기계학습] 로지스틱 회귀 | Logistic Regression [ 지난 글 ] 에서 다중선형회귀가 무엇인가에 대해 다뤄봤다. 다중선형회귀에서는 연속성 숫자를 가진 종속변수 Y는 구할 수 있지만 0 or 1 (범주형 숫자)에는 적용이 되지 않는 것을 볼 수있다. 아래의 그림은 나이에 따른 암 발병 여부인데 빨간 선이 의미가 없다는 것을 알 수 있다. 이런 문제는 로지스틱 회귀 모델을 적용할 수 있다. 🔎 로지스틱 함수 [ Logistic Function ] s - 커브 함수를 나타냄 x값은 어떤 값을 받아도 상관없지만 y값은 항상 0 ~ 1로 정해져 있음 시그모이드 함수라고 하기도 함 이항 로지스틱 회귀 결정경계란 2개의 클래스가 있을 때 클래스를 분류하는 기준 위와 같이 Y가 1이 될 확률이 0이될 확률보다 높으면 1로 분류하고 그 반대가 되면 0으로 분류하는데 그.. 2020. 9. 30.