본문 바로가기

전체 글258

[9월 5일 - 9월 22일] 일상 🎲 보호되어 있는 글 입니다. 2020. 9. 22.
[기계학습] KNN | K - 최근접 이웃 알고리즘 📍KNN 이란? - 주변 K개의 자료 클래스 중 가장 많은 클래스로 특정 자료를 분류하는 방식 - 새로운 자료 🔺를 가까운 자료 5개의 자료 ( K = 5 ) 를 이용하여 가장 많은 클래스가 있는 것으로 할당 아래의 그림으로 치면 새로운 자료 🟢 이 속하는 클래스를 찾으려고 K를 5로하면 점선에 속해 🟦 클래스가 되고, K를 3으로 하면 실선에 속해 🔺클래스에 속하게 된다. ✔️ KNN 분류에서는 최근접 이웃사이에서 과반수 의결에 의해 분류 ✔️ KNN 회귀에서는 K개의 최근접 이웃이 가진 값의 평균이다. - 데이터 분포를 표현하기 위한 파라미터를 추정하지 않음 ➡️ 선형회귀/분류 에서 Wx + b에서 [W,b]를 구하지만 KNN은 이러한 파라미터를 구하지 않음 - 게으른 학습 ( Lazy learner.. 2020. 9. 21.
[HTML] 텍스트 태그 / 목록 태그 [ 이전 글 ]에 이어서 들 🔶 텍스트 태그 [ 텍스트 굵게 만들어 주는 태그 ] 태그 - 굵게 표시, 중요한 내용이라서 강조할 때 사용 태그- 그냥 굵게 표시 ➡️ 화면으로 볼 때 차이는 없음 [ 이텔릭체로 만들어주는 태그 ] 태그- 이텔릭체로 표시, 특정 부분 강조 태그 - 그냥 이텔릭체 표시 ➡️ 화면으로 볼 때 차이는 없음 [ 태그 - 인용 내용 표시 ] - 줄바꿈 없이 다른 내용과 한줄에 인용 내용 표시 - 인용 내용 앞뒤에 따옴표(" ") 추가됨 - cite = "url" (출처)를 넣어줘야함 ex) [ 태그 - 형광펜 효과 ] - 태그로 묶은 부분의 배경색이 노랑으로 표시됨 [ 영역 묶기 태그 ] 태그 - 줄 안에서 (인라인) 묶기 태그 - 줄바꿈 처리 후 (블록) 단락으로 묶어서.. 2020. 9. 18.
[알고리즘/Python] 힙정렬 | heap sort 힙 정렬(heap sort) - 우선순위 큐를 위해 만들어진 것 ➡️ 여러 개의 값들 중 최댓값 OR 최솟값을 빠르게 찾기 위해 - 완전 이진 트리로 만들어져 있음 ✔️ 완전 이진 트리란 : 마지막 레벨을 제외하고 모든 레벨이 완전히 채워져 있으며, 마지막 레벨의 노드들은 가능한 왼쪽부터 채워져 있는 구조를 말한다. 1️⃣ Min - heap : 최소값이 루트 노드에 있고, 부모 노드는 자식 노드보다 작아야 함 ( 부모 노드 자식 노드 ) 시간복잡도 ⏱ 최선의 경우 : O(n log(n)) 최악의 경우 : O(n log(n)) 평균 : O(n log(n)) 장점 최악의 경우에도.. 2020. 9. 17.
[기계학습/데이터 전처리] 2 . 데이터 정제 & 통합 & 불균형 해결 [ 지난 글 ] 에서 데이터 실수화와 변환에 대해서 다뤄봤는데 이번에는 1️⃣ 데이터 정제 2️⃣ 데이터 통합 3️⃣ 데이터 불균형 해결에 대해서 정리한다 🟣 데이터 정제 ( Data Cleaning ) - 결측 데이터 채우기 ex) np.nan, npNAN, none ➡️ 결측 데이터를 1️⃣ 평균 ( mean ) , 2️⃣ 중위수 ( median ) , 3️⃣ 최빈수 ( most frequent value ) 로 채움 from sklearn.impute import SimpleImputer 위의 코드를 사용해서 쓸 수 있다 빨간 상자 부분을 바꿔서 평균, 중위수, 최빈수로 바꿀 수 있는데 각각 mean, median, most_frequent로 바꿀 수 있다 im.fit(x_miss) a = im.t.. 2020. 9. 14.
[기계학습/데이터 전처리] 1. 데이터 실수화 & 데이터 변환 ( 표준화 / 정규화 ) 데이터 전처리란? 데이터의 품질을 올리는 과정 하는 이유는 ? 컴퓨터가 이해할 수 있는 값으로 변환해 주기 위해서 ex) 남성 ➡️ 0 , 여성 ➡️ 1 불완전한 데이터 제거 ex) NULL , NA , NAN 제거 잡음 섞인 데이터 제거 가격 데이터에 ➖ 값 제거 연령 데이터에 있는 큰 값 제거 ex) 200 , 300 ••• 모순된 데이터 해결 ex) 남성인데 주민번호 뒷자리 시작이 2인 경우 불균형 데이터 해결 클래스의 값이 너무 차이가 많이 나는 것을 해결 ex ) 🅰️ - 10000개 🅱️ - 100개 ➡️ 이런 상황을 해결하기 위해 데이터 전처리 기법 🟢 데이터 실수화 ( Data vectorization ) - 범주형, 텍스트, 이미지 자료를 실수 형태로 전환하는 것 자료의 유형 연속형 - .. 2020. 9. 12.