1. Silhouette Score?[STUDY/ML(Machine Learning)] - [ML] K-means clustering [ML] K-means clustering1. K-means clustering?데이터를 $K$개의 그룹(군집)으로 자동으로 나눠주는 비지도학습 알고리즘각 군집을 대표하는 중심점(centroid)을 그 군집에 속한 데이터들의 평균(mean) 위치로 잡아가면서 군집을blog.chaenii.me 클러스터링은 비지도학습이라 "정답"이 없다. KMeans를 $K=10$으로 돌린 결과와 $K=70$으로 돌린 결과 중 뭐가 더 "좋은" 군집인지 어떻게 판단할까?우선 좋은 군집화란: 같은 군집 안의 데이터끼리는 가깝고, 다른 군집과는 멀어야 한다 이 두 조건을 하나의 점수로 합쳐, 좋..
1. K-means clustering?데이터를 $K$개의 그룹(군집)으로 자동으로 나눠주는 비지도학습 알고리즘각 군집을 대표하는 중심점(centroid)을 그 군집에 속한 데이터들의 평균(mean) 위치로 잡아가면서 군집을 갱신해 나가기 때문에 "K-평균(K-means)"라고 함.정답 라벨 없이, 데이터들끼리 얼마나 가까운지만 보고 그룹을 찾아냄.2. 문제 상황수만 개의 데이터(예: 고객 문의 티켓)가 있는데, 사람이 일일이 보지 않고도 "비슷한 것들끼리 자동으로 묶고 싶다." 라벨(정답)은 없다.그냥 데이터의 분포만 보고 그룹을 찾아내는 것, -> 비지도학습(unsupervised learning).K-Means는 그중 가장 단순하고 널리 쓰이는 알고리즘이다.3. 알고리즘$K$개의 그룹으로 나눈다고 ..
[STUDY/ML(Machine Learning)] - [ML] TF-IDF(Term Frequency-Inverse Document Frequency)TF-IDF든 임베딩이든, 텍스트를 벡터로 바꿨다면 그다음 필요한 건"이 두 벡터가 얼마나 비슷한가"를 숫자 하나로 표현하는 방법이다.가장 많이 쓰는 두 가지가 코사인 유사도와 유클리드 거리인데, 이 둘은 측정하는 대상이 다르다.1. 코사인 유사도: 방향이 비슷한가$$\cos\theta = \frac{a \cdot b}{|a||b|}$$분자 $a \cdot b$는 내적(dot product), 분모는 각 벡터의 길이(norm)를 곱한 것. 결과는 두 벡터 사이의 각도의 코사인 값이다.두 벡터가 같은 방향이면 $\cos\theta = 1$ (완전히 유사)직..
1. TF-IDF?정의단어의 빈도(TF)와 역문서빈도(IDF)를 곱해서, 문서 내 각 단어의 "중요도"를 가중치로 매기는 방법단순히 "몇 번 나왔는가"만 세는 빈도수 카운트(Bag of Words)의 한계를 보완쓰임문서 간 유사도 계산검색 결과 랭킹(중요한 단어가 많이 매칭될수록 상위 노출)특정 문서 안에서 핵심 키워드 추출2. 왜 필요한가? - 단순 빈도수의 한계컴퓨터는 "배송 문의 요청"이라는 문자열을 그 자체로 이해하지 못함 → 비교·계산을 하려면 숫자(벡터)로 바꿔야 함.가장 단순한 방법: 단어가 몇 번 나왔는지 세는 것(Bag of Words)문제: "문의", "요청" 같이 거의 모든 문서에 등장하는 흔한 단어가 카운트를 지배진짜 그 문서를 구별짓는 단어("환불", "파손", "교환")는 빈도수..