1. 임베딩과의 관계 임베딩은 숫자로 끝나고, LLM은 다음 단어를 계속 만들어낸다. 임베딩은 "텍스트→벡터" 변환만 하고 끝남LLM은 같은 트랜스포머 계열 구조를 쓰지만 벡터에서 다시 텍스트를 생성한다.둘 다 "문맥을 이해한다"는 점은 같은데, 출력 형태가 다른 것. [ML] 벡터 임베딩(Vector Embedding) - 의미를 벡터로cf) TF-IDF [ML] TF-IDF(Term Frequency-Inverse Document Frequency)1. TF-IDF?정의단어의 빈도(TF)와 역문서빈도(IDF)를 곱해서, 문서 내 각 단어의 "중요도"를 가중치로 매기는 방법단순히 "몇 번 나왔는가"만 세는 빈blog.chaenii.me2. 트랜스포머트랜스포머의 핵심은 어텐션(attention) 메커니즘..
cf) TF-IDF [ML] TF-IDF(Term Frequency-Inverse Document Frequency)1. TF-IDF?정의단어의 빈도(TF)와 역문서빈도(IDF)를 곱해서, 문서 내 각 단어의 "중요도"를 가중치로 매기는 방법단순히 "몇 번 나왔는가"만 세는 빈도수 카운트(Bag of Words)의 한계를 보완쓰임문서 간blog.chaenii.meTF-IDF도 텍스트를 벡터로 바꾼다. 그런데 TF-IDF는 순수하게 "단어가 몇 번 등장했는가"라는 통계에 기반한다."강아지"와 "개"는 글자가 다르니 전혀 다른 차원으로 취급 → 의미가 같다는 것을 전혀 모른다.임베딩(embedding): 신경망이 대량의 텍스트를 학습 → "이 단어가 어떤 맥락에서 쓰이는가" 함께 학습"강아지"와 "개"는 비..
1. SOM?대뇌 시각피질이 입력을 공간적으로 배치해서 처리하는 방식을 모사한 인공신경망.목적은 K-Means와 같다(데이터를 비슷한 그룹으로 묶기)지만, 구조 자체가 신경망이라는 점에서 계열이 다르다.K-Means·TF-IDF·SVD는 통계적 최적화(고전적 ML)고, SOM은 딥러닝(신경망) 계열이다.2. K-Means와 다른 점KMeans$K$개의 중심점이 공간에서 자유롭게 독립적으로 움직임.중심점 5번이 어디로 가든 50번에게 영향 없음.SOM노드들이 고정된 격자(grid) 위에 배치학습 중 한 노드가 움직이면 격자에서 가까운 이웃 노드도 같이 끌려감SOM은 "이웃 관계"라는 제약을 처음부터 깔고 학습한다.쉽게 말해, KMeans는 70명이 각자 자유롭게 움직이며 자기 자리를 찾는 것. SOM은 7..
1. Silhouette Score?[STUDY/ML(Machine Learning)] - [ML] K-means clustering [ML] K-means clustering1. K-means clustering?데이터를 $K$개의 그룹(군집)으로 자동으로 나눠주는 비지도학습 알고리즘각 군집을 대표하는 중심점(centroid)을 그 군집에 속한 데이터들의 평균(mean) 위치로 잡아가면서 군집을blog.chaenii.me 클러스터링은 비지도학습이라 "정답"이 없다. KMeans를 $K=10$으로 돌린 결과와 $K=70$으로 돌린 결과 중 뭐가 더 "좋은" 군집인지 어떻게 판단할까?우선 좋은 군집화란: 같은 군집 안의 데이터끼리는 가깝고, 다른 군집과는 멀어야 한다 이 두 조건을 하나의 점수로 합쳐, 좋..
1. K-means clustering?데이터를 $K$개의 그룹(군집)으로 자동으로 나눠주는 비지도학습 알고리즘각 군집을 대표하는 중심점(centroid)을 그 군집에 속한 데이터들의 평균(mean) 위치로 잡아가면서 군집을 갱신해 나가기 때문에 "K-평균(K-means)"라고 함.정답 라벨 없이, 데이터들끼리 얼마나 가까운지만 보고 그룹을 찾아냄.2. 문제 상황수만 개의 데이터(예: 고객 문의 티켓)가 있는데, 사람이 일일이 보지 않고도 "비슷한 것들끼리 자동으로 묶고 싶다." 라벨(정답)은 없다.그냥 데이터의 분포만 보고 그룹을 찾아내는 것, -> 비지도학습(unsupervised learning).K-Means는 그중 가장 단순하고 널리 쓰이는 알고리즘이다.3. 알고리즘$K$개의 그룹으로 나눈다고 ..
[STUDY/ML(Machine Learning)] - [ML] TF-IDF(Term Frequency-Inverse Document Frequency) [ML] TF-IDF(Term Frequency-Inverse Document Frequency)1. TF-IDF?정의단어의 빈도(TF)와 역문서빈도(IDF)를 곱해서, 문서 내 각 단어의 "중요도"를 가중치로 매기는 방법단순히 "몇 번 나왔는가"만 세는 빈도수 카운트(Bag of Words)의 한계를 보완쓰임문서 간blog.chaenii.meTF-IDF든 임베딩이든, 텍스트를 벡터로 바꿨다면 그다음 필요한 건"이 두 벡터가 얼마나 비슷한가"를 숫자 하나로 표현하는 방법이다.가장 많이 쓰는 두 가지가 코사인 유사도와 유클리드 거리인데, 이 둘은 측정하는..
1. TF-IDF?정의단어의 빈도(TF)와 역문서빈도(IDF)를 곱해서, 문서 내 각 단어의 "중요도"를 가중치로 매기는 방법단순히 "몇 번 나왔는가"만 세는 빈도수 카운트(Bag of Words)의 한계를 보완쓰임문서 간 유사도 계산검색 결과 랭킹(중요한 단어가 많이 매칭될수록 상위 노출)특정 문서 안에서 핵심 키워드 추출2. 왜 필요한가? - 단순 빈도수의 한계컴퓨터는 "배송 문의 요청"이라는 문자열을 그 자체로 이해하지 못함 → 비교·계산을 하려면 숫자(벡터)로 바꿔야 함.가장 단순한 방법: 단어가 몇 번 나왔는지 세는 것(Bag of Words)문제: "문의", "요청" 같이 거의 모든 문서에 등장하는 흔한 단어가 카운트를 지배진짜 그 문서를 구별짓는 단어("환불", "파손", "교환")는 빈도수..