2026년 3월 16일 synapse 기초 세션 복습 과제입니다
비지도학습(unsupervised learning)
학습 데이터에 정답이 없는 상태에서 데이터의 패턴이나 구조를 찾는 머신러닝 방법

클러스터링
데이터 간의 유사성을 기반으로 서로 비슷한 데이터들을 하나의 그룹(cluster)으로 묶는 방법

K-Means
데이터를 k개의 군집으로 나누는 대표적인 클러스터링 알고리즘

(출처: The K-Means clustering process: Three centroids are randomly chosen... | Download Scientific Diagram)
과정
1. k값(군집 개수) 설정
2. 초기 중심점(centroid) 선택
3. 각 데이터 포인트를 가장 가까운 centroid에 할당
4. 각 군집의 평균을 계산하여 centroid 재설정
5. centroid가 더 이상 크게 이동하지 않을 때까지 반복
distance
→ 중심점(centriod)와 거리를 계산
일반적으로 유클리드 거리(두 점 사이의 직선 거리)를 사용

단점
-k값을 미리 정해야 함
-초기 중심점에 따라 결과가 달라질 수 있음
-이상치에 민감
-복잡한 형태의 데이터 분리 어려움
DBSCAN
데이터 밀도를 기반으로 군집을 형성하는 클러스터링 알고리즘

과정
1. 임의의 데이터 포인트 선택
2. ε(epsilon) 거리 내의 데이터 개수 확인
3. MinPts 이상이면 cluster 생성
4. 연결된 데이터들을 같은 cluster로 확장
5. 어떤 cluster에도 속하지 않는 데이터는 이상치 처리
핵심 파라미터
-ε (epsilon)
데이터 포인트의 이웃으로 간주할 최대 거리
-MinPts
군집을 형성하기 위해 필요한 최소 데이터 개수
장점
-복잡한 형태의 군집도 잘 탐지
-outlier 데이터 처리 가능
단점
- ε 값 설정이 어려움
- 데이터 밀도가 서로 다른 경우 성능 저하
-고차원 데이터에서 성능 감소
클러스터링 성능 평가
Elbow Method
K-Means에서 적절한 k값을 찾기 위한 방법
→ 그래프에서 급격히 꺾이는 지점을 선택

(출처: The elbow method - Statistics for Machine Learning [Book])
K-means에서 k값(군집 개수)이 증가하면
SSE(sum of squared errors)는 항상 감소
(왜?) → 군집이 많아질수록 데이터가 더 잘게 나뉘기 때문
*SSE: 데이터와 군집 중심 사이의 거리 오차를 제곱해서 모두 더한 값으로
데이터들이 군집 중심에서 얼마나 떨어져 있는지 나타내는 값
근데 이 SSE의 감소 효과가 거의 없어지는 지점 생김
→ elbow 지점
Silhouette Score
군집이 얼마나 잘 분리되었는지 평가하는 지표
각 데이터 포인트에 대해
-같은 군집 내 데이터와의 거리
-가장 가까운 다른 군집과의 거리
를 비교하여 계산
→ 값의 범위: -1(잘못된 군집) ~ 1(군집 분리가 잘 됨)

(출처: Intra-cluster distances vs inter-cluster distances | Download Scientific Diagram)
차원 축소
고차원 데이터를 더 낮은 차원으로 변환하는 방법
→ 계산 속도 향상, 데이터 시각화, 노이즈 감소 등을 위함
대표 알고리즘
PCA
데이티 분산이 가장 큰 방향을 기준으로 차원 축소
*분산이 가장 크다: (어떤 방향으로) 데이터가 가장 넓게 퍼져 있다

(출처: Issue #91 - Principal Component Analysis (PCA))
t-SNE
고차원 데이터를 2D/3D 시각화할 때 많이 사용
(데이터 사이의 유사한 구조(이웃 관계)를 유지하면서 데이터를 낮은 차원 공간에 배치)
파라미터
모델이 학습 과정에서 데이터로부터 자동으로 학습하는 값
→ 모델이 학습하면서 최적의 값을 찾아가는 변수
하이퍼 파라미터
모델 학습 전에 사용자가 직접 설정해야하는 값
(모델의 학습 방식이나 구조를 결정)
k-meas
→ 군집의 개수(k)
DBSCAN
→ ε (epsilon) / MinPts
t-SNE
→ perplexity(이웃 데이터의 개수 관련 파라미터)
과적합
모델이 학습 데이터의 특징뿐만 아니라 노이즈나 불필요한 패턴까지 과도하게 학습한 상태를 의미
→ 학습 데이터에서는 높은 성능을 보임
but test data에서는 성능이 떨어지는 문제 발생
해결 방법
-데이터 양 증가
-모델 복잡도 감소
-차원 축소
-정규화
헷갈리거나 어려웠던 내용, 다시 봐야 할 내용
클러스터링 성능 평가와 차원 축소는 처음 첩하는 내용이라 이미지 참고해서 개념이랑 예시 다시 보는 게 좋을 것 같다
'synapse' 카테고리의 다른 글
| [선형대수학] 부분공간의 기저와 차원 (0) | 2026.03.19 |
|---|---|
| [선형대수학] 선형독립과 선형종속 (0) | 2026.03.19 |
| [기초 세션 복습] 지도 학습 (2): 분류(Classification) (0) | 2026.03.19 |
| [기초 세션 복습] 지도 학습 (1) : 회귀(Regression) (0) | 2026.03.19 |
| [선형대수학] 선형결합 (0) | 2026.03.15 |