K-Nearest Neighbors Simulator (2D)

Weighted (1/d)

Resolution:

캔버스 클릭: 현재 선택된 클래스(A/B)로 데이터 추가. Test Mode 켜면 클릭으로 테스트 점 추가 및 예측(최근접 이웃 표시).

Points: 0 A · 0 B

Last test P(B): -

Nearest neighbors (last test):

K-NN은 학습 단계에서 실제로 모델 파라미터를 학습하지 않는 비모수(또는 기억 기반) 분류 알고리즘입니다. 새로운 샘플이 들어오면 훈련 데이터와의 거리를 계산해서 가장 가까운 K개의 이웃을 찾고, 그 이웃들의 다수결(또는 가중 다수결)로 라벨을 결정합니다.

단순 다수결 대신 weight = 1 / d 처럼 거리에 역비례하는 가중치를 주면 가까운 이웃의 영향력이 커집니다. 단, d가 0(정확히 겹치는 점)일 경우 특수 처리를 해줘야 합니다(예: 그 점의 라벨을 바로 반환).

K-NN은 거리 기반이므로 표준화(평균0, 표준편차1) 또는 정규화(0~1) 같은 스케일링을 꼭 적용해야 합니다. 한 특성의 스케일이 크면 거리 계산에서 그 특성이 지배적으로 작용합니다.

순차적 브루트포스 계산: 훈련셋이 크면 예측 비용이 O(N·d) (N=샘플 수, d=차원)으로 비쌉니다.
가속 기법: KD-Tree, Ball-Tree, locality-sensitive hashing(LSH) 등으로 탐색을 빠르게 할 수 있습니다(특히 저차원에서 유용).

히트맵 해상도(resolution)를 높이면 경계가 더 정교하게 보이지만 계산 비용이 증가합니다. 실습에서는 해상도와 K를 함께 조절해 보세요:

데이터 분포 변경: XOR / Concentric / Overlap 같은 데모를 사용해 K-NN이 어떤 유형의 문제에 강한지/약한지 확인하세요.
스케일링 실험: 한 축의 스케일을 크게 바꿔보고 결과가 어떻게 달라지는지 관찰하세요.
Weighted 토글: weighted 체크를 켜고 끄며 가까운 이웃의 영향 변화를 확인하세요.
Tie(동점) 처리: K가 짝수일 때 동점이 생길 수 있습니다 — 데모에서는 라벨 빈도가 같으면 거리 합(가중치 합)이 큰 쪽을 사용합니다.