아무것도 모르는 공대생의 지식 탐험기
[혼공머신]_5주차 비지도 학습 본문

[기본 미션 ]
k-평균 알고리즘 작동 방식 설명하기
1) 무작위로 k개의 클러스터 중심을 설정한다
2) 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다
3)클러스터에 속한 샘플의 평균 등의 연산을 통해 중심을 재정의한다
4) 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가서 반복한다.
[선택 미션]
Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기
Q1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇개일까요?
① 10개, ② 20개, ③ 50개, ④ 100개
A1. ② 20개, 일반적으로 데이터 셋에서 주성분은 특성의 개수만큼 찾을 수 있기 때문이다.
Q2. 샘플 개수가 1000개이고 특성 개수가 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100)입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?
① (1000, 10), ② (10, 1000), ③ (10, 10), ④ (1000, 1000)
A2. ①(1000, 100) 크기 데이터셋에서 10개의 주성분을 찾아 변환하면 샘플의 수는 그대로 나타나기 때문에, 특성의 수는 주성분의 개수와 동일한 10이 된다. 따라서 변환된 데이터셋의 크기는 (1000, 10)이 된다.
Q3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?
① 첫 번째 주성분, ② 다섯 번째 주성분, ③ 열 번째 주성분, ④ 알 수 없음
A3. ① 첫 번째 주성분, 설명된 분산은 주성분이 원본 데이터의 분산을 얼마나 잘 나타내는지 기록한 값이기 때문에, 첫 번째 주성분의 설명된 분산이 가장 크다
'IT' 카테고리의 다른 글
[혼공머신]_6주차 딥러닝 (0) | 2024.08.18 |
---|