Coursera의 근본과 같은 코세라 오리지널 머신러닝 강의를 듣기로 했다. [Link]
하루에 8시간씩 공부하면 2주 안에 끝날텐데, 아마..불가능하겠지...?^^
3주안에 완강을 목표로 달려본다.
#1. Supervised vs Unsupervised Learning
[What is ML]
정의
machine learning as the field of study that gives computers the ability to learn without being explicitly programmed.(Arthur Samuel)
※예시 : 체스 프로그램을 컴퓨터가 tens of thousands 학습할 수 있게 하며 좋은 체스 플레이어가 되게 함
종류
Supersivsed learning
- 현실에서 가장 많이 사용되며, rapid advance가 있음
Unsupervised learning
Recommender systems
Reinforcement learning
[Supersivsed learning]
정의
x가 y를 예측할 수 있도록 x에 맞는 정답 y들을 주고 알고리즘을 학습시키는 것
※예시 : 스팸메일 필터링(x:이메일, y:스팸여부) , 광고(x:ad, user info, y:클릭여부)
Regression : 숫자를 예측
집 사이즈에 따른 집 값을 예측하고 싶을 시, 실제 데이터로 선형분포대의 그래프를 그릴 수 있음
해당 데이터 기반으로 예측 선을 그리고, 특정 사이즈에 따른 값을 예측할 수 있음
하지만 직선의 선이 해당 데이터를 잘 설명하지 않을 수도 있음 -> 직선, curve, 혹은 어떤 그래프를 선택할 지 추후 학습하게 됨
Classification : 카테고리를 예측
암의 여부를 종양의 크기로 detect (malignant : 1 , benign : 0)할 때, x에 따라 분류모델을 만들 수 있음 (카테고리는 2개 이상 가능)
x데이터가 2개 이상일 경우 아래와 같은 그래프로도 표현 가능 -> 이경우 알고리즘이 결국 바운더리를 fit하게 만드느냐가 중요하게 됨
[Unsupervised learning]
지도학습과 다르게 y와 매핑되지 않은 데이터들을 알고리즘에 넣고 학습시키는 것. 패턴이나 구조를 찾는 것이 비지도 학습의 목표.
Clustering
X데이터 만으로 군집화시키는 것
(예시1 : 뉴스에서 내가 기존에 본 뉴스들과 유사한 뉴스들을 상위 노출 시키는 것)
(예시2: DNA microarray 특정 유전자가 어떻게 발현되는지 개개인의 데이터를 바탕으로 수집한 후, 유사한 그룹끼리 그루핑)
Anomaly Dection
unusual한 데이터 포인트를 찾는 것 (사기잡기 등등). 나중에 자세히 배움
Dimensionality reduction
큰 데이터셋을 압축해서 작게 만드는것. 나중에 자세히 배움