1. 지도학습
지도학습은 정답이 있는 데이터를 활용해 데이터를 학습시키는 것입니다. 입력 값 (X data)이 주어지면 입력 값에 대한 Label (Y data)를 주어 학습시키며 대표적으로 분류, 회귀가 있습니다.
분류는 입력 데이터를 미리 정의된 여러 클래스 중 하나로 할당하는 문제입니다.
예를 들어, 스팸 메일 분류 문제는 이메일을 스팸 또는 스팸이 아닌 것으로 분류하는 것입니다.
회귀는 입력 데이터와 출력 데이터 간의 관계를 모델링하는 문제입니다.
예를 들어 집의 크기와 가격 사이의 관계를 모델링하는 것입니다.
2. 비지도학습
비지도학습은 정답이 없는 데이터를 학습시키는 것입니다. 입력 데이터만 주어지며, 이를 이용해 데이터의 구조나 패턴을 찾아내는 것입니다. 대표적인 예로는 군집화와 차원 축소가 있습니다.
군집화는 비슷한 특성을 가진 데이터들을 그룹으로 묶는 것입니다.
예를 들어 고객 데이터를 군집화하면 고객들을 그룹으로 묶어서 각 그룹의 특성을 파악할 수 있습니다.
차원 축소는 데이터의 차원을 줄이는 것입니다. 이를 통해 데이터를 더 쉽게 분석하거나 시각화할 수 있습니다.
대표적인 예로는 PCA (주성분 분석)가 있습니다.
3. 개념 공부
- 주성분 분석
주성분 분석은 가장 널리 사용되는 차원 축소 기법 중 하나입니다. 주성분 분석은 데이터의 분산 구조를 잘 설명하는 축을 구하는 과정을 말합니다. 필요에 따라서 축의 일부만을 예측 모형 학습에 사용함으로써 차원 축소 효과를 얻을 수 있습니다.
- 클래스
클래스는 지도학습에서 정답이 있는 데이터를 활용해 데이터를 학습시킬 때 사용하는 개념입니다.
클래스는 데이터를 분류하는 기준이 되는 레이블(Label)입니다.
예를 들어 고양이와 개의 이미지를 학습시키기 위해서는 고양이와 개의 레이블을 붙여야합니다.
이렇게 분류된 레이블은 모델이 새로운 데이터를 예측할 때 사용합니다.
- 클래스와 레이블의 차이
클래스(Class)는 데이터를 분류하는 기준이 되는 개념입니다. 반면에 레이블(Label)은 클래스를 지도학습에서 정답이 있는 데이터를 활용해 데이터를 학습시킬 때 사용하는 개념입니다.
- 회귀
회귀는 연속적인 값을 예측하는 문제입니다.
예를 들어 집의 크기와 가격 사이의 관계를 모델링할 때 회귀를 사용할 수 있습니다.
- 모델링
모델링은 현실 세계의 복잡한 문제를 단순화하고 추상화하여 수학적 모델로 표현하는 것입니다.
이러한 모델은 데이터를 분석하고 예측하는 데 사용됩니다.
예를 들어 회귀 모델은 입력 데이터와 출력 데이터 사이의 관계를 모델링합니다.
분류 모델은 입력 데이터를 클래스로 분류합니다.
- 모델링 알고리즘
모델링을 위해 사용되는 알고리즘은 다양합니다.
회귀 분석, 의사 결정 나무, 랜덤 포레스트, 신경망 등이 있습니다.
이러한 알고리즘은 입력 데이터와 출력 데이터 사이의 관계를 모델링하거나 입력 데이터를 분류하는 데 사용됩니다.
'Python > Study' 카테고리의 다른 글
[Python / Study] 정규성 검정에 대해 알아보기 (0) | 2023.04.20 |
---|---|
[Python / Study] 단순확률추출 (simple random sampling) (0) | 2023.04.20 |
[Python / Study] 층화 표본 추출에 대한 공부 (0) | 2023.04.20 |
[Python / Study] 데이터 전처리 연습하기 (0) | 2023.04.19 |
[Python / Study] plotly 사용하여 시각화 연습 (3) (0) | 2023.04.17 |