Contents

지도 학습의 이해: 이론 및 개요

/images/understanding-supervised-learning-theory-and-overview.png

작성자 이미지

지도 학습은 입력과 해당 출력으로 구성된 기존의 레이블이 지정된 데이터 세트에서 알고리즘이 학습하는 머신 러닝 기법의 하위 집합입니다. 목표는 입력 데이터(X)와 원하는 출력(Y) 간의 관계를 결정하여 효과적으로 매핑 함수를 설정하는 것입니다. 개념적으로 이 과정은 이미지(X)를 각각의 이름(Y)과 함께 제시하여 다양한 동물을 인식하는 방법을 가르치는 것에 비유할 수 있습니다. 반복적인 노출을 통해 개인은 차이점을 파악하고 새로운 사례를 정확하게 식별하는 데 능숙해질 것입니다. 이러한 기본적인 이해는 지도 학습의 핵심 원칙을 뒷받침합니다. 더 나아가려면 그 메커니즘을 더 깊이 파고들어야 합니다.

지도 학습은 어떻게 작동하나요?

/images/understanding-supervised-learning-theory-and-overview-1.png

작성자 이미지

사과와 오렌지를 구별할 수 있는 모델을 구축하는 작업에는 여러 단계가 포함되며, 다음과 같이 간략하게 설명할 수 있습니다:

머신러닝 모델을 훈련하는 과정에는 데이터 수집, 적절한 분류기 선택, 레이블이 지정된 예제를 사용하여 모델 훈련, 보이지 않는 데이터에 대한 성능 평가 등 여러 단계가 포함됩니다. 예를 들어 사과와 오렌지를 구분하려면 두 과일의 이미지가 포함된 데이터 세트를 수집하고, 그에 따라 라벨을 지정하고, 적절한 분류 알고리즘을 선택하고, 라벨이 지정된 이미지를 제공하여 모델을 학습시킨 다음, 보이지 않는 새로운 데이터에 대해 정확도를 테스트해야 합니다.

지도 학습은 일반적으로 다음과 같은 두 가지 주요 분류로 분류됩니다:

분류

분류 문제에서 목표는 데이터 포인트를 미리 정의된 범주 그룹으로 분류하는 것입니다. “예” 또는 “아니오”, “스팸” 또는 “스팸 아님"과 같이 가능한 결과가 두 가지뿐인 경우 이를 이진 분류라고 합니다. 반면에 여러 범주 또는 클래스가 있는 경우(예: A부터 F까지의 성적을 기준으로 학생에게 등급을 매기는 경우), 이는 다중 클래스 분류 과제에 해당합니다.

회귀

회귀 분석에서는 연속형 숫자 변수를 추정하는 것이 목적입니다. 예를 들어, 이전 성취도를 기반으로 코스에서 학업 성취도를 예측하는 것을 목표로 할 수 있습니다. 예상되는 값은 특정 범위 내에서 생각할 수 있는 모든 숫자를 포함하며, 이 시나리오의 경우 0에서 100 사이의 범위인 경우가 많습니다.

이제 일반적인 절차에 대한 기본적인 이해가 생겼습니다.이 섹션에서는 몇 가지 주요 지도 머신 러닝 기법을 살펴보고 그 응용, 기능 및 작동 메커니즘을 자세히 설명합니다.

1. 선형 회귀

회귀 기법은 주가 예측이나 질병 진행 확률 추정과 같은 예측 모델링 시나리오에 활용됩니다. 이러한 모델은 종속 변수를 예측하기 위해 일련의 독립 변수에 의존합니다. 이러한 모델은 입력 특징과 목표 값 사이에 선형 관계가 존재한다고 가정합니다. 이러한 방법은 실제 값과 예측 값 사이의 불일치를 최소화함으로써 사용 가능한 데이터 포인트를 통해 최적의 적합선을 설정하는 것을 목표로 합니다. 이 방정식은 이 개념을 나타냅니다:

여기서,

다중 선형 회귀 모델에서 예측된 출력은 X로 표시된 입력 특징 또는 특징 행렬의 영향을 받는 Y로 표시됩니다. 선이 Y축과 교차하는 지점의 선의 절편은 b0이라고 하며 X의 특징의 영향을 받지 않는 기준값을 나타냅니다. 또한, X의 각 단위 변화에 대해 Y가 변화하는 속도를 정량화하는 b1이라고 하는 기울기 또는 계수 항이 있으며, 이 계수는 선의 궤적의 가파른 정도를 결정합니다.

선형 회귀 모델은 주어진 데이터 포인트 집합의 기울기 또는 기울기를 계산할 뿐만 아니라 선이 Y축과 교차하는 지점(바이어스라고 함)을 계산합니다. 이 정보를 활용하면 데이터에서 관찰된 추세를 기반으로 미래를 예측할 수 있습니다. 선형 회귀 접근 방식은 벤치마크를 설정하는 데 효과적인 출발점 역할을 하지만, 데이터 집합 내에 존재하는 외부 데이터 포인트의 영향을 받기 쉬우므로 선의 추정 위치가 크게 변경될 수 있습니다.

/images/understanding-supervised-learning-theory-and-overview.gif

Gif on Primo.ai

2. 로지스틱 회귀

회귀는 이름에서 알 수 있듯이 이진 분류 문제를 해결하는 데 주로 활용됩니다. 문제의 종속 변수는 0에서 1 사이의 값을 가지며, 미리 정해진 임계값(일반적으로 0.5로 설정)을 설정하여 데이터 포인트를 그에 따라 분류할 수 있습니다. 임계값을 초과하는 확률이 높은 데이터 포인트는 양수 분류에 속하는 것으로 간주하고, 나머지는 음수 분류에 속하는 것으로 간주합니다.로지스틱 회귀는 다음 공식에 설명된 대로 입력 변수의 선형 조합에 시그모이드 함수를 적용하여 앞서 언급한 확률을 계산합니다:

여기서,

데이터 포인트가 양수 클래스에 할당될 확률은 P(Y=1)로 표시되며, 이는 입력 특징 X1, …, Xn 및 학습된 입력 가중치 b0, …, bn에 해당합니다. 이 파라미터는 학습 과정에서 머신러닝 알고리즘의 입력으로 사용됩니다.

이 시그모이드 함수는 모든 데이터 포인트를 0-1 범위 내의 확률 점수로 변환하는 S와 같은 곡선 형태입니다. 아래 그래프를 참조하면 더 쉽게 이해할 수 있습니다.

/images/understanding-supervised-learning-theory-and-overview-2.png

Wikipedia 이미지

신뢰 수준이 일치에 가까울수록 모델의 예측 능력에 대한 확신이 높다는 것을 의미합니다. 선형 회귀는 그 간결함으로 인해 인정받고 있지만, 다중 클래스 분류 작업에 알고리즘을 적용하려면 수정이 필요합니다.

3. 의사 결정 트리

의사 결정 트리는 분류 및 회귀 작업을 모두 수행할 수 있는 다목적 머신 러닝 모델입니다. 의사 결정 트리의 구조적 구성은 순서도와 유사하며, 각 노드에서 특정 속성 값을 검토하여 다음 단계에 대한 결정이 도출됩니다. 이러한 반복 절차는 최종 평결을 의미하는 최종 노드에 도달하여 궁극적인 결론에 도달할 때까지 계속됩니다. 의사 결정 트리의 기능을 효과적으로 이해하려면 의사 결정 트리와 관련된 기본 전문 용어를 이해하는 것이 중요합니다.

루트 노드라고 하는 데이터 세트에서 가장 높은 수준의 계층적 구분은 추가 분석을 위한 진입점 역할을 합니다. 다양한 알고리즘의 구현을 통해 이 초기 그룹화는 이후 내부 노드라고 하는 여러 하위 분기로 분할됩니다. 이러한 노드는 고유한 특성을 가지고 있으며 데이터 세트 내의 개별 인스턴스에 대해 미리 결정된 경로를 규정합니다. 궁극적으로 이러한 경로의 종점은 범주형 레이블에 해당하는 리프 노드로 지정됩니다.

회귀 작업에 대한 연속적인 수치 값을 예측합니다. 데이터 세트의 크기가 커짐에 따라 과적합을 유발하는 노이즈를 포착합니다. 이 문제는 의사 결정 트리를 가지치기하여 처리할 수 있습니다. 의사 결정의 정확도를 크게 향상시키지 않는 가지를 제거합니다. 이렇게 하면 의사 결정 트리가 가장 중요한 요소에 집중하고 세부 사항에서 길을 잃는 것을 방지할 수 있습니다.

/images/understanding-supervised-learning-theory-and-overview-3.png

이미지 작성자 Jake Hoare on Displayr

4.랜덤 포레스트

앙상블 학습 방법인 랜덤 포레스트는 최종 예측을 생성하기 위해 협업하는 여러 의사 결정 트리를 활용하여 분류 및 회귀 문제를 모두 효과적으로 처리할 수 있습니다. 이 접근 방식은 전문가 패널이 모여 문제에 대한 합의된 결정을 내리는 것에 비유할 수 있습니다. 랜덤 포레스트의 작동은 각 노드에서 입력 특징을 무작위로 선택하고 분산 감소를 극대화하여 다수의 의사 결정 트리를 구성한 다음 투표 또는 평균화 기법을 사용하여 개별 트리의 예측을 집계하는 과정을 거칩니다.

부트스트래핑이나 배깅과 같은 랜덤 샘플링 기법을 활용하여 전체 데이터셋을 한 번에 처리하지 않고 무작위로 데이터 하위 집합을 선택합니다. 이 접근 방식은 대표적인 샘플 크기를 유지하면서 계산 수요를 줄여 보다 효율적인 분석을 가능하게 합니다. 또한, 랜덤 포레스트 모델을 구축하는 동안 특징 선택은 사용 가능한 정보의 전체 보완을 사용하는 대신 무작위 특징 하위 집합을 선택함으로써 이루어집니다. 마지막으로, 랜덤 포레스트 내의 여러 의사 결정 트리의 출력은 분류 작업의 경우 투표를 통해 또는 회귀 문제의 경우 평균을 통해 결합됩니다.

머신 러닝 알고리즘으로 랜덤 포리스트를 사용하면 개별 의사 결정 트리와 관련된 과적합 문제를 완화하는 것으로 밝혀졌지만, 이 접근 방식은 계산 비용이 증가합니다. “앙상블 학습"이라는 용어는 여러 모델을 결합하여 예측 정확도를 향상시킬 수 있다는 의미로 랜덤 포레스트를 언급할 때 문헌에서 일반적으로 사용됩니다.

5. 서포트 벡터 머신(SVM)

서포트 벡터 머신(SVM)은 분류 및 회귀 작업에 모두 적용할 수 있는 다용도 알고리즘입니다. 확률적 접근 방식을 사용하는 로지스틱 회귀와 달리 SVM은 통계적 방법론을 사용하여 다양한 클래스를 효과적으로 분리하는 최적의 하이퍼플레인을 식별합니다. 데이터를 선형적으로 분리할 수 있는 경우 표준 선형 SVM을 사용할 수 있습니다. 그러나 실제로는 대부분의 데이터 세트가 비선형적이기 때문에 클래스 분리를 달성하기 위해 커널 방법을 활용해야 합니다. 이러한 기법을 성공적으로 사용하려면 이러한 기법에 대한 포괄적인 이해가 필수적입니다.

서포트 벡터 머신(SVM)을 사용하는 이진 분류 문제에서는 두 클래스를 최대 마진으로 분리하는 최적의 하이퍼플레인을 찾습니다. 마진은 하이퍼플레인과 각 클래스에서 가장 가까운 훈련 샘플 사이의 최소 거리를 나타냅니다.SVM은 비선형적으로 분리 가능한 인스턴스를 처리하기 위해 커널 함수로 알려진 특정 수학적 연산을 통해 입력 특징을 고차원 특징 공간으로 변환하는 ‘커널 트릭’이라는 기법을 사용합니다. 일반적으로 사용되는 커널 함수는 선형, 다항식, 방사형 기저 함수(RBF), 시그모이드입니다. SVM은 마진을 최대화함으로써 학습된 모델의 일반화 가능성을 높이는 것을 목표로 합니다. 마지막으로, 이 결정 경계에 대한 테스트 인스턴스의 위치를 기반으로 예측을 생성합니다.

SVM(서포트 벡터 머신)은 결정 경계 마진을 확장하는 것과 오분류 오류를 최소화하는 것 사이의 균형을 조절하는 정규화 파라미터 ‘C’라는 특성을 가지고 있습니다. 커널을 활용하여 복잡한 다차원 데이터 세트를 처리하는 데 능숙하지만, 커널과 관련 하이퍼파라미터의 최적 선택을 결정하는 것은 여전히 복잡한 작업으로 남아 있습니다.

/images/understanding-supervised-learning-theory-and-overview-4.png

이미지에 자바포인트

6. k-Nearest Neighbors (k-NN)

K-NN(K-Nearest Neighbor)은 데이터와 관련된 전제를 부과하지 않고 분류 작업에 주로 활용되는 복잡하지 않은 지도 머신 러닝 방법론입니다. 분류 측면에서 K-NN은 이미 레이블이 지정된 샘플의 특징과 비교하여 새로운 관찰에 대한 적절한 분류를 결정합니다. 훈련 단계에서는 전체 데이터 세트를 참조로 유지하면서 유클리드 거리와 같은 선택한 거리 측정값을 사용하여 테스트 인스턴스와 데이터 세트 내의 모든 예제 간의 쌍방향 거리를 계산합니다. 그 후, 가장 가까운 인스턴스 K 개를 가장 짧은 거리부터 가장 먼 거리까지 정렬하여 식별합니다. 마지막으로 상위 K 인스턴스 중 다양한 클래스의 발생 빈도를 집계하여 발생 빈도가 가장 높은 클래스를

/images/understanding-supervised-learning-theory-and-overview-5.png

GeeksforGeeks

K에 적합한 값을 선택하려면 경험적 조사가 필요합니다. 데이터의 노이즈에 대한 복원력을 보여주지만, 모든 기준점 사이의 거리를 계산하는 데 발생하는 계산 비용을 고려할 때 고차원 데이터 세트에는 완전히 적용되지 않을 수 있습니다.