기계 학습의 회귀 대 분류 설명
게시 됨: 2022-12-19회귀와 분류는 기계 학습의 가장 기본적이고 중요한 두 가지 영역입니다.
기계 학습에 막 입문할 때 회귀 알고리즘과 분류 알고리즘을 구별하는 것은 까다로울 수 있습니다. 이러한 알고리즘의 작동 방식과 사용 시기를 이해하는 것은 정확한 예측과 효과적인 결정을 내리는 데 중요할 수 있습니다.
먼저 머신러닝에 대해 알아보겠습니다.
기계 학습이란 무엇입니까?
기계 학습은 명시적으로 프로그래밍하지 않고 컴퓨터가 학습하고 결정을 내리도록 가르치는 방법입니다. 여기에는 데이터 세트에서 컴퓨터 모델을 교육하여 모델이 데이터의 패턴 및 관계를 기반으로 예측 또는 결정을 내릴 수 있도록 합니다.
기계 학습에는 지도 학습, 비지도 학습 및 강화 학습의 세 가지 주요 유형이 있습니다.
감독 학습 에서 모델에는 입력 데이터 및 해당 올바른 출력을 포함하여 레이블이 지정된 교육 데이터가 제공됩니다. 목표는 모델이 교육 데이터에서 학습한 패턴을 기반으로 새로운 보이지 않는 데이터의 출력에 대해 예측하는 것입니다.
비지도 학습 에서는 모델에 레이블이 지정된 학습 데이터가 제공되지 않습니다. 대신 데이터에서 패턴과 관계를 독립적으로 발견하도록 남겨둡니다. 이는 데이터에서 그룹 또는 클러스터를 식별하거나 이상 또는 비정상적인 패턴을 찾는 데 사용할 수 있습니다.
강화 학습 에서 에이전트는 보상을 극대화하기 위해 환경과 상호 작용하는 방법을 배웁니다. 여기에는 환경에서 받은 피드백을 기반으로 결정을 내리도록 모델을 교육하는 것이 포함됩니다.
기계 학습은 이미지 및 음성 인식, 자연어 처리, 사기 감지, 자율주행차 등 다양한 애플리케이션에 사용됩니다. 다양한 산업에서 많은 작업을 자동화하고 의사 결정을 개선할 수 있는 잠재력이 있습니다.
이 기사는 주로 감독 기계 학습에 속하는 분류 및 회귀 개념에 중점을 둡니다. 시작하자!
기계 학습의 분류
분류는 주어진 입력에 클래스 레이블을 할당하도록 모델을 교육하는 기계 학습 기술입니다. 이는 지도 학습 작업으로, 입력 데이터 및 해당 클래스 레이블의 예를 포함하는 레이블이 지정된 데이터 세트에서 모델이 훈련됨을 의미합니다.
이 모델은 입력 데이터와 클래스 레이블 간의 관계를 학습하여 보이지 않는 새로운 입력에 대한 클래스 레이블을 예측하는 것을 목표로 합니다.
로지스틱 회귀, 결정 트리 및 지원 벡터 머신을 포함하여 분류에 사용할 수 있는 다양한 알고리즘이 있습니다. 알고리즘의 선택은 데이터의 특성과 모델의 원하는 성능에 따라 달라집니다.
일부 일반적인 분류 애플리케이션에는 스팸 감지, 감정 분석 및 사기 감지가 포함됩니다. 이러한 각 경우에 입력 데이터에는 텍스트, 숫자 값 또는 이 둘의 조합이 포함될 수 있습니다. 클래스 레이블은 이진(예: 스팸 또는 스팸 아님) 또는 다중 클래스(예: 긍정적, 중립, 부정적인 감정)일 수 있습니다.
예를 들어 제품에 대한 고객 리뷰 데이터 세트를 생각해 보십시오. 입력 데이터는 리뷰의 텍스트일 수 있으며 클래스 레이블은 등급(예: 긍정적, 중립, 부정적)일 수 있습니다. 이 모델은 레이블이 지정된 리뷰의 데이터 세트에서 교육을 받은 다음 이전에 본 적이 없는 새 리뷰의 등급을 예측할 수 있습니다.
ML 분류 알고리즘 유형
기계 학습에는 여러 유형의 분류 알고리즘이 있습니다.
로지스틱 회귀
이진 분류에 사용되는 선형 모델입니다. 특정 이벤트가 발생할 확률을 예측하는 데 사용됩니다. 로지스틱 회귀의 목표는 예측된 확률과 관찰된 결과 사이의 오류를 최소화하는 최상의 계수(가중치)를 찾는 것입니다.
이는 경사 하강법과 같은 최적화 알고리즘을 사용하여 모델이 훈련 데이터에 최대한 잘 맞을 때까지 계수를 조정함으로써 수행됩니다.
의사 결정 트리
이들은 특성 값을 기반으로 결정을 내리는 트리형 모델입니다. 이진 및 다중 클래스 분류 모두에 사용할 수 있습니다. 의사결정 트리에는 단순성과 상호 운용성을 포함하여 여러 가지 장점이 있습니다.
또한 빠르게 훈련하고 예측할 수 있으며 수치 데이터와 범주 데이터를 모두 처리할 수 있습니다. 그러나 특히 트리가 깊고 가지가 많은 경우 과적합되기 쉽습니다.
랜덤 포레스트 분류
Random Forest Classification은 여러 의사 결정 트리의 예측을 결합하여 보다 정확하고 안정적인 예측을 만드는 앙상블 방법입니다. 개별 트리의 예측이 평균화되어 모델의 분산이 줄어들기 때문에 단일 의사결정 트리보다 과적합될 가능성이 적습니다.
에이다부스트
훈련 세트에서 잘못 분류된 예의 가중치를 적응적으로 변경하는 부스팅 알고리즘입니다. 이진 분류에 자주 사용됩니다.
나이브 베이즈
Naive Bayes는 새로운 증거를 기반으로 사건의 확률을 업데이트하는 방법인 Bayes 정리를 기반으로 합니다. 텍스트 분류 및 스팸 필터링에 자주 사용되는 확률적 분류기입니다.
K-최근접 이웃
KNN(K-Nearest Neighbors)은 분류 및 회귀 작업에 사용됩니다. 가장 가까운 이웃의 클래스를 기반으로 데이터 포인트를 분류하는 비모수적 방법입니다. KNN은 단순성과 구현하기 쉽다는 사실을 포함하여 몇 가지 장점이 있습니다. 또한 숫자 데이터와 범주 데이터를 모두 처리할 수 있으며 기본 데이터 분포에 대한 가정을 하지 않습니다.
그라디언트 부스팅
이들은 순차적으로 훈련되는 약한 학습자의 앙상블이며, 각 모델은 이전 모델의 실수를 수정하려고 합니다. 분류와 회귀 모두에 사용할 수 있습니다.
기계 학습의 회귀
기계 학습에서 회귀는 하나 이상의 입력 기능(예측자 또는 독립 변수라고도 함)을 기반으로 ac 종속 변수를 예측하는 것이 목표인 지도 학습의 한 유형입니다.
회귀 알고리즘은 입력과 출력 간의 관계를 모델링하고 해당 관계를 기반으로 예측하는 데 사용됩니다. 회귀는 연속형 및 범주형 종속 변수 모두에 사용할 수 있습니다.
일반적으로 회귀의 목표는 입력 기능을 기반으로 출력을 정확하게 예측할 수 있는 모델을 구축하고 입력 기능과 출력 간의 기본 관계를 이해하는 것입니다.
회귀 분석은 경제, 금융, 마케팅, 심리학 등 다양한 분야에서 서로 다른 변수 간의 관계를 이해하고 예측하는 데 사용됩니다. 데이터 분석 및 기계 학습의 기본 도구이며 예측을 수행하고 추세를 식별하며 데이터를 구동하는 기본 메커니즘을 이해하는 데 사용됩니다.
예를 들어 간단한 선형 회귀 모델에서 목표는 크기, 위치 및 기타 기능을 기반으로 주택 가격을 예측하는 것일 수 있습니다. 집의 크기와 위치는 독립변수가 되고 집값은 종속변수가 됩니다.
모델은 해당 가격과 함께 여러 주택의 크기와 위치를 포함하는 입력 데이터에 대해 훈련됩니다. 모델이 훈련되면 크기와 위치에 따라 주택 가격을 예측하는 데 사용할 수 있습니다.
ML 회귀 알고리즘 유형
회귀 알고리즘은 다양한 형태로 존재하며 각 알고리즘의 활용은 속성값의 종류, 추세선의 패턴, 독립변수의 개수 등 매개변수의 개수에 따라 달라진다. 자주 사용되는 회귀 기법은 다음과 같습니다.
선형 회귀
이 간단한 선형 모델은 일련의 기능을 기반으로 연속 값을 예측하는 데 사용됩니다. 데이터에 선을 맞춰 기능과 대상 변수 간의 관계를 모델링하는 데 사용됩니다.
다항식 회귀
이는 곡선을 데이터에 맞추는 데 사용되는 비선형 모델입니다. 관계가 선형이 아닌 경우 기능과 대상 변수 간의 관계를 모델링하는 데 사용됩니다. 종속 변수와 독립 변수 간의 비선형 관계를 캡처하기 위해 선형 모델에 고차 항을 추가한다는 아이디어를 기반으로 합니다.
릿지 회귀
이것은 선형 회귀에서 과적합을 다루는 선형 모델입니다. 모델의 복잡성을 줄이기 위해 비용 함수에 페널티 항을 추가하는 정규화된 선형 회귀 버전입니다.
지원 벡터 회귀
SVM과 마찬가지로 지원 벡터 회귀는 종속 변수와 독립 변수 사이의 마진을 최대화하는 초평면을 찾아 데이터를 맞추려는 선형 모델입니다.
그러나 분류에 사용되는 SVM과 달리 SVR은 클래스 레이블이 아닌 연속 값을 예측하는 것이 목표인 회귀 작업에 사용됩니다.
올가미 회귀
이것은 선형 회귀에서 과적합을 방지하는 데 사용되는 또 다른 정규화된 선형 모델입니다. 계수의 절대값을 기준으로 비용 함수에 페널티 항을 추가합니다.
베이지안 선형 회귀
베이지안 선형 회귀는 새로운 증거를 기반으로 이벤트의 확률을 업데이트하는 방법인 베이즈 정리를 기반으로 하는 선형 회귀에 대한 확률론적 접근 방식입니다.
이 회귀 모델은 데이터가 주어진 모델 매개변수의 사후 분포를 추정하는 것을 목표로 합니다. 이는 모수에 대한 사전 분포를 정의한 다음 베이즈 정리를 사용하여 관찰된 데이터를 기반으로 분포를 업데이트함으로써 수행됩니다.
회귀 대 분류
회귀 및 분류는 지도 학습의 두 가지 유형입니다. 즉, 입력 기능 세트를 기반으로 출력을 예측하는 데 사용됩니다. 그러나 둘 사이에는 몇 가지 주요 차이점이 있습니다.
회귀 | 분류 | |
정의 | 지속적인 가치를 예측하는 일종의 감독 학습 | 범주 값을 예측하는 지도 학습의 한 유형 |
출력 유형 | 마디 없는 | 이산 |
평가 지표 | 평균 제곱 오차(MSE), 평균 제곱근 오차(RMSE) | 정확도, 정밀도, 리콜, F1 점수 |
알고리즘 | 선형 회귀, Lasso, Ridge, KNN, 결정 트리 | 로지스틱 회귀, SVM, 나이브 베이즈, KNN, 결정 트리 |
모델 복잡성 | 덜 복잡한 모델 | 더 복잡한 모델 |
가정 | 기능과 대상 간의 선형 관계 | 기능과 대상 간의 관계에 대한 특정 가정 없음 |
클래스 불균형 | 해당 없음 | 문제가 될 수 있습니다 |
특이치 | 모델 성능에 영향을 미칠 수 있음 | 일반적으로 문제가 아님 |
기능 중요도 | 기능은 중요도에 따라 순위가 매겨집니다. | 기능은 중요도에 따라 순위가 매겨지지 않습니다. |
애플리케이션 예 | 가격, 온도, 수량 예측 | 이메일 스팸 여부 예측, 고객 이탈 예측 |
학습 리소스
기계 학습 개념을 이해하기 위한 최고의 온라인 리소스를 선택하는 것은 어려울 수 있습니다. 회귀 및 분류에 대한 최고의 ML 과정에 대한 권장 사항을 제시하기 위해 신뢰할 수 있는 플랫폼에서 제공하는 인기 있는 과정을 조사했습니다.
#1. Python의 기계 학습 분류 부트캠프
Udemy 플랫폼에서 제공되는 과정입니다. 결정 트리 및 로지스틱 회귀를 포함하여 다양한 분류 알고리즘 및 기술을 다루고 벡터 머신을 지원합니다.
과적합, 편향-분산 절충, 모델 평가와 같은 주제에 대해서도 배울 수 있습니다. 이 과정은 sci-kit-learn 및 pandas와 같은 Python 라이브러리를 사용하여 기계 학습 모델을 구현하고 평가합니다. 따라서 이 과정을 시작하려면 기본 Python 지식이 필요합니다.
#2. Python의 기계 학습 회귀 마스터 클래스
이 Udemy 과정에서 트레이너는 선형 회귀, 다항식 회귀, Lasso & Ridge 회귀 기술을 포함한 다양한 회귀 알고리즘의 기본 및 기본 이론을 다룹니다.
이 과정을 마치면 회귀 알고리즘을 구현하고 다양한 핵심 성과 지표를 사용하여 훈련된 기계 학습 모델의 성능을 평가할 수 있습니다.
마무리
기계 학습 알고리즘은 많은 애플리케이션에서 매우 유용할 수 있으며 많은 프로세스를 자동화하고 간소화하는 데 도움이 될 수 있습니다. ML 알고리즘은 통계 기술을 사용하여 데이터의 패턴을 학습하고 이러한 패턴을 기반으로 예측 또는 결정을 내립니다.
그들은 많은 양의 데이터에 대해 교육을 받을 수 있으며 사람이 수동으로 수행하기 어렵거나 시간이 많이 걸리는 작업을 수행하는 데 사용할 수 있습니다.
각 ML 알고리즘에는 강점과 약점이 있으며 알고리즘 선택은 데이터의 특성과 작업 요구 사항에 따라 다릅니다. 해결하려는 특정 문제에 대해 적절한 알고리즘 또는 알고리즘 조합을 선택하는 것이 중요합니다.
잘못된 유형의 알고리즘을 사용하면 성능이 저하되고 예측이 부정확해질 수 있으므로 문제에 적합한 알고리즘 유형을 선택하는 것이 중요합니다. 어떤 알고리즘을 사용할지 잘 모르는 경우 회귀 알고리즘과 분류 알고리즘을 모두 시도하고 데이터 세트에서 성능을 비교하는 것이 도움이 될 수 있습니다.
이 기사가 기계 학습에서 회귀와 분류를 학습하는 데 도움이 되었기를 바랍니다. 상위 기계 학습 모델에 대해 알아보는 데 관심이 있을 수도 있습니다.