이상 탐지: 네트워크 침입 방지 가이드

게시 됨: 2023-01-09

데이터는 기업과 조직에서 없어서는 안 될 부분이며 적절하게 구조화되고 효율적으로 관리될 때만 가치가 있습니다.

통계에 따르면 오늘날 기업의 95%가 구조화되지 않은 데이터를 관리하고 구조화하는 데 문제가 있다고 합니다.

여기에서 데이터 마이닝이 시작됩니다. 이는 대규모 비정형 데이터 세트에서 의미 있는 패턴과 가치 있는 정보를 발견, 분석 및 추출하는 프로세스입니다.

회사는 소프트웨어를 사용하여 대규모 데이터 배치에서 패턴을 식별하여 고객 및 대상 고객에 대해 자세히 알아보고 비즈니스 및 마케팅 전략을 개발하여 판매를 개선하고 비용을 절감합니다.

이러한 이점 외에도 사기 및 이상 탐지는 데이터 마이닝의 가장 중요한 응용 프로그램입니다.

이 문서에서는 이상 탐지에 대해 설명하고 데이터 보안을 보장하기 위해 데이터 위반 및 네트워크 침입을 방지하는 데 도움이 되는 방법을 자세히 살펴봅니다.

이상 탐지 및 그 유형은 무엇입니까?

유튜브 동영상

데이터 마이닝에는 함께 연결되는 패턴, 상관 관계 및 추세를 찾는 작업이 포함되지만 네트워크 내에서 이상 항목 또는 이상치 데이터 포인트를 찾는 좋은 방법입니다.

데이터 마이닝의 변칙은 데이터 세트의 다른 데이터 포인트와 다르고 데이터 세트의 정상적인 동작 패턴에서 벗어난 데이터 포인트입니다.

이상 현상은 다음을 포함하여 뚜렷한 유형과 범주로 분류할 수 있습니다.

  • 사건의 변화: 이전의 정상적인 행동에서 갑자기 또는 체계적으로 변화하는 것을 말합니다.
  • 특이치: 데이터 수집에서 비체계적인 방식으로 나타나는 작은 변칙 패턴. 이들은 글로벌, 컨텍스트 및 집단 이상값으로 더 분류할 수 있습니다.
  • 드리프트: 데이터 세트의 점진적이고 단방향적이며 장기적인 변화.

따라서 이상 탐지는 사기 거래 탐지, 고급 불균형 사례 연구 처리, 강력한 데이터 과학 모델 구축을 위한 질병 탐지에 매우 유용한 데이터 처리 기술입니다.

예를 들어, 회사는 사기를 감지하고 추가 조사를 수행하기 위해 알 수 없는 은행 계좌에 대한 비정상적이거나 반복적인 거래를 찾기 위해 현금 흐름을 분석하기를 원할 수 있습니다.

이상 감지의 이점

사용자 행동 이상 탐지는 보안 시스템을 강화하고 보다 정확하고 정확하게 만드는 데 도움이 됩니다.

네트워크 내에서 위협과 잠재적 위험을 식별하기 위해 보안 시스템이 제공하는 다양한 정보를 분석하고 이해합니다.

기업을 위한 이상 탐지의 이점은 다음과 같습니다.

  • 인공 지능(AI) 알고리즘이 비정상적인 동작을 찾기 위해 데이터를 지속적으로 스캔하므로 사이버 보안 위협 및 데이터 침해를 실시간으로 탐지합니다 .
  • 이상 활동 및 패턴을 수동 이상 감지보다 빠르고 쉽게 추적 하여 위협을 해결하는 데 필요한 노동력과 시간을 줄입니다.
  • 갑작스러운 성능 저하와 같은 운영 오류가 발생하기 전에 식별하여 운영 위험을 최소화 합니다.
  • 이상 감지 시스템이 없으면 회사가 잠재적인 위협을 식별하는 데 몇 주 또는 몇 달이 걸릴 수 있으므로 이상을 신속하게 감지 하여 주요 비즈니스 피해를 제거하는 데 도움 이 됩니다.

따라서 이상 탐지는 성장 기회를 찾고 보안 위협과 운영 병목 ​​현상을 제거하기 위해 광범위한 고객 및 비즈니스 데이터 세트를 저장하는 기업에게 큰 자산입니다.

이상 탐지 기술

이상 탐지는 여러 절차와 기계 학습(ML) 알고리즘을 사용하여 데이터를 모니터링하고 위협을 탐지합니다.

주요 이상 탐지 기술은 다음과 같습니다.

#1. 기계 학습 기술

기계 학습

기계 학습 기술은 ML 알고리즘을 사용하여 데이터를 분석하고 이상을 감지합니다. 이상 탐지를 위한 다양한 유형의 기계 학습 알고리즘은 다음과 같습니다.

  • 클러스터링 알고리즘
  • 분류 알고리즘
  • 딥 러닝 알고리즘

이상 징후 및 위협 탐지에 일반적으로 사용되는 ML 기술에는 SVM(Support Vector Machine), k-평균 클러스터링 및 자동 인코더가 포함됩니다.

#2. 통계적 기법

통계 기법은 통계 모델을 사용하여 데이터에서 비정상적인 패턴(예: 특정 시스템 성능의 비정상적인 변동)을 감지하여 예상 값 범위를 벗어나는 값을 감지합니다.

일반적인 통계 이상 감지 기술에는 가설 테스트, IQR, Z-점수, 수정된 Z-점수, 밀도 추정, 상자 그림, 극단값 분석 및 히스토그램이 포함됩니다.

#삼. 데이터 마이닝 기술

데이터 수집-

데이터 마이닝 기술은 데이터 분류 및 클러스터링 기술을 사용하여 데이터 세트 내에서 이상을 찾습니다. 몇 가지 일반적인 데이터 마이닝 이상 기술에는 스펙트럼 클러스터링, 밀도 기반 클러스터링 및 주성분 분석이 포함됩니다.

클러스터링 데이터 마이닝 알고리즘은 이러한 클러스터 외부에 있는 데이터 포인트 및 이상을 찾기 위한 유사성을 기반으로 서로 다른 데이터 포인트를 클러스터로 그룹화하는 데 사용됩니다.

반면 분류 알고리즘은 미리 정의된 특정 클래스에 데이터 포인트를 할당하고 이러한 클래스에 속하지 않는 데이터 포인트를 감지합니다.

#4. 규칙 기반 기술

이름에서 알 수 있듯이 규칙 기반 이상 탐지 기술은 미리 결정된 규칙 집합을 사용하여 데이터 내에서 이상을 찾습니다.

이러한 기술은 설정이 비교적 쉽고 간단하지만 유연하지 않을 수 있으며 변화하는 데이터 동작 및 패턴에 적응하는 데 효율적이지 않을 수 있습니다.

예를 들어 특정 달러 금액을 초과하는 거래를 사기로 표시하도록 규칙 기반 시스템을 쉽게 프로그래밍할 수 있습니다.

#5. 도메인별 기술

도메인별 기술을 사용하여 특정 데이터 시스템에서 이상을 탐지할 수 있습니다. 그러나 특정 도메인에서 이상 징후를 탐지하는 데는 매우 효율적일 수 있지만 지정된 도메인 외부의 다른 도메인에서는 덜 효율적일 수 있습니다.

예를 들어 도메인별 기법을 사용하여 금융 거래에서 이상 징후를 찾기 위한 기법을 특별히 설계할 수 있습니다. 그러나 기계의 이상 또는 성능 저하를 찾는 데는 작동하지 않을 수 있습니다.

이상 탐지를 위한 기계 학습의 필요성

기계 학습은 이상 탐지에서 매우 중요하고 매우 유용합니다.

오늘날 이상값 탐지가 필요한 대부분의 회사와 조직은 텍스트, 고객 정보 및 트랜잭션에서 이미지 및 비디오 콘텐츠와 같은 미디어 파일에 이르기까지 방대한 양의 데이터를 처리합니다.

의미 있는 통찰력을 얻기 위해 모든 은행 거래와 초당 수동으로 생성되는 데이터를 검토하는 것은 거의 불가능합니다. 또한 대부분의 회사는 구조화되지 않은 데이터를 구조화하고 데이터 분석을 위해 데이터를 의미 있는 방식으로 배열하는 데 어려움과 큰 어려움에 직면해 있습니다.

여기서 기계 학습(ML)과 같은 도구와 기술은 방대한 양의 구조화되지 않은 데이터를 수집, 정리, 구조화, 배열, 분석 및 저장하는 데 큰 역할을 합니다.

기계 학습 기술과 알고리즘은 대규모 데이터 세트를 처리하고 다양한 기술과 알고리즘을 사용하고 결합하여 최상의 결과를 제공할 수 있는 유연성을 제공합니다.

게다가 기계 학습은 실제 애플리케이션에 대한 이상 감지 프로세스를 간소화하고 귀중한 리소스를 절약하는 데 도움이 됩니다.

이상 탐지에서 머신 러닝의 이점과 중요성은 다음과 같습니다.

  • 명시적인 프로그래밍 없이도 패턴 및 이상 징후 식별을 자동화하여 스케일링 이상 탐지를 더 쉽게 만듭니다 .
  • 기계 학습 알고리즘은 변화하는 데이터 세트 패턴에 대한 적응력이 뛰어나 시간이 지남에 따라 매우 효율적이고 강력해집니다.
  • 크고 복잡한 데이터 세트를 쉽게 처리 하여 데이터 세트의 복잡성에도 불구하고 이상 탐지를 효율적으로 수행합니다.
  • 발생하는 이상 징후를 식별하여 초기 이상 징후 식별 및 감지를 보장 하여 시간과 리소스를 절약합니다.
  • 기계 학습 기반 이상 탐지 시스템은 기존 방법에 비해 이상 탐지에서 더 높은 수준의 정확도 를 달성하는 데 도움이 됩니다.

따라서 기계 학습과 결합된 이상 탐지는 이상을 보다 빠르고 조기에 탐지하여 보안 위협 및 악의적인 침입을 방지합니다.

이상 탐지를 위한 기계 학습 알고리즘

분류, 클러스터링 또는 연관 규칙 학습을 위한 다양한 데이터 마이닝 알고리즘을 사용하여 데이터에서 이상 및 이상값을 감지할 수 있습니다.

일반적으로 이러한 데이터 마이닝 알고리즘은 지도 학습 알고리즘과 비지도 학습 알고리즘의 두 가지 범주로 분류됩니다.

감독 학습

지도 학습은 서포트 벡터 머신, 로지스틱 및 선형 회귀, 다중 클래스 분류와 같은 알고리즘으로 구성된 일반적인 유형의 학습 알고리즘입니다. 이 알고리즘 유형은 레이블이 지정된 데이터에 대해 교육을 받습니다. 즉, 교육 데이터 세트에는 예측 모델을 구성하기 위한 정상 입력 데이터와 해당하는 올바른 출력 또는 비정상 예제가 모두 포함됩니다.

따라서 그 목표는 교육 데이터 세트 패턴을 기반으로 보이지 않는 새로운 데이터에 대한 출력 예측을 만드는 것입니다. 감독 학습 알고리즘의 응용 프로그램에는 이미지 및 음성 인식, 예측 모델링 및 자연어 처리(NLP)가 포함됩니다.

비지도 학습

비지도 학습 레이블이 지정된 데이터에 대해 학습되지 않습니다. 대신 훈련 알고리즘 지침을 제공하지 않고 특정 예측을 하는 대신 복잡한 프로세스와 기본 데이터 구조를 발견합니다.

비지도 학습 알고리즘의 적용에는 이상 감지, 밀도 추정 및 데이터 압축이 포함됩니다.

이제 몇 가지 인기 있는 기계 학습 기반 이상 탐지 알고리즘을 살펴보겠습니다.

LOF(로컬 이상치 요인)

Local Outlier Factor 또는 LOF는 로컬 데이터 밀도를 고려하여 데이터 포인트가 이상인지 여부를 결정하는 이상 감지 알고리즘입니다.

이미지-71
출처: scikit-learn.org

항목의 로컬 밀도를 이웃의 로컬 밀도와 비교하여 밀도가 비슷한 영역과 주변 항목보다 밀도가 상대적으로 낮은 항목을 분석합니다. 주변 항목은 예외 또는 이상치에 불과합니다.

따라서 간단히 말해서 이상치 또는 변칙 항목 주변의 밀도는 이웃 주변의 밀도와 다릅니다. 따라서 이 알고리즘은 밀도 기반 이상값 탐지 알고리즘이라고도 합니다.

K-최근접 이웃(K-NN)

K-NN은 구현하기 쉽고 사용 가능한 모든 예제와 데이터를 저장하고 거리 메트릭의 유사성을 기반으로 새로운 예제를 분류하는 가장 단순한 분류 및 지도 이상 탐지 알고리즘입니다.

이미지-72
출처:warddatascience.com

이 분류 알고리즘은 학습 프로세스 동안 다른 작업을 수행하지 않고 레이블이 지정된 학습 데이터만 저장하기 때문에 게으른 학습자 라고도 합니다.

레이블이 지정되지 않은 새 훈련 데이터 포인트가 도착하면 알고리즘은 가장 가까운 K-가장 가까운 훈련 데이터 포인트를 보고 이를 사용하여 레이블이 지정되지 않은 새 데이터 포인트의 클래스를 분류하고 결정합니다.

K-NN 알고리즘은 다음 감지 방법을 사용하여 가장 가까운 데이터 포인트를 결정합니다.

  • 연속 데이터의 거리를 측정하기 위한 유클리드 거리 입니다.
  • 이산 데이터에 대한 두 텍스트 문자열의 근접성 또는 "가까움"을 측정하기 위한 해밍 거리 .

예를 들어 훈련 데이터 세트가 A와 B라는 두 개의 클래스 레이블로 구성되어 있다고 가정합니다. 새 데이터 포인트가 도착하면 알고리즘은 새 데이터 포인트와 데이터 세트의 각 데이터 포인트 사이의 거리를 계산하고 포인트를 선택합니다. 새 데이터 포인트에 가장 가까운 최대 수입니다.

따라서 K=3이고 3개 데이터 포인트 중 2개에 A로 레이블이 지정된 다음 새 데이터 포인트에 클래스 A로 레이블이 지정되었다고 가정합니다.

따라서 K-NN 알고리즘은 빈번한 데이터 업데이트 요구 사항이 있는 동적 환경에서 가장 잘 작동합니다.

사기 거래를 탐지하고 사기 탐지율을 높이기 위해 금융 및 기업의 응용 프로그램과 함께 널리 사용되는 이상 탐지 및 텍스트 마이닝 알고리즘입니다.

서포트 벡터 머신(SVM)

서포트 벡터 머신은 주로 회귀 및 분류 문제에 사용되는 지도 학습 기반 이상 탐지 알고리즘입니다.

다차원 초평면 을 사용하여 데이터를 두 그룹(신규 및 정상)으로 분리합니다. 따라서 초평면은 일반 데이터 관찰과 새 데이터를 구분하는 결정 경계 역할을 합니다.

이미지-73
출처: www.analyticsvidhya.com

이 두 데이터 포인트 사이의 거리를 여백이라고 합니다.

목표는 두 점 사이의 거리를 늘리는 것이므로 SVM은 두 클래스 사이의 거리가 최대한 넓어지도록 마진이 최대인 최상의 초평면 또는 최적의 초평면을 결정합니다.

이상 감지와 관련하여 SVM은 초평면에서 새로운 데이터 포인트 관찰의 마진을 계산하여 분류합니다.

마진이 설정된 임계값을 초과하면 새 관찰을 이상으로 분류합니다. 동시에 마진이 임계값보다 작으면 관찰은 정상으로 분류됩니다.

따라서 SVM 알고리즘은 고차원의 복잡한 데이터 세트를 처리하는 데 매우 효율적입니다.

고립의 숲

Isolation Forest는 Random Forest Classifier의 개념을 기반으로 하는 감독되지 않은 기계 학습 이상 탐지 알고리즘입니다.

출처: betterprogramming.pub

이 알고리즘은 무작위 속성을 기반으로 트리 구조의 데이터 세트에서 무작위로 서브샘플링된 데이터를 처리합니다. 관찰을 분리하기 위해 여러 결정 트리를 구성합니다. 그리고 오염률에 따라 더 적은 수의 나무에서 격리된 경우 특정 관찰을 이상으로 간주합니다.

따라서 간단히 말해서 격리 포리스트 알고리즘 은 데이터 포인트를 서로 다른 의사 결정 트리로 분할하여 각 관찰이 서로 격리되도록 합니다.

이상 징후는 일반적으로 데이터 포인트 클러스터에서 떨어져 있으므로 일반 데이터 포인트와 비교하여 이상 징후를 더 쉽게 식별할 수 있습니다.

격리 포리스트 알고리즘은 범주 및 숫자 데이터를 쉽게 처리할 수 있습니다. 결과적으로 고차원 및 대규모 데이터 세트 이상을 탐지하는 데 더 빠르고 효율적입니다.

사분위수 범위

사분위수 범위 또는 IQR은 데이터 세트 를 사분위수로 나누어 이상점을 찾기 위해 통계적 변동성 또는 통계적 분산을 측정 하는 데 사용됩니다.

출처: morioh.com

알고리즘은 데이터를 오름차순으로 정렬하고 집합을 4개의 동일한 부분으로 나눕니다. 이러한 부분을 구분하는 값은 Q1, Q2 및 Q3(첫 번째, 두 번째 및 세 번째 사분위수)입니다.

다음은 이러한 사분위수의 백분위수 분포입니다.

  • Q1은 데이터의 25번째 백분위수를 나타냅니다.
  • Q2는 데이터의 50번째 백분위수를 나타냅니다.
  • Q3은 데이터의 75번째 백분위수를 나타냅니다.

IQR은 데이터의 50%를 나타내는 세 번째(75번째) 백분위수 데이터 세트와 첫 번째(25번째) 백분위수 데이터 세트 간의 차이입니다.

이상 감지에 IQR을 사용하려면 데이터 세트의 IQR을 계산하고 데이터의 하한 및 상한을 정의하여 이상을 찾아야 합니다.

  • 하한선: Q1 – 1.5 * IQR
  • 상한선: Q3 + 1.5 * IQR

일반적으로 이러한 경계를 벗어나는 관측치는 이상으로 간주됩니다.

IQR 알고리즘은 데이터가 고르지 않게 분포되어 있고 분포가 잘 이해되지 않는 데이터 세트에 효과적입니다.

마지막 말

사이버 보안 위험과 데이터 침해는 향후 몇 년 동안 억제되지 않을 것으로 보입니다. 이 위험한 산업은 2023년에 더 성장할 것으로 예상되며 IoT 사이버 공격만 2025년까지 두 배가 될 것으로 예상됩니다.

또한 사이버 범죄로 인해 글로벌 기업과 조직은 2025년까지 연간 약 10조 3000억 달러의 손실을 입을 것입니다.

이것이 오늘날 사기 탐지 및 네트워크 침입 방지를 위해 이상 탐지 기술의 필요성이 점점 더 보편화되고 필요한 이유입니다.

이 기사는 데이터 마이닝의 이상 징후, 다양한 유형의 이상 징후 및 ML 기반 이상 탐지 기술을 사용하여 네트워크 침입을 방지하는 방법을 이해하는 데 도움이 됩니다.

다음으로 기계 학습의 혼동 행렬에 대한 모든 것을 탐색할 수 있습니다.