Deteksi Anomali: Panduan untuk Mencegah Intrusi Jaringan
Diterbitkan: 2023-01-09Data adalah bagian tak terpisahkan dari bisnis dan organisasi, dan hanya berharga jika disusun dengan benar dan dikelola secara efisien.
Menurut statistik, 95% bisnis saat ini menemukan masalah pengelolaan dan penataan data yang tidak terstruktur.
Di sinilah penambangan data masuk. Ini adalah proses menemukan, menganalisis, dan mengekstraksi pola yang bermakna dan informasi berharga dari sekumpulan besar data yang tidak terstruktur.
Perusahaan menggunakan perangkat lunak untuk mengidentifikasi pola dalam kumpulan data besar untuk mempelajari lebih lanjut tentang pelanggan dan audiens target mereka serta mengembangkan strategi bisnis dan pemasaran untuk meningkatkan penjualan dan mengurangi biaya.
Selain manfaat ini, deteksi penipuan dan anomali adalah aplikasi penambangan data yang paling penting.
Artikel ini menjelaskan deteksi anomali dan mengeksplorasi lebih lanjut bagaimana hal itu dapat membantu mencegah pelanggaran data dan intrusi jaringan untuk memastikan keamanan data.
Apa itu Deteksi Anomali dan Jenisnya?
Meskipun penambangan data melibatkan penemuan pola, korelasi, dan tren yang terhubung bersama, ini merupakan cara yang bagus untuk menemukan anomali atau titik data outlier dalam jaringan.
Anomali dalam data mining adalah titik data yang berbeda dari titik data lain dalam kumpulan data dan menyimpang dari pola perilaku normal kumpulan data.
Anomali dapat diklasifikasikan ke dalam jenis dan kategori yang berbeda, termasuk:
- Perubahan Peristiwa: Merujuk pada perubahan mendadak atau sistematis dari perilaku normal sebelumnya.
- Outliers: Pola anomali kecil yang muncul dengan cara yang tidak sistematis dalam pengumpulan data. Ini dapat diklasifikasikan lebih lanjut menjadi outlier global, kontekstual, dan kolektif.
- Drifts: Perubahan bertahap, tidak terarah, dan jangka panjang dalam kumpulan data.
Dengan demikian, deteksi anomali adalah teknik pemrosesan data yang sangat berguna untuk mendeteksi transaksi penipuan, menangani studi kasus dengan ketidakseimbangan kelas tinggi, dan deteksi penyakit untuk membangun model ilmu data yang kuat.
Misalnya, perusahaan mungkin ingin menganalisis arus kasnya untuk menemukan transaksi yang tidak normal atau berulang ke rekening bank yang tidak dikenal untuk mendeteksi penipuan dan melakukan penyelidikan lebih lanjut.
Manfaat Deteksi Anomali
Deteksi anomali perilaku pengguna membantu memperkuat sistem keamanan dan menjadikannya lebih tepat dan akurat.
Ini menganalisis dan memahami beragam informasi yang disediakan sistem keamanan untuk mengidentifikasi ancaman dan potensi risiko dalam jaringan.
Berikut keuntungan deteksi anomali bagi perusahaan:
- Deteksi ancaman keamanan siber dan pelanggaran data secara real-time karena algoritme kecerdasan buatan (AI) terus memindai data Anda untuk menemukan perilaku yang tidak biasa.
- Itu membuat pelacakan aktivitas dan pola anomali lebih cepat dan lebih mudah daripada deteksi anomali manual, mengurangi tenaga kerja dan waktu yang diperlukan untuk mengatasi ancaman.
- Meminimalkan risiko operasional dengan mengidentifikasi kesalahan operasional, seperti penurunan kinerja yang tiba-tiba, bahkan sebelum terjadi.
- Ini membantu menghilangkan kerusakan bisnis utama dengan mendeteksi anomali dengan cepat, karena tanpa sistem deteksi anomali, perusahaan dapat membutuhkan waktu berminggu-minggu dan berbulan-bulan untuk mengidentifikasi potensi ancaman.
Dengan demikian, deteksi anomali adalah aset besar bagi bisnis yang menyimpan kumpulan data pelanggan dan bisnis yang ekstensif untuk menemukan peluang pertumbuhan dan menghilangkan ancaman keamanan dan hambatan operasional.
Teknik Deteksi Anomali
Deteksi anomali menggunakan beberapa prosedur dan algoritma pembelajaran mesin (ML) untuk memantau data dan mendeteksi ancaman.
Berikut adalah teknik deteksi anomali utama:
#1. Teknik Pembelajaran Mesin

Teknik Pembelajaran Mesin menggunakan algoritme ML untuk menganalisis data dan mendeteksi anomali. Berbagai jenis algoritme Machine Learning untuk deteksi anomali meliputi:
- Algoritma pengelompokan
- Algoritma klasifikasi
- Algoritma pembelajaran mendalam
Dan teknik ML yang umum digunakan untuk deteksi anomali dan ancaman termasuk mesin vektor dukungan (SVM), k-means clustering, dan autoencoder.
#2. Teknik Statistik
Teknik statistik menggunakan model statistik untuk mendeteksi pola yang tidak biasa (seperti fluktuasi yang tidak biasa dalam kinerja mesin tertentu) dalam data untuk mendeteksi nilai yang berada di luar rentang nilai yang diharapkan.
Teknik deteksi anomali statistik yang umum meliputi pengujian hipotesis, IQR, Z-score, Z-score yang dimodifikasi, estimasi kepadatan, boxplot, analisis nilai ekstrim, dan histogram.
#3. Teknik Penambangan Data

Teknik penambangan data menggunakan teknik klasifikasi dan pengelompokan data untuk menemukan anomali dalam kumpulan data. Beberapa teknik anomali penambangan data yang umum termasuk pengelompokan spektral, pengelompokan berbasis kepadatan, dan analisis komponen utama.
Algoritma penambangan data pengelompokan digunakan untuk mengelompokkan titik data yang berbeda ke dalam kelompok berdasarkan kesamaannya untuk menemukan titik data dan anomali yang berada di luar kelompok ini.
Di sisi lain, algoritme klasifikasi mengalokasikan titik data ke kelas tertentu yang telah ditentukan sebelumnya dan mendeteksi titik data yang bukan milik kelas tersebut.
#4. Teknik Berbasis Aturan
Seperti namanya, teknik deteksi anomali berbasis aturan menggunakan seperangkat aturan yang telah ditentukan sebelumnya untuk menemukan anomali dalam data.
Teknik-teknik ini secara komparatif lebih mudah dan sederhana untuk disiapkan tetapi bisa tidak fleksibel dan mungkin tidak efisien dalam beradaptasi dengan perubahan perilaku dan pola data.
Misalnya, Anda dapat dengan mudah memprogram sistem berbasis aturan untuk menandai transaksi yang melebihi jumlah dolar tertentu sebagai penipuan.
#5. Teknik Khusus Domain
Anda dapat menggunakan teknik khusus domain untuk mendeteksi anomali dalam sistem data tertentu. Namun, meskipun mereka mungkin sangat efisien dalam mendeteksi anomali di domain tertentu, mereka mungkin kurang efisien di domain lain di luar yang ditentukan.
Misalnya, dengan menggunakan teknik khusus domain, Anda dapat merancang teknik khusus untuk menemukan anomali dalam transaksi keuangan. Namun, mereka mungkin tidak berfungsi untuk menemukan anomali atau penurunan kinerja di mesin.
Perlu Pembelajaran Mesin Untuk Deteksi Anomali
Pembelajaran mesin sangat penting dan sangat berguna dalam deteksi anomali.
Saat ini, sebagian besar perusahaan dan organisasi yang membutuhkan deteksi outlier berurusan dengan sejumlah besar data, mulai dari teks, informasi pelanggan, dan transaksi hingga file media seperti gambar dan konten video.
Menelusuri semua transaksi bank dan data yang dihasilkan setiap detik secara manual untuk mendorong wawasan yang berarti nyaris mustahil. Selain itu, sebagian besar perusahaan menghadapi tantangan dan kesulitan besar dalam menyusun data yang tidak terstruktur dan mengatur data dengan cara yang berarti untuk analisis data.
Di sinilah alat dan teknik seperti pembelajaran mesin (ML) memainkan peran besar dalam mengumpulkan, membersihkan, menyusun, mengatur, menganalisis, dan menyimpan data tidak terstruktur dalam jumlah besar.
Teknik dan algoritme Pembelajaran Mesin memproses kumpulan data besar dan memberikan fleksibilitas untuk menggunakan dan menggabungkan berbagai teknik dan algoritme untuk memberikan hasil terbaik.
Selain itu, pembelajaran mesin juga membantu merampingkan proses deteksi anomali untuk aplikasi dunia nyata dan menghemat sumber daya yang berharga.
Berikut adalah beberapa manfaat dan pentingnya pembelajaran mesin dalam deteksi anomali:
- Itu membuat penskalaan deteksi anomali lebih mudah dengan mengotomatiskan identifikasi pola dan anomali tanpa memerlukan pemrograman eksplisit.
- Algoritme Pembelajaran Mesin sangat mudah beradaptasi untuk mengubah pola kumpulan data, menjadikannya sangat efisien dan tangguh seiring waktu.
- Mudah menangani kumpulan data yang besar dan kompleks, membuat deteksi anomali menjadi efisien terlepas dari kompleksitas kumpulan data.
- Memastikan identifikasi dan deteksi anomali dini dengan mengidentifikasi anomali saat terjadi, menghemat waktu dan sumber daya.
- Sistem deteksi anomali berbasis Pembelajaran Mesin membantu mencapai tingkat akurasi yang lebih tinggi dalam deteksi anomali dibandingkan dengan metode tradisional.
Dengan demikian, deteksi anomali yang dipasangkan dengan pembelajaran mesin membantu deteksi anomali lebih cepat dan lebih dini untuk mencegah ancaman keamanan dan pelanggaran berbahaya.

Algoritma Pembelajaran Mesin Untuk Deteksi Anomali
Anda dapat mendeteksi anomali dan outlier dalam data dengan bantuan algoritma penambangan data yang berbeda untuk klasifikasi, pengelompokan, atau pembelajaran aturan asosiasi.
Biasanya, algoritma penambangan data ini diklasifikasikan ke dalam dua kategori yang berbeda — algoritma pembelajaran yang diawasi dan tidak diawasi.
Pembelajaran yang Diawasi
Pembelajaran yang diawasi adalah jenis umum dari algoritma pembelajaran yang terdiri dari algoritma seperti mesin vektor dukungan, regresi logistik dan linier, dan klasifikasi multi-kelas. Jenis algoritme ini dilatih pada data berlabel, artinya set data pelatihannya mencakup data input normal dan output yang sesuai atau contoh anomali untuk membangun model prediksi.
Dengan demikian, tujuannya adalah untuk membuat prediksi keluaran untuk data baru dan tak terlihat berdasarkan pola kumpulan data pelatihan. Penerapan algoritma pembelajaran terawasi meliputi pengenalan gambar dan ucapan, pemodelan prediktif, dan pemrosesan bahasa alami (NLP).
Pembelajaran Tanpa Pengawasan
Pembelajaran tanpa pengawasan tidak dilatih pada data berlabel apa pun. Sebaliknya, ia menemukan proses yang rumit dan struktur data yang mendasarinya tanpa memberikan panduan algoritme pelatihan dan alih-alih membuat prediksi spesifik.
Aplikasi algoritma pembelajaran tanpa pengawasan meliputi deteksi anomali, estimasi kepadatan, dan kompresi data.
Sekarang, mari jelajahi beberapa algoritme deteksi anomali berbasis pembelajaran mesin yang populer.
Faktor Outlier Lokal (LOF)
Local Outlier Factor atau LOF adalah algoritma deteksi anomali yang mempertimbangkan kepadatan data lokal untuk menentukan apakah suatu titik data merupakan anomali.

Ini membandingkan kepadatan lokal suatu item dengan kepadatan lokal tetangganya untuk menganalisis area dengan kepadatan serupa dan item dengan kepadatan yang relatif lebih rendah daripada tetangganya—yang tidak lain adalah anomali atau outlier.
Jadi, secara sederhana, densitas yang mengelilingi objek outlier atau anomali berbeda dengan densitas di sekitar tetangganya. Oleh karena itu, algoritme ini disebut juga algoritme pendeteksian outlier berbasis densitas.
K-Tetangga Terdekat (K-NN)
K-NN adalah klasifikasi paling sederhana dan algoritme deteksi anomali terawasi yang mudah diimplementasikan, menyimpan semua contoh dan data yang tersedia, dan mengklasifikasikan contoh baru berdasarkan kesamaan dalam metrik jarak.

Algoritme klasifikasi ini disebut juga dengan lazy learner karena hanya menyimpan data pelatihan berlabel—tanpa melakukan hal lain selama proses pelatihan.
Saat titik data pelatihan baru yang tidak berlabel tiba, algoritme melihat K-terdekat atau titik data pelatihan terdekat untuk menggunakannya untuk mengklasifikasikan dan menentukan kelas titik data baru yang tidak berlabel.
Algoritme K-NN menggunakan metode deteksi berikut untuk menentukan titik data terdekat:
- Jarak Euclidean untuk mengukur jarak untuk data kontinu.
- Jarak Hamming untuk mengukur kedekatan atau "kedekatan" dari dua string teks untuk data diskrit.
Misalnya, anggap kumpulan data pelatihan Anda terdiri dari dua label kelas, A dan B. Jika titik data baru tiba, algoritme akan menghitung jarak antara titik data baru dan setiap titik data dalam kumpulan data dan memilih titik tersebut yang merupakan jumlah maksimum yang paling dekat dengan titik data baru.
Jadi, misalkan K=3, dan 2 dari 3 titik data diberi label sebagai A, maka titik data baru diberi label sebagai kelas A.
Oleh karena itu, algoritma K-NN bekerja paling baik di lingkungan dinamis dengan persyaratan pembaruan data yang sering.
Ini adalah algoritme pendeteksian anomali dan penambangan teks yang populer dengan aplikasi di bidang keuangan dan bisnis untuk mendeteksi transaksi penipuan dan meningkatkan tingkat deteksi penipuan.
Mesin Vektor Dukungan (SVM)
Mesin vektor dukungan adalah algoritma deteksi anomali berbasis pembelajaran mesin terawasi yang banyak digunakan dalam masalah regresi dan klasifikasi.
Ini menggunakan hyperplane multidimensi untuk memisahkan data menjadi dua kelompok (baru dan normal). Dengan demikian, hyperplane bertindak sebagai batas keputusan yang memisahkan observasi data normal dan data baru.

Jarak antara dua titik data ini disebut sebagai margin.
Karena tujuannya adalah untuk meningkatkan jarak antara dua titik, SVM menentukan hyperplane terbaik atau optimal dengan margin maksimum untuk memastikan jarak antara dua kelas seluas mungkin.
Mengenai deteksi anomali, SVM menghitung margin pengamatan titik data baru dari hyperplane untuk mengklasifikasikannya.
Jika margin melebihi ambang batas yang ditetapkan, itu mengklasifikasikan pengamatan baru sebagai anomali. Sementara itu, jika margin kurang dari ambang batas, pengamatan diklasifikasikan sebagai normal.
Dengan demikian, algoritma SVM sangat efisien dalam menangani kumpulan data berdimensi tinggi dan kompleks.
Hutan Isolasi
Isolation Forest adalah algoritme pendeteksian anomali pembelajaran mesin tanpa pengawasan berdasarkan konsep Pengklasifikasi Hutan Acak.
Algoritma ini memproses data subsampel secara acak dalam kumpulan data dalam struktur pohon berdasarkan atribut acak. Itu membangun beberapa pohon keputusan untuk mengisolasi pengamatan. Dan itu menganggap pengamatan tertentu sebagai anomali jika diisolasi di lebih sedikit pohon berdasarkan tingkat kontaminasinya.
Jadi, secara sederhana, algoritma hutan isolasi membagi titik data menjadi pohon keputusan yang berbeda — memastikan setiap pengamatan diisolasi dari yang lain.
Anomali biasanya berada jauh dari klaster titik data—membuatnya lebih mudah untuk mengidentifikasi anomali dibandingkan dengan titik data normal.
Algoritme hutan isolasi dapat dengan mudah menangani data kategorikal dan numerik. Hasilnya, mereka lebih cepat untuk dilatih dan sangat efisien dalam mendeteksi anomali kumpulan data berdimensi tinggi dan besar.
Jarak interkuartil
Rentang interkuartil atau IQR digunakan untuk mengukur variabilitas statistik atau dispersi statistik untuk menemukan titik anomali dalam kumpulan data dengan membaginya menjadi kuartil.
Algoritme mengurutkan data dalam urutan menaik dan membagi himpunan menjadi empat bagian yang sama. Nilai yang memisahkan bagian-bagian ini adalah Q1, Q2, dan Q3—kuartil pertama, kedua, dan ketiga.
Inilah distribusi persentil dari kuartil ini:
- Q1 menandakan persentil ke-25 dari data.
- Q2 menandakan persentil ke-50 dari data.
- Q3 menandakan persentil ke-75 dari data.
IQR adalah perbedaan antara set data persentil ketiga (75) dan pertama (25), yang mewakili 50% dari data.
Menggunakan IQR untuk deteksi anomali mengharuskan Anda menghitung IQR kumpulan data dan menentukan batas bawah dan atas data untuk menemukan anomali.
- Batas bawah: Q1 – 1,5 * IQR
- Batas atas: Q3 + 1,5 * IQR
Biasanya, pengamatan yang berada di luar batas ini dianggap sebagai anomali.
Algoritme IQR efektif untuk kumpulan data dengan data yang terdistribusi tidak merata dan di mana distribusinya tidak dipahami dengan baik.
Kata Akhir
Risiko keamanan siber dan pelanggaran data tampaknya tidak akan berkurang di tahun-tahun mendatang—dan industri yang berisiko ini diperkirakan akan tumbuh lebih jauh pada tahun 2023, dan serangan siber IoT saja diperkirakan akan berlipat ganda pada tahun 2025.
Selain itu, kejahatan dunia maya akan merugikan perusahaan dan organisasi global sekitar $10,3 triliun per tahun pada tahun 2025.
Inilah sebabnya mengapa kebutuhan akan teknik deteksi anomali menjadi lebih umum dan diperlukan saat ini untuk deteksi penipuan dan mencegah intrusi jaringan.
Artikel ini akan membantu Anda memahami apa itu anomali dalam penambangan data, berbagai jenis anomali, dan cara mencegah intrusi jaringan menggunakan teknik deteksi anomali berbasis ML.
Selanjutnya, Anda dapat menjelajahi segala sesuatu tentang matriks kebingungan dalam pembelajaran mesin.