การตรวจจับความผิดปกติ: แนวทางป้องกันการบุกรุกเครือข่าย

เผยแพร่แล้ว: 2023-01-09

ข้อมูลเป็นส่วนที่ขาดไม่ได้ของธุรกิจและองค์กร และจะมีค่าก็ต่อเมื่อมีการจัดโครงสร้างอย่างเหมาะสมและจัดการอย่างมีประสิทธิภาพเท่านั้น

จากสถิติพบว่า 95% ของธุรกิจในปัจจุบันพบว่าการจัดการและจัดโครงสร้างข้อมูลที่ไม่มีโครงสร้างเป็นปัญหา

นี่คือที่มาของการทำเหมืองข้อมูล เป็นกระบวนการค้นหา วิเคราะห์ และแยกรูปแบบที่มีความหมายและข้อมูลที่มีค่าจากชุดข้อมูลที่ไม่มีโครงสร้างจำนวนมาก

บริษัทต่างๆ ใช้ซอฟต์แวร์เพื่อระบุรูปแบบในชุดข้อมูลขนาดใหญ่เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับลูกค้าและกลุ่มเป้าหมาย และพัฒนากลยุทธ์ทางธุรกิจและการตลาดเพื่อปรับปรุงการขายและลดต้นทุน

นอกจากประโยชน์นี้แล้ว การตรวจจับการฉ้อโกงและความผิดปกติยังเป็นแอปพลิเคชันที่สำคัญที่สุดของการทำเหมืองข้อมูล

บทความนี้จะอธิบายการตรวจจับความผิดปกติและสำรวจเพิ่มเติมว่าสามารถช่วยป้องกันการละเมิดข้อมูลและการบุกรุกเครือข่ายได้อย่างไรเพื่อรับประกันความปลอดภัยของข้อมูล

การตรวจจับความผิดปกติและประเภทของมันคืออะไร?

วิดีโอ YouTube

แม้ว่าการทำเหมืองข้อมูลจะเกี่ยวข้องกับการค้นหารูปแบบ ความสัมพันธ์ และแนวโน้มที่เชื่อมโยงเข้าด้วยกัน แต่ก็เป็นวิธีที่ดีในการค้นหาความผิดปกติหรือจุดข้อมูลผิดปกติภายในเครือข่าย

ความผิดปกติในการขุดข้อมูลคือจุดข้อมูลที่แตกต่างจากจุดข้อมูลอื่นๆ ในชุดข้อมูล และเบี่ยงเบนไปจากรูปแบบพฤติกรรมปกติของชุดข้อมูล

ความผิดปกติสามารถจำแนกออกเป็นประเภทและหมวดหมู่ที่แตกต่างกัน ได้แก่:

  • การเปลี่ยนแปลงในเหตุการณ์: หมายถึงการเปลี่ยนแปลงอย่างกะทันหันหรือเป็นระบบจากพฤติกรรมปกติก่อนหน้านี้
  • Outliers: รูปแบบความผิดปกติขนาดเล็กที่ปรากฏขึ้นอย่างไม่เป็นระบบในการรวบรวมข้อมูล สิ่งเหล่านี้สามารถจัดประเภทเพิ่มเติมเป็นค่าผิดปกติระดับโลก บริบท และค่าผิดปกติโดยรวม
  • การ เลื่อนลอย: การเปลี่ยนแปลงทีละน้อย ไม่มีทิศทาง และระยะยาวในชุดข้อมูล

ดังนั้น การตรวจจับความผิดปกติจึงเป็นเทคนิคการประมวลผลข้อมูลที่มีประโยชน์อย่างมากสำหรับการตรวจจับธุรกรรมที่เป็นการฉ้อโกง การจัดการกรณีศึกษาที่มีความไม่สมดุลระดับสูง และการตรวจจับโรคเพื่อสร้างแบบจำลองด้านวิทยาศาสตร์ข้อมูลที่มีประสิทธิภาพ

ตัวอย่างเช่น บริษัทอาจต้องการวิเคราะห์กระแสเงินสดเพื่อค้นหาธุรกรรมที่ผิดปกติหรือเกิดซ้ำในบัญชีธนาคารที่ไม่รู้จัก เพื่อตรวจหาการฉ้อโกงและดำเนินการตรวจสอบเพิ่มเติม

ประโยชน์ของการตรวจจับความผิดปกติ

การตรวจจับพฤติกรรมที่ผิดปกติของผู้ใช้จะช่วยเสริมความแข็งแกร่งให้กับระบบรักษาความปลอดภัยและทำให้มีความแม่นยำและแม่นยำยิ่งขึ้น

โดยจะวิเคราะห์และทำความเข้าใจกับข้อมูลต่างๆ ที่ระบบรักษาความปลอดภัยมอบให้เพื่อระบุภัยคุกคามและความเสี่ยงที่อาจเกิดขึ้นภายในเครือข่าย

ข้อดีของการตรวจจับความผิดปกติสำหรับบริษัทมีดังนี้

  • การตรวจจับภัยคุกคามความปลอดภัยทางไซเบอร์และการละเมิดข้อมูลตามเวลาจริง เนื่องจากอัลกอริธึมปัญญาประดิษฐ์ (AI) สแกนข้อมูลของคุณอย่างต่อเนื่องเพื่อค้นหาพฤติกรรมที่ผิดปกติ
  • ทำให้ ติดตามกิจกรรมและรูปแบบที่ผิดปกติได้รวดเร็ว และง่ายกว่าการตรวจจับความผิดปกติด้วยตนเอง ลดแรงงานและเวลาที่ต้องใช้ในการแก้ไขภัยคุกคาม
  • ลดความเสี่ยง ในการปฏิบัติงานให้เหลือน้อยที่สุดโดยการระบุข้อผิดพลาดในการปฏิบัติงาน เช่น ประสิทธิภาพการทำงานลดลงกะทันหัน ก่อนที่จะเกิดขึ้น
  • ช่วยขจัดความเสียหายทางธุรกิจที่สำคัญ ด้วยการตรวจจับความผิดปกติอย่างรวดเร็ว เนื่องจากหากไม่มีระบบตรวจจับความผิดปกติ บริษัทต่างๆ อาจใช้เวลาหลายสัปดาห์และหลายเดือนในการระบุภัยคุกคามที่อาจเกิดขึ้น

ดังนั้น การตรวจจับความผิดปกติจึงเป็นสินทรัพย์ขนาดใหญ่สำหรับธุรกิจที่จัดเก็บชุดข้อมูลลูกค้าและธุรกิจจำนวนมากเพื่อค้นหาโอกาสในการเติบโตและกำจัดภัยคุกคามด้านความปลอดภัยและปัญหาคอขวดในการดำเนินงาน

เทคนิคการตรวจจับความผิดปกติ

การตรวจจับความผิดปกติใช้หลายขั้นตอนและอัลกอริทึมการเรียนรู้ของเครื่อง (ML) เพื่อตรวจสอบข้อมูลและตรวจจับภัยคุกคาม

ต่อไปนี้คือเทคนิคการตรวจจับความผิดปกติที่สำคัญ:

#1. เทคนิคการเรียนรู้ของเครื่อง

การเรียนรู้ของเครื่อง

เทคนิคการเรียนรู้ของเครื่องใช้อัลกอริทึม ML เพื่อวิเคราะห์ข้อมูลและตรวจจับความผิดปกติ อัลกอริทึมการเรียนรู้ของเครื่องประเภทต่างๆ สำหรับการตรวจจับความผิดปกติ ได้แก่:

  • อัลกอริทึมการจัดกลุ่ม
  • อัลกอริธึมการจำแนกประเภท
  • อัลกอริทึมการเรียนรู้เชิงลึก

และเทคนิค ML ที่ใช้กันทั่วไปสำหรับการตรวจจับความผิดปกติและการคุกคาม ได้แก่ เครื่องเวกเตอร์สนับสนุน (SVM) การจัดกลุ่มค่า k-mean และโปรแกรมเข้ารหัสอัตโนมัติ

#2. เทคนิคทางสถิติ

เทคนิคทางสถิติใช้แบบจำลองทางสถิติเพื่อตรวจหารูปแบบที่ผิดปกติ (เช่น ความผันผวนที่ผิดปกติในประสิทธิภาพของเครื่องจักรเฉพาะ) ในข้อมูลเพื่อตรวจหาค่าที่เกินช่วงของค่าที่คาดไว้

เทคนิคการตรวจจับความผิดปกติทางสถิติทั่วไป ได้แก่ การทดสอบสมมติฐาน, IQR, Z-score, modified Z-score, การประมาณค่าความหนาแน่น, boxplot, การวิเคราะห์ค่ามาก และฮิสโตแกรม

#3. เทคนิคการขุดข้อมูล

การทำเหมืองข้อมูล-

เทคนิคการทำเหมืองข้อมูลใช้เทคนิคการจำแนกประเภทข้อมูลและการจัดกลุ่มเพื่อค้นหาความผิดปกติภายในชุดข้อมูล เทคนิคความผิดปกติของการทำเหมืองข้อมูลทั่วไปบางอย่าง ได้แก่ การจัดกลุ่มสเปกตรัม การจัดกลุ่มตามความหนาแน่น และการวิเคราะห์องค์ประกอบหลัก

อัลกอริทึมการทำเหมืองข้อมูลแบบคลัสเตอร์ใช้เพื่อจัดกลุ่มจุดข้อมูลต่างๆ ออกเป็นคลัสเตอร์ตามความคล้ายคลึงกันเพื่อค้นหาจุดข้อมูลและความผิดปกติที่อยู่นอกคลัสเตอร์เหล่านี้

ในทางกลับกัน อัลกอริทึมการจัดหมวดหมู่จะจัดสรรจุดข้อมูลให้กับคลาสที่กำหนดไว้ล่วงหน้าเฉพาะเจาะจง และตรวจหาจุดข้อมูลที่ไม่ได้เป็นของคลาสเหล่านี้

#4. เทคนิคตามกฎ

ตามชื่อที่แนะนำ เทคนิคการตรวจจับความผิดปกติตามกฎจะใช้ชุดของกฎที่กำหนดไว้ล่วงหน้าเพื่อค้นหาความผิดปกติภายในข้อมูล

เทคนิคเหล่านี้ค่อนข้างง่ายกว่าและตั้งค่าได้ง่ายกว่า แต่อาจไม่ยืดหยุ่นและอาจไม่มีประสิทธิภาพในการปรับให้เข้ากับพฤติกรรมและรูปแบบข้อมูลที่เปลี่ยนแปลงไป

ตัวอย่างเช่น คุณสามารถตั้งโปรแกรมระบบตามกฎได้อย่างง่ายดายเพื่อตั้งค่าสถานะธุรกรรมที่เกินจำนวนเงินที่ระบุว่าเป็นการฉ้อโกง

#5. เทคนิคเฉพาะโดเมน

คุณสามารถใช้เทคนิคเฉพาะโดเมนเพื่อตรวจหาความผิดปกติในระบบข้อมูลเฉพาะ อย่างไรก็ตาม แม้ว่าอาจมีประสิทธิภาพสูงในการตรวจจับความผิดปกติในโดเมนเฉพาะ แต่อาจมีประสิทธิภาพน้อยกว่าในโดเมนอื่นนอกโดเมนที่ระบุ

ตัวอย่างเช่น การใช้เทคนิคเฉพาะโดเมน คุณสามารถออกแบบเทคนิคเฉพาะเพื่อค้นหาความผิดปกติในธุรกรรมทางการเงิน แต่อาจไม่ได้ผลในการค้นหาความผิดปกติหรือประสิทธิภาพการทำงานที่ลดลงในเครื่อง

ต้องการการเรียนรู้ของเครื่องสำหรับการตรวจจับความผิดปกติ

แมชชีนเลิร์นนิงมีความสำคัญและมีประโยชน์อย่างมากในการตรวจจับความผิดปกติ

ปัจจุบัน บริษัทและองค์กรส่วนใหญ่ต้องการการตรวจจับค่าผิดปกติที่ต้องจัดการกับข้อมูลจำนวนมหาศาล ตั้งแต่ข้อความ ข้อมูลลูกค้า และธุรกรรม ไปจนถึงไฟล์มีเดีย เช่น รูปภาพและเนื้อหาวิดีโอ

การทำธุรกรรมธนาคารทั้งหมดและข้อมูลที่สร้างขึ้นในแต่ละวินาทีด้วยตนเองเพื่อขับเคลื่อนข้อมูลเชิงลึกที่มีความหมายนั้นแทบจะเป็นไปไม่ได้เลย ยิ่งไปกว่านั้น บริษัทส่วนใหญ่เผชิญกับความท้าทายและความยากลำบากอย่างมากในการจัดโครงสร้างข้อมูลที่ไม่มีโครงสร้างและการจัดเรียงข้อมูลในลักษณะที่มีความหมายสำหรับการวิเคราะห์ข้อมูล

นี่คือจุดที่เครื่องมือและเทคนิคต่างๆ เช่น แมชชีนเลิร์นนิง (ML) มีบทบาทอย่างมากในการรวบรวม ทำความสะอาด จัดโครงสร้าง จัดเรียง วิเคราะห์ และจัดเก็บข้อมูลที่ไม่มีโครงสร้างปริมาณมหาศาล

เทคนิคการเรียนรู้ของเครื่องและอัลกอริทึมจะประมวลผลชุดข้อมูลขนาดใหญ่และให้ความยืดหยุ่นในการใช้งานและรวมเทคนิคและอัลกอริทึมต่างๆ เพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

นอกจากนี้ แมชชีนเลิร์นนิงยังช่วยปรับปรุงกระบวนการตรวจจับความผิดปกติสำหรับแอปพลิเคชันในโลกแห่งความเป็นจริงและช่วยประหยัดทรัพยากรอันมีค่า

ประโยชน์และความสำคัญของแมชชีนเลิร์นนิงในการตรวจจับความผิดปกติมีดังนี้

  • ทำให้การตรวจหาความผิดปกติปรับขนาดได้ง่ายขึ้น โดยการระบุรูปแบบและความผิดปกติโดยอัตโนมัติโดยไม่ต้องมีการเขียนโปรแกรมที่ชัดเจน
  • อัลกอริทึมการเรียนรู้ของเครื่อง สามารถปรับ ให้เข้ากับรูปแบบชุดข้อมูลที่เปลี่ยนแปลงได้อย่างมาก ทำให้มีประสิทธิภาพสูงและทนทานตามกาลเวลา
  • จัดการชุดข้อมูลขนาดใหญ่และซับซ้อนได้อย่างง่ายดาย ทำให้การตรวจจับความผิดปกติมีประสิทธิภาพแม้ว่าชุดข้อมูลจะซับซ้อนก็ตาม
  • รับรอง การระบุและตรวจจับความผิดปกติตั้งแต่เนิ่นๆ ด้วยการระบุความผิดปกติเมื่อเกิดขึ้น ประหยัดเวลาและทรัพยากร
  • ระบบตรวจจับความผิดปกติที่ใช้การเรียนรู้ของเครื่องช่วยให้ได้รับ ความแม่นยำในการตรวจจับความผิดปกติในระดับที่สูงขึ้น เมื่อเทียบกับวิธีการแบบเดิม

ดังนั้น การตรวจจับความผิดปกติที่จับคู่กับแมชชีนเลิร์นนิงจะช่วยให้ตรวจจับความผิดปกติได้เร็วขึ้นและเร็วขึ้น เพื่อป้องกันภัยคุกคามด้านความปลอดภัยและการละเมิดที่เป็นอันตราย

อัลกอริทึมการเรียนรู้ของเครื่องสำหรับการตรวจจับความผิดปกติ

คุณสามารถตรวจจับความผิดปกติและค่าผิดปกติในข้อมูลด้วยความช่วยเหลือของอัลกอริทึมการทำเหมืองข้อมูลที่แตกต่างกันสำหรับการเรียนรู้การจัดหมวดหมู่ การจัดกลุ่ม หรือกฎการเชื่อมโยง

โดยทั่วไปแล้ว อัลกอริธึมการทำเหมืองข้อมูลเหล่านี้จะถูกจำแนกออกเป็น 2 ประเภทที่แตกต่างกัน ได้แก่ อัลกอริทึมการเรียนรู้แบบมีผู้ดูแลและไม่มีผู้ดูแล

การเรียนรู้ภายใต้การนิเทศ

การเรียนรู้ภายใต้การดูแลเป็นอัลกอริทึมการเรียนรู้ประเภททั่วไปที่ประกอบด้วยอัลกอริทึม เช่น เครื่องเวกเตอร์สนับสนุน การถดถอยโลจิสติกและเชิงเส้น และการจำแนกประเภทหลายชั้น อัลกอริทึมประเภทนี้ได้รับการฝึกอบรมบนข้อมูลที่มีป้ายกำกับ ซึ่งหมายความว่าชุดข้อมูลการฝึกอบรมมีทั้งข้อมูลอินพุตปกติและเอาต์พุตที่ถูกต้องหรือตัวอย่างที่ผิดปกติเพื่อสร้างแบบจำลองการทำนาย

ดังนั้น เป้าหมายของมันคือการคาดการณ์เอาต์พุตสำหรับข้อมูลที่มองไม่เห็นและข้อมูลใหม่ตามรูปแบบชุดข้อมูลการฝึกอบรม การประยุกต์ใช้อัลกอริธึมการเรียนรู้แบบมีผู้สอน ได้แก่ การรู้จำภาพและคำพูด การสร้างแบบจำลองเชิงทำนาย และการประมวลผลภาษาธรรมชาติ (NLP)

การเรียนรู้แบบไม่มีผู้ควบคุม

การเรียนรู้แบบไม่มีผู้ควบคุม ไม่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่มีป้ายกำกับใด ๆ แต่จะค้นพบกระบวนการที่ซับซ้อนและโครงสร้างข้อมูลพื้นฐานโดยไม่ต้องให้คำแนะนำอัลกอริทึมการฝึกอบรมและแทนที่จะทำการคาดคะเนที่เฉพาะเจาะจง

การประยุกต์ใช้อัลกอริธึมการเรียนรู้แบบไม่มีผู้ดูแล ได้แก่ การตรวจจับความผิดปกติ การประมาณค่าความหนาแน่น และการบีบอัดข้อมูล

ตอนนี้ เรามาสำรวจอัลกอริธึมการตรวจจับความผิดปกติที่ใช้การเรียนรู้ของเครื่องยอดนิยมกันบ้าง

ปัจจัยภายนอกท้องถิ่น (LOF)

Local Outlier Factor หรือ LOF เป็นอัลกอริธึมการตรวจจับความผิดปกติที่พิจารณาความหนาแน่นของข้อมูลในเครื่องเพื่อพิจารณาว่าจุดข้อมูลมีความผิดปกติหรือไม่

อิมเมจ-71
ที่มา: scikit-learn.org

โดยจะเปรียบเทียบความหนาแน่นในท้องถิ่นของสิ่งของกับความหนาแน่นในท้องถิ่นของเพื่อนบ้าน เพื่อวิเคราะห์พื้นที่ที่มีความหนาแน่นใกล้เคียงกัน และสิ่งของที่มีความหนาแน่นต่ำกว่าเพื่อนบ้าน ซึ่งไม่ใช่สิ่งผิดปกติหรือค่าผิดปกติแต่อย่างใด

ดังนั้น พูดง่ายๆ ก็คือ ความหนาแน่นรอบๆ สิ่งของผิดปกติหรือสิ่งผิดปกติจะแตกต่างจากความหนาแน่นรอบๆ เพื่อนบ้าน ดังนั้น อัลกอริทึมนี้จึงเรียกอีกอย่างว่าอัลกอริธึมการตรวจจับค่าผิดปกติตามความหนาแน่น

K-เพื่อนบ้านที่ใกล้ที่สุด (K-NN)

K-NN เป็นอัลกอริธึมการตรวจจับความผิดปกติที่จัดหมวดหมู่และควบคุมดูแลอย่างง่ายที่สุด ซึ่งง่ายต่อการใช้งาน จัดเก็บตัวอย่างและข้อมูลที่มีอยู่ทั้งหมด และจัดประเภทตัวอย่างใหม่ตามความคล้ายคลึงกันในมาตรวัดระยะทาง

อิมเมจ-72
ที่มา: ต่อ datascience.com

อัลกอริธึมการจัดหมวดหมู่นี้เรียกอีกอย่างว่า ผู้เรียนที่ขี้เกียจ เพราะจะเก็บเฉพาะข้อมูลการฝึกอบรมที่มีป้ายกำกับเท่านั้น โดยไม่ต้องดำเนินการอื่นใดในระหว่างกระบวนการฝึกอบรม

เมื่อจุดข้อมูลการฝึกอบรมที่ไม่มีป้ายกำกับใหม่มาถึง อัลกอริทึมจะดูที่จุดข้อมูลการฝึกอบรม K-Nearest หรือที่ใกล้ที่สุดเพื่อใช้จัดประเภทและกำหนดระดับของจุดข้อมูลใหม่ที่ไม่มีป้ายกำกับ

อัลกอริทึม K-NN ใช้วิธีการตรวจจับต่อไปนี้เพื่อกำหนดจุดข้อมูลที่ใกล้เคียงที่สุด:

  • Euclidean Distance เพื่อวัดระยะทางสำหรับข้อมูลต่อเนื่อง
  • Hamming Distance เพื่อวัดความใกล้ชิดหรือ “ความใกล้ชิด” ของสตริงข้อความทั้งสองสำหรับข้อมูลที่แยกจากกัน

ตัวอย่างเช่น พิจารณาว่าชุดข้อมูลการฝึกอบรมของคุณประกอบด้วยป้ายกำกับระดับสองป้าย คือ A และ B หากจุดข้อมูลใหม่มาถึง อัลกอริทึมจะคำนวณระยะห่างระหว่างจุดข้อมูลใหม่กับจุดข้อมูลแต่ละจุดในชุดข้อมูล แล้วเลือกจุด ซึ่งเป็นจำนวนสูงสุดที่ใกล้เคียงกับจุดข้อมูลใหม่

ดังนั้น สมมติว่า K=3 และจุดข้อมูล 2 ใน 3 จุดถูกระบุว่าเป็น A จากนั้นจุดข้อมูลใหม่จะถูกระบุว่าเป็นคลาส A

ดังนั้น อัลกอริทึม K-NN จึงทำงานได้ดีที่สุดในสภาพแวดล้อมแบบไดนามิกที่มีข้อกำหนดในการอัปเดตข้อมูลบ่อยครั้ง

อัลกอริทึมการตรวจจับความผิดปกติและการทำเหมืองข้อความยอดนิยมพร้อมแอปพลิเคชันในด้านการเงินและธุรกิจเพื่อตรวจจับธุรกรรมที่ฉ้อโกงและเพิ่มอัตราการตรวจจับการฉ้อโกง

รองรับ Vector Machine (SVM)

Support vector machine เป็นอัลกอริธึมการตรวจจับความผิดปกติที่ใช้การเรียนรู้ของเครื่องภายใต้การดูแล ซึ่งส่วนใหญ่ใช้ในปัญหาการถดถอยและการจำแนกประเภท

ใช้ ไฮเปอร์เพลนหลายมิติ เพื่อแยกข้อมูลออกเป็นสองกลุ่ม (ใหม่และปกติ) ดังนั้น ไฮเปอร์เพลนจึงทำหน้าที่เป็นขอบเขตการตัดสินใจที่แยกการสังเกตข้อมูลปกติและข้อมูลใหม่

อิมเมจ-73
ที่มา: www.analyticsvidhya.com

ระยะห่างระหว่างจุดข้อมูลทั้งสองนี้เรียกว่า ระยะขอบ

เนื่องจากเป้าหมายคือการเพิ่มระยะห่างระหว่างจุดสองจุด SVM จึงกำหนด ไฮเปอร์เพลนที่ดีที่สุดหรือดีที่สุดด้วยระยะขอบสูงสุด เพื่อให้แน่ใจว่าระยะห่างระหว่างสองคลาสนั้นกว้างที่สุดเท่าที่จะเป็นไปได้

เกี่ยวกับการตรวจจับความผิดปกติ SVM คำนวณระยะขอบของการสังเกตจุดข้อมูลใหม่จากไฮเปอร์เพลนเพื่อจัดประเภท

หากระยะขอบเกินเกณฑ์ที่ตั้งไว้ จะจัดประเภทการสังเกตใหม่เป็นความผิดปกติ ในเวลาเดียวกัน หากมาร์จินน้อยกว่าเกณฑ์ การสังเกตจะจัดอยู่ในประเภทปกติ

ดังนั้น อัลกอริทึม SVM จึงมีประสิทธิภาพสูงในการจัดการชุดข้อมูลที่มีมิติสูงและซับซ้อน

ป่าเปลี่ยว

Isolation Forest เป็นอัลกอริธึมการตรวจจับความผิดปกติที่เรียนรู้ด้วยเครื่องโดยไม่ได้รับการดูแล โดยยึดตามแนวคิดของ Random Forest Classifier

ที่มา: Betterprogramming.pub

อัลกอริทึมนี้ประมวลผลข้อมูลตัวอย่างย่อยแบบสุ่มในชุดข้อมูลในโครงสร้างแบบต้นไม้ตามแอตทริบิวต์แบบสุ่ม มันสร้างต้นไม้การตัดสินใจหลายต้นเพื่อแยกการสังเกต และจะถือว่าการสังเกตเฉพาะเป็นความผิดปกติหากแยกในต้นไม้จำนวนน้อยลงตามอัตราการปนเปื้อน

ดังนั้น พูดง่ายๆ ก็คือ อัลกอริทึมของฟอเรสต์ แยกจะแบ่งจุดข้อมูลออกเป็นแผนผังการตัดสินใจที่แตกต่างกัน เพื่อให้แน่ใจว่าการสังเกตแต่ละครั้งจะถูกแยกออกจากกัน

ความผิดปกติมักจะอยู่ห่างจากคลัสเตอร์จุดข้อมูล ทำให้ระบุความผิดปกติได้ง่ายขึ้นเมื่อเทียบกับจุดข้อมูลปกติ

อัลกอริทึมฟอเรสต์แยกสามารถจัดการข้อมูลเชิงหมวดหมู่และตัวเลขได้อย่างง่ายดาย เป็นผลให้ฝึกได้เร็วกว่าและมีประสิทธิภาพสูงในการตรวจจับความผิดปกติของชุดข้อมูลขนาดใหญ่และมิติสูง

ช่วงระหว่างควอไทล์

ช่วงระหว่างควอไทล์หรือ IQR ใช้ในการ วัดความแปรปรวนทางสถิติหรือการกระจายตัวทางสถิติ เพื่อค้นหาจุดผิดปกติในชุดข้อมูลโดย แบ่งเป็นควอไทล์

ที่มา: morioh.com

อัลกอริทึมจะจัดเรียงข้อมูลตามลำดับจากน้อยไปหามาก และแบ่งชุดข้อมูลออกเป็นสี่ส่วนเท่าๆ กัน ค่าที่แยกส่วนต่างๆ เหล่านี้คือ Q1, Q2 และ Q3—ควอไทล์ที่หนึ่ง สอง และสาม

นี่คือการแจกแจงเปอร์เซ็นต์ไทล์ของควอร์ไทล์เหล่านี้:

  • Q1 หมายถึงเปอร์เซ็นไทล์ที่ 25 ของข้อมูล
  • Q2 หมายถึงเปอร์เซ็นไทล์ที่ 50 ของข้อมูล
  • Q3 หมายถึงเปอร์เซ็นต์ไทล์ที่ 75 ของข้อมูล

IQR คือความแตกต่างระหว่างชุดข้อมูลเปอร์เซ็นไทล์ที่สาม (75) และชุดแรก (25) ซึ่งคิดเป็น 50% ของข้อมูล

การใช้ IQR สำหรับการตรวจจับความผิดปกติ คุณจะต้องคำนวณ IQR ของชุดข้อมูลและกำหนดขอบเขตล่างและบนของข้อมูลเพื่อค้นหาความผิดปกติ

  • ขอบเขตล่าง: Q1 – 1.5 * IQR
  • ขอบเขตบน: Q3 + 1.5 * IQR

โดยทั่วไปแล้ว การสังเกตการณ์ที่อยู่นอกขอบเขตเหล่านี้ถือเป็นความผิดปกติ

อัลกอริทึม IQR มีประสิทธิภาพสำหรับชุดข้อมูลที่มีการกระจายข้อมูลไม่สม่ำเสมอและในกรณีที่ไม่เข้าใจการกระจายที่ดี

คำสุดท้าย

ความเสี่ยงด้านความปลอดภัยทางไซเบอร์และการละเมิดข้อมูลดูเหมือนจะไม่ลดลงในอีกไม่กี่ปีข้างหน้า และคาดว่าอุตสาหกรรมที่มีความเสี่ยงนี้จะเติบโตต่อไปในปี 2566 และการโจมตีทางไซเบอร์ของ IoT เพียงอย่างเดียวคาดว่าจะเพิ่มขึ้นเป็นสองเท่าภายในปี 2568

ยิ่งไปกว่านั้น อาชญากรรมทางไซเบอร์จะทำให้บริษัทและองค์กรทั่วโลกต้องเสียค่าใช้จ่ายประมาณ 10.3 ล้านล้านดอลลาร์ต่อปีภายในปี 2568

ด้วยเหตุนี้ความต้องการเทคนิคการตรวจจับความผิดปกติจึงแพร่หลายมากขึ้นและจำเป็นในปัจจุบันสำหรับการตรวจจับการฉ้อโกงและป้องกันการบุกรุกเครือข่าย

บทความนี้จะช่วยให้คุณเข้าใจว่าความผิดปกติในการขุดข้อมูลคืออะไร ความผิดปกติประเภทต่างๆ และวิธีป้องกันการบุกรุกเครือข่ายโดยใช้เทคนิคการตรวจจับความผิดปกติแบบ ML

จากนั้น คุณสามารถสำรวจทุกอย่างเกี่ยวกับเมทริกซ์ความสับสนในแมชชีนเลิร์นนิง