คู่มือฉบับสมบูรณ์สำหรับการบันทึกข้อมูลการเปลี่ยนแปลงของเกล็ดหิมะ
เผยแพร่แล้ว: 2023-06-05ในอุตสาหกรรมการวิเคราะห์ข้อมูลที่เปลี่ยนแปลงอย่างรวดเร็วในปัจจุบัน การผสานรวมและการวิเคราะห์ที่ต้องการการเข้าถึงข้อมูลที่เชื่อถือได้แบบเรียลไทม์เป็นสิ่งสำคัญสำหรับธุรกิจที่จะเติบโต Snowflake Change Data Capture (CDC) เป็นเทคโนโลยีปฏิวัติที่ช่วยให้ธุรกิจรวบรวมและจำลองการเปลี่ยนแปลงข้อมูลได้แบบเรียลไทม์ ในคู่มือฉบับสมบูรณ์นี้ เราจะลงลึกในรายละเอียดของ Snowflake CDC สำรวจข้อดีและคุณสมบัติหลัก เรียนรู้วิธีที่ Snowflake CDC ปฏิวัติการรวมข้อมูลด้วยข้อมูลเชิงลึกแบบเรียลไทม์ กระบวนการที่ง่ายขึ้น คุณภาพข้อมูลที่ดีขึ้น และการปรับขนาด
เกล็ดหิมะคืออะไร?
Snowflake เป็นโซลูชัน Cloud Data Warehousing ร่วมสมัยที่นำเสนอเป็นบริการ SaaS ใช้โครงสร้างพื้นฐานของ Amazon Web Service, Microsoft Azure และ Google Cloud ซึ่งมีแพลตฟอร์มที่ไม่จำกัดสำหรับการจัดเก็บและดึงข้อมูล Snowflake Data Warehouse ใช้ SQL Database Engine แบบกำหนดเองที่มีโครงสร้างเฉพาะบนคลาวด์
Snowflake ไม่ต้องการอุปกรณ์และซอฟต์แวร์ใดๆ ที่คุณต้องตั้งค่าและกำหนดค่าหรือจัดการ ดังนั้นจึงเหมาะสำหรับบริษัทที่ไม่จำเป็นต้องทุ่มเททรัพยากรให้กับการบำรุงรักษาหรือการสนับสนุนการตั้งค่าเซิร์ฟเวอร์ภายใน
Snowflake CDC ทำงานอย่างไร
บทความก่อนหน้านี้อธิบายว่าเปลี่ยนการติดตามการเก็บข้อมูลเปลี่ยนผ่านสตรีมตารางใน Snowflake เพื่อให้ออบเจกต์สตรีมบันทึกการเปลี่ยนแปลง DML เช่น การแทรก การอัปเดต และการลบ เป็นประจำ จะต้องทราบวันที่และเวลาที่เข้าถึงเรกคอร์ดสตรีมครั้งล่าสุด คำตอบสำหรับปัญหานี้คือการใช้คำว่า “ชดเชย” ออฟเซ็ตคือตัวเลขที่ระบุวันที่ในช่วงเวลาตั้งแต่มีการอ่านสตรีมระหว่างการดำเนินการ
ออฟเซ็ตถูกอธิบายว่าเป็นบุ๊กมาร์กที่ถูกย้ายหรือเอาออก การชดเชยสำหรับสตรีมถูกวางไว้ระหว่างสองเวอร์ชันของตาราง ดังนั้น การใช้คิวรีสตรีมจึงส่งคืนการเปลี่ยนแปลงที่ทริกเกอร์โดยธุรกรรมที่เกิดขึ้นหลังการชดเชย แต่อยู่ภายในกรอบเวลาสำหรับคำถาม
สตรีมตารางสร้างโครงร่างของการเปลี่ยนแปลงที่เกิดขึ้นในระดับของแถว และเก็บข้อมูลนี้ไว้ที่จุดสองจุดที่ต่างกันในช่วงเวลาของออบเจกต์ที่เริ่มต้น ข้อมูลไม่ได้ถูกจัดเก็บไว้ในสตรีม แต่ใช้ข้อมูลเมตาร่วมกันและการกำหนดเวอร์ชันตาราง การชดเชยช่วยให้สามารถใช้และค้นหาบันทึกการเปลี่ยนแปลงในลักษณะการทำธุรกรรม
Change Data Capture (CDC) คืออะไร?
Change Data Capture (CDC) เป็นโซลูชันที่ยอดเยี่ยมสำหรับการจับการเคลื่อนไหวของข้อมูลที่ใกล้เคียงจริงภายในฐานข้อมูล CDC เป็นคำที่ใช้อธิบายการสะสมของรูปแบบสำหรับการออกแบบในซอฟต์แวร์ที่ใช้ในการตรวจสอบและระบุการเปลี่ยนแปลงข้อมูลภายในฐานข้อมูล
ทริกเกอร์เหตุการณ์ที่เกี่ยวข้องกับข้อมูล ซึ่งนำไปสู่กระบวนการเฉพาะที่จะดำเนินการในการบันทึกข้อมูลการเปลี่ยนแปลงใดๆ ทุกบริษัทต้องการการเข้าถึงสตรีมข้อมูลแบบเรียลไทม์เพื่อให้แน่ใจว่าการวิเคราะห์ข้อมูลมีประสิทธิภาพ CDC ให้การเคลื่อนย้ายข้อมูลใกล้เคียงกับเวลาจริงโดยการประมวลผลข้อมูลทันทีหลังจากเหตุการณ์ใหม่ในฐานข้อมูลเกิดขึ้น
เหตุการณ์จะถูกบันทึกและสตรีมแบบสดด้วย CDC และช่วยให้เกิดการจำลองข้อมูลขนาดใหญ่ที่เชื่อถือได้ เวลาแฝงต่ำ และการจำลองข้อมูลขนาดใหญ่ในสภาพแวดล้อมข้อมูลความเร็วสูง สามารถขจัดความจำเป็นในการโหลดข้อมูลขนาดใหญ่ผ่านการใช้งานการโหลดข้อมูลส่วนเพิ่ม
ด้วยวิธีนี้ คลังข้อมูลหรือฐานข้อมูลจะยังคงทำงานเพื่อดำเนินการบางอย่างเมื่อเหตุการณ์ Change Data Capture เกิดขึ้น นอกจากนี้ บริษัทต่างๆ สามารถส่งข้อมูลที่อัปเดตสำหรับซอฟต์แวร์ BI (ข่าวกรองธุรกิจ) และสมาชิกในทีมได้ในเวลาใกล้เคียงกันผ่าน CDC เพื่อให้ข้อมูลเป็นปัจจุบันอยู่เสมอ
เกล็ดหิมะ: คุณสมบัติหลัก
คุณลักษณะที่เป็นที่รู้จักและชื่นชมมากที่สุดบางประการของ Snowflake มีคำอธิบายและสรุปไว้ด้านล่างนี้
การสนับสนุน SQL แบบมาตรฐานและแบบขยาย: แม้ว่าจะใช้สถาปัตยกรรมร่วมกันและแบบ cloud-native ร่วมกัน แต่ Snowflake ก็สามารถรองรับการทำงานของ SQL Data Definition Language (DDL) และ Data Manipulation Language (DML) ได้เกือบทั้งหมด ซึ่งช่วยคำสั่ง SQL ทั่วไป เช่น INSERT UPDATE, DELETE และนอกจากนี้ ฟังก์ชันรวม เช่น ธุรกรรม กระบวนงานที่เก็บไว้ และ DML ในการโหลดและยกเลิกการโหลดข้อมูล ความเชี่ยวชาญของทีมที่ใช้ฐานข้อมูล SQL สามารถย้ายไปยัง Snowflake เพื่อลดอุปสรรคในการเข้า
การกำกับดูแลความปลอดภัย ความปลอดภัยของข้อมูล: Snowflake มีแนวทางการรักษาความปลอดภัยและการกำกับดูแลต่างๆ เพื่อปกป้องและรักษาความปลอดภัยข้อมูล ผู้ใช้สามารถเลือกตำแหน่งทางภูมิศาสตร์ที่จัดเก็บข้อมูลเพื่อให้แน่ใจว่าเป็นไปตามมาตรฐานเช่น GDPR Snowflake ยังให้การสนับสนุนสำหรับกลไกการพิสูจน์ตัวตนที่แตกต่างกัน ได้แก่:
- การรับรองความถูกต้องด้วยหลายปัจจัย (MFA)
- การรับรองความถูกต้องแบบรวมศูนย์/การลงชื่อเข้าใช้ครั้งเดียว (SSO)
- OAuth
- และอื่น ๆ อีกมากมาย
ใน Snowflake ทุกการโต้ตอบระหว่างไคลเอนต์และเซิร์ฟเวอร์ได้รับการปกป้องโดย Transport Layer Security (TLS) การควบคุมข้อมูลที่ปรับแต่งอย่างละเอียดยังมีอยู่ใน Snowflake ผ่านการควบคุมการเข้าถึงระดับออบเจกต์ เพื่อให้แน่ใจว่าผู้ใช้จะเข้าถึงได้เฉพาะข้อมูลที่ต้องการและไม่มีอะไรเพิ่มเติม
ความง่ายในการเชื่อมต่อ/ความพร้อมใช้งานของเครื่องมือ: Snowflake มีอินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI) บนเว็บสำหรับจัดการบัญชี ตรวจสอบทรัพยากร และสืบค้นข้อมูล นอกจากนี้ยังมาพร้อมกับไคลเอ็นต์ CLI ซึ่งเรียกว่า Snow SQL ซึ่งสามารถใช้เพื่อส่งคำสั่งไปยัง Snowflake โดยใช้รูปแบบการเขียนโปรแกรมหรือสคริปต์ ไดรเวอร์และตัวเชื่อมต่อที่หลากหลายสำหรับอุปกรณ์ไคลเอนต์ช่วยให้สามารถเชื่อมต่อเพื่อถ่ายโอนและรับข้อมูลจากเครื่องมืออื่นๆ
ความล้มเหลวและการจำลองฐานข้อมูล: ฐานข้อมูลภายใน Snowflake สามารถซิงค์ จำลองแบบ หรือทำซ้ำในบัญชี Snowflake หลายบัญชีในภูมิภาคต่างๆ ได้ สามารถกำหนดค่าฐานข้อมูลเพื่อแทนที่บัญชี Snowflake เฉพาะเพื่อให้ธุรกิจต่อเนื่องและเพิ่มการกู้คืนระบบ
ทำไมต้องใช้สตรีมในเกล็ดหิมะ
สตรีมของ Snowflake หรือสตรีมตารางเป็นวัตถุที่ติดตามการเปลี่ยนแปลง DML ไปยังแหล่งที่มาของวัตถุ ใช้ข้อมูลเมตาที่เกี่ยวข้องกับการเปลี่ยนแปลงเพื่ออนุญาตให้มีการดำเนินการเกี่ยวกับข้อมูลที่แก้ไข สตรีมสามารถให้การเปลี่ยนแปลงจำนวนเล็กน้อยโดยใช้การชดเชยที่ได้รับจากตำแหน่งปัจจุบันไปยังตารางรุ่นล่าสุด หากสตรีมสามารถสืบค้นได้ สตรีมจะให้ข้อมูลประวัติในรูปแบบและชื่อของออบเจกต์ต้นฉบับ พร้อมด้วยคอลัมน์อื่นๆ ที่ให้รายละเอียดเพิ่มเติมเกี่ยวกับประเภทของการเปลี่ยนแปลง
ในฐานะส่วนหนึ่งของ Snowflake สตรีมช่วยในการบันทึกการเปลี่ยนแปลงข้อมูลภายในตารางต้นฉบับและตารางต้นฉบับเอง การสร้างสตรีมใน Snowflake มีราคาไม่แพงเนื่องจากข้อมูลไม่ได้ถูกจัดเก็บไว้ในวัตถุสตรีม
บรรทัดล่าง
กล่าวโดยสรุป Snowflake Change Data Capture (CDC) เป็นเทคโนโลยีปฏิวัติวงการที่ช่วยให้สามารถรวมข้อมูลแบบเรียลไทม์และวิเคราะห์ได้ ด้วยคุณประโยชน์ คุณลักษณะ และสถานการณ์การใช้งานจริง Snowflake CDC ช่วยให้ธุรกิจต่างๆ เข้าถึงข้อมูลได้ทันที กระบวนการที่ง่ายขึ้น ข้อมูลที่มีคุณภาพดีขึ้น และความสามารถในการปรับขนาด
ด้วยความช่วยเหลือของ Snowflake CDC องค์กรต่างๆ สามารถตัดสินใจโดยใช้ข้อมูล ปรับปรุงการรายงานการปฏิบัติงาน และสร้างข่าวกรองธุรกิจ ใช้ Snowflake CDC เพื่อขับเคลื่อนธุรกิจของคุณให้มีประสิทธิภาพและความสำเร็จมากขึ้นตามข้อมูล