สิ่งที่คุณต้องรู้เกี่ยวกับคำอธิบายประกอบรูปภาพในการเรียนรู้ของเครื่อง

เผยแพร่แล้ว: 2022-11-09

ระบบคอมพิวเตอร์ไม่สามารถตรวจหา จัดประเภท และระบุรูปภาพโดยเนื้อแท้ได้ ซึ่งแตกต่างจากมนุษย์ อย่างไรก็ตาม ความก้าวหน้าทางเทคโนโลยีทำให้งานเหล่านี้เป็นไปได้ผ่านการมองเห็นของคอมพิวเตอร์

ในฐานะที่เป็นหนึ่งในแขนงต่างๆ ของปัญญาประดิษฐ์ คอมพิวเตอร์วิทัศน์อาศัยโมเดลแมชชีนเลิร์นนิงภายใต้การดูแลเพื่อดู ระบุ และประมวลผลข้อมูลจากอินพุตภาพ มันเลียนแบบปฏิกิริยาของบุคคลเมื่อมองดูสิ่งเร้า

โพสต์ที่เกี่ยวข้อง: Freebie PDF Editor และ Annotator พร้อมรับประกันคุณภาพ – UPDF

บริษัทผู้ผลิตที่มีชื่อเสียง เช่น รถยนต์ โดรน และอุปกรณ์ทางการแพทย์ ได้รวมเทคโนโลยีนี้เข้ากับผลิตภัณฑ์ของตน ในขณะที่สาขาเกิดใหม่ มูลค่าของภาคส่วนนี้ก็ไม่ได้ปานกลาง โดยประเมินไว้ที่ 11.7 พันล้านเหรียญสหรัฐในปี 2564 ภาคส่วนนี้อาจสูงถึง 21.3 พันล้านเหรียญสหรัฐภายในปี 2573 หากอุตสาหกรรมเติบโตในอัตราทบต้นที่ 6.9% ตั้งแต่ปีนี้

หากคุณสงสัยเกี่ยวกับเรื่องนี้ คุณมาถูกที่แล้ว อ่านต่อเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับคำอธิบายประกอบรูปภาพ โดยเริ่มจากคำถามที่ชัดเจนที่สุด

คำอธิบายประกอบภาพคืออะไร?

คำอธิบายประกอบรูปภาพหมายถึงกระบวนการที่รวมรูปภาพติดฉลากที่โดยทั่วไปเริ่มต้นด้วยอินพุตของมนุษย์และแพลตฟอร์มเครื่องมือคำอธิบายประกอบรูปภาพ เครื่องมือนี้อำนวยความสะดวกในการเพิ่มข้อมูลลงในรูปภาพดิจิทัล ซึ่งจากนั้นจะประมวลผลโดยอัลกอริทึมการเรียนรู้ของเครื่องที่ทำงานเกี่ยวกับการเรียนรู้เชิงลึก

กระบวนการนี้สร้างข้อมูลเมตาโดยบอกเครื่องว่ามีวัตถุใดบ้าง การติดฉลากยังรวมถึงการให้ข้อมูลว่าสิ่งต่างๆ ในภาพเกี่ยวข้องกันอย่างไร คำอธิบายประกอบรูปภาพเป็นงานที่สำคัญที่สุดในการเตรียมโมเดลแมชชีนเลิร์นนิงสำหรับคอมพิวเตอร์วิทัศน์ พูดง่ายๆ คือช่วยให้เครื่องมองเห็นและประมวลผลภาพได้

มันทำงานอย่างไร?

การเรียนรู้เชิงลึกมักทำงานบนโครงข่ายประสาทเทียมหรือ ANN โมเดลนี้ทำงานคล้ายกับเส้นประสาทในสมองของมนุษย์ ทำให้เครื่องจักรสามารถปรับและปรับเปลี่ยนเอาต์พุตได้เหมือนกับมนุษย์ ส่วนย่อยของ CNN (Convolution Neural Networks) มักใช้ในการแก้ปัญหาเกี่ยวกับการมองเห็นของคอมพิวเตอร์

ด้วยข้อมูลคุณภาพสูงและแพลตฟอร์มที่เหมาะสมในการฝึกอบรม โมเดลสามารถระบุและจัดประเภทคุณลักษณะและออบเจกต์ จากนั้นจึงสร้างคำอธิบายตามวิธีการสอน

นั่นคือความสำคัญของเครือข่ายประสาทเทียม (ANNs) ในการสร้างรากฐานสำหรับโมเดลแมชชีนเลิร์นนิงและแพลตฟอร์มปัญญาประดิษฐ์อื่นๆ

คำอธิบายประกอบรูปภาพประเภทต่างๆ

วิศวกรแมชชีนเลิร์นนิงและสมาชิกในทีมใช้คำอธิบายประกอบประเภทต่างๆ สำหรับโครงการเฉพาะ ด้านล่างนี้เป็นวิธีการทั่วไปในการติดฉลากภาพดิจิทัล:

1. คำอธิบายประกอบกล่องขอบ

คำอธิบายประกอบจะวาดกล่องรอบๆ วัตถุใดๆ ที่พวกเขาต้องการติดป้ายกำกับภายในรูปภาพเฉพาะ มักใช้ในการฝึกอัลกอริทึมให้จดจำสิ่งต่างๆ เช่น รถยนต์ คน สัตว์ พืช และอื่นๆ อีกมากมาย

การติดฉลากอาจรวมถึงวัตถุเป้าหมายเดียว เช่น ยานยนต์ทั้งหมดในภาพ บางครั้งอาจประกอบด้วยหลายรายการหรือทั้งหมดในรูปภาพ ตัวอย่างเช่น นอกจากการจดจำรถยนต์แล้ว วิธีการประมวลผลอาจรวมถึงวัตถุอื่นๆ ในภาพด้วย จากแบบจำลองข้างต้น นอกจากรถยนต์แล้ว ทีมงานยังสามารถติดป้ายถนน ป้ายจราจร คนเดินเท้า และอื่นๆ

Bounding box annotations Image Annotation

คำอธิบายประกอบกล่องขอบขั้นสูงเพิ่มเติมประกอบด้วยการติดฉลากแบบลูกบาศก์หรือ 3 มิติ ซึ่งแสดงความลึกหรือระยะทางโดยประมาณของวัตถุเป้าหมายจากวัตถุอื่น

2. คำอธิบายประกอบรูปหลายเหลี่ยม

ในคำอธิบายประกอบ ต้องระบุขอบเขตของวัตถุเพื่อให้อัลกอริทึมสามารถติดป้ายกำกับรายการได้แม่นยำยิ่งขึ้น น่าเสียดายที่วัตถุเป้าหมายที่มีรูปร่างผิดปกติอาจเป็นเรื่องยากที่จะวางในกล่องที่มีขอบเขต คำอธิบายประกอบรูปหลายเหลี่ยมเป็นทางออกที่ดี เนื่องจากช่วยให้ขอบทั้งหมดของรายการแสดงได้อย่างถูกต้อง

คำอธิบายประกอบรูปหลายเหลี่ยมสามารถใช้ในแอปพลิเคชันการจดจำใบหน้า และอื่น ๆ อีกมากมาย คล้ายกับการทำงานของแอปพลิเคชันโซเชียลมีเดียของคุณเมื่อคุณอัปโหลดรูปภาพและเลือกแท็กเพื่อนของคุณโดยอัตโนมัติ

3. การจำแนกภาพ

คำอธิบายประกอบประเภทนี้อาศัยอัลกอริทึมในการระบุและจำแนกรูปภาพอย่างเหมาะสม เครื่องได้รับการตั้งโปรแกรมให้เชื่อมโยงวัตถุหนึ่งชิ้นและติดฉลากในลักษณะเดียวกันด้วยวิธีนี้

ประเภทนี้มีประโยชน์เมื่อต้องการแอปพลิเคชันที่จัดหมวดหมู่สิ่งของต่างๆ อย่างถูกต้อง เช่น ชนิดของสิ่งมีชีวิต การจำแนกภาพยังสามารถใช้เพื่อระบุความผิดปกติภายในร่างกายมนุษย์ได้ เช่นเดียวกับระบบภาพทางการแพทย์ กุญแจสำคัญในการจัดประเภทรูปภาพที่ประสบความสำเร็จคือการป้อนข้อมูลคุณภาพสูงลงในโมเดลและฝึกฝนให้จัดหมวดหมู่รูปภาพได้อย่างมีประสิทธิภาพมากขึ้น

4. คำอธิบายประกอบ Polylines

วิธีการอธิบายประกอบนี้หมายถึงการติดฉลากบนภาพที่มีเส้นตรงและเส้นโค้ง วิธีการอธิบายประกอบนี้ช่วยกำหนดขอบเขตและตรวจจับเส้นถนนและทางเท้า ทำให้มีประโยชน์ในการใช้งานด้านการจราจรและยานยนต์อัตโนมัติ อัลกอริธึมการเรียนรู้ของเครื่องภายใต้โมเดลนี้สามารถฝึกหุ่นยนต์ให้วางหรือบรรจุสิ่งของอย่างเป็นระเบียบในแถวในสายการผลิต

5. การแบ่งส่วนความหมาย

แทนที่จะเน้นที่วัตถุ ทีมงานสามารถติดป้ายกำกับภาพถ่ายดิจิทัลโดยใช้พิกเซล นั่นเป็นเหตุผลว่าทำไมจึงเรียกอีกอย่างว่าการสร้างเม็ดสีในรูปภาพ

ในกระบวนการฝึกอบรม ML นี้ ทีมคำอธิบายประกอบจะได้รับป้ายกำกับกลุ่มแทนชื่อวัตถุและแท็ก แต่ละส่วนได้รับการกำหนดสีเฉพาะ และผู้อธิบายควรวาดรอบๆ ระบุพิกเซล และวางแท็กหรือป้ายกำกับที่เหมาะสม

แอปพลิเคชันอุตสาหกรรมคำอธิบายประกอบรูปภาพ

คอมพิวเตอร์วิทัศน์ถูกนำมาใช้ในงานอุตสาหกรรมหลายแห่งทั่วโลก ตลาดแบ่งออกเป็นฮาร์ดแวร์ ซอฟต์แวร์ และบริการ ในบรรดาส่วนย่อยเหล่านี้ ฮาร์ดแวร์คาดว่าจะได้รับส่วนแบ่งรายได้จากส่วนย่อยเหล่านี้ ในขณะที่ผู้ผลิตสร้างผลิตภัณฑ์ขั้นสูงขึ้น ตัวเขียนคำอธิบายประกอบสามารถเพิ่มความแม่นยำในการมองเห็นของคอมพิวเตอร์เพื่อรองรับการทำงานทางอุตสาหกรรมมากขึ้น เช่น:

การจดจำใบหน้า
ยานพาหนะที่เป็นอิสระ
ยานบินไร้คนขับหรือโดรน
ผลิตหุ่นยนต์
แอปพลิเคชันความปลอดภัยทางไซเบอร์
ระบบรักษาความปลอดภัยและการเฝ้าระวัง
ระบบภาพสุขภาพ
อีคอมเมิร์ซและการแบ่งกลุ่มลูกค้ารายย่อย

รายการนี้ไม่ครบถ้วนสมบูรณ์เนื่องจากการใช้การมองเห็นของคอมพิวเตอร์ยังคงขยายตัวอย่างต่อเนื่อง

บทสรุป

การนำคอมพิวเตอร์วิทัศน์มาใช้ในฟังก์ชันต่างๆ เช่น แอปพลิเคชันการรักษาความปลอดภัยในโลกไซเบอร์และระบบภาพด้านสุขภาพมีการลงทุนจำนวนมาก ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องทำให้ถูกต้องตั้งแต่ครั้งแรก

โครงการคำอธิบายประกอบภาพมีความสำคัญอย่างยิ่งในโครงการคอมพิวเตอร์วิทัศน์ เนื่องจากเป็นการฝึกโมเดลการเรียนรู้ของเครื่อง ชุดข้อมูลการฝึกอบรมควรแม่นยำและมีคุณภาพสูงสำหรับโมเดล ML ที่ประสบความสำเร็จ ที่สำคัญกว่านั้น ทีมงานโครงการต้องรู้จักเครื่องมือและวิธีการเขียนคำอธิบายประกอบที่เหมาะสมเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

อ้างอิง

1. https://www.techtarget.com/searchenterpriseai/definition/convolutional-neural-network

2. https://www.techopedia.com/definition/5967/artificial-neural-network-ann

3. https://www.geeksforgeeks.org/how-to-draw-bounding-boxes-on-an-image-in-pytorch/?ref=gcse

4. https://www.cnet.com/tech/tech-industry/facial-recognition-is-getting-better-at-making-matches-around-face-masks/