العلم وراء البحث عن المتجهات: كيف يغير عملية استرجاع المعلومات

نشرت: 2023-09-13

لقد أدى النمو الهائل للبيانات في مراكز البيانات والمستودعات عبر الإنترنت اليوم إلى بداية حقبة جديدة من تحديات إدارة المعلومات للمؤسسات. وبعيدًا عن سعة التخزين الهائلة، أصبح الاسترجاع الفعال لهذه المجموعة الهائلة من البيانات الضخمة مصدر قلق بالغ. لقد ظهرت خوارزميات البحث المتجه كحل تحويلي يمكّن المؤسسات من التنقل في هذا الطوفان من البيانات بفعالية. تتعمق هذه المقالة في التأثير الذي يغير قواعد اللعبة للبحث المتجه، مما يحدث ثورة في الطريقة التي نصل بها إلى البيانات وتسخيرها عبر الويب.

كيف يعمل البحث المتجه؟

الآن بعد أن أصبح لدينا فكرة عن ماهية البيانات الضخمة والبحث المتجه، دعونا نرى كيف يعمل بالضبط.

تقوم محركات البحث المتجهة - المعروفة باسم قاعدة البيانات المتجهة أو البحث الدلالي أو جيب التمام - بالبحث عن أقرب جيران لاستعلام (متجه) معين.

هناك ثلاث طرق أساسية لخوارزمية البحث المتجه، دعونا نناقش كل واحدة منها واحدة تلو الأخرى.

تضمين المتجهات

ألن يكون من السهل تخزين البيانات في نموذج واحد فقط؟ بالتفكير في الأمر، فإن قاعدة البيانات التي تحتوي على نقاط بيانات في نموذج واحد ثابت ستجعل تنفيذ العمليات والحسابات على قاعدة البيانات أسهل بكثير وأكثر كفاءة. في بحث المتجهات، يعد تضمين المتجهات هو الطريقة التي يمكن بها القيام بذلك. تضمينات المتجهات هي التمثيل الرقمي للبيانات والسياق ذي الصلة، المخزنة في ناقلات (كثيفة) ذات أبعاد عالية.

نقاط التشابه

هناك طريقة أخرى للبحث المتجه والتي تعمل على تبسيط مقارنة مجموعتي بيانات وهي درجة التشابه. فكرة درجة التشابه هي أنه إذا كانت نقطتا البيانات متشابهتين، فسيكون تمثيلهما المتجهي متشابهًا أيضًا. من خلال فهرسة كل من الاستعلامات والمستندات باستخدام تضمينات متجهة، يمكنك العثور على مستندات مشابهة لأقرب المستندات المجاورة لاستعلامك.

خوارزمية آن

تعد خوارزمية ANN طريقة أخرى لحساب التشابه بين مجموعتي بيانات. السبب وراء كفاءة خوارزمية ANN هو أنها تضحي بالدقة الكاملة مقابل التنفيذ بكفاءة في مساحات التضمين عالية الأبعاد، على نطاق واسع. وهذا يثبت فعاليته مقارنة بخوارزميات الجوار الأقرب التقليدية مثل خوارزمية k-nearest neighbour (kNN) التي تؤدي إلى أوقات تنفيذ مفرطة وتستهلك الموارد الحسابية.

بحث المتجهات مقابل البحث التقليدي

إن النظر إلى تحليل تفصيلي للتمييز بين البحث المتجه والبحث التقليدي سيوفر طريقة للحصول على فهم أفضل لكيفية إحداث Vector Search ثورة في خوارزميات البحث واسترجاع المعلومات.

وجه بحث المتجهات البحث التقليدي
نهج الاستعلام الفهم الدلالي للسياق والمعنى تعتمد على الكلمات الرئيسية مع المطابقة التامة
تقنية المطابقة مطابقة التشابه بين المتجهات مطابقة السلسلة على أساس الكلمات الرئيسية
الوعي بالسياق عالي ويفهم السياق والنية محدودة، وتعتمد على كلمات رئيسية محددة
التعامل مع الغموض يعالج تعدد المعاني وغموض الكلمات عرضة لغموض الكلمات الرئيسية
أنواع البيانات متعدد الاستخدامات، ويعمل مع أنواع البيانات المختلفة البحث القائم على النص في المقام الأول
كفاءة فعالة ومناسبة لمجموعات البيانات الكبيرة قد تصبح أقل فعالية مثل مقاييس البيانات
أمثلة توصية المحتوى، البحث عن الصور بحث الويب القياسي واستعلامات قاعدة البيانات

كيف يتم إنشاء تمثيلات المتجهات لعناصر البيانات؟

من الجيد أن تكون خوارزميات البحث المتجهة هي الطريقة الجديدة والأسرع لاسترداد المعلومات على الويب، ولكن ما مدى دقة تمثيل عنصر البيانات كمتجه في قاعدة البيانات؟ نماذج الفضاء المتجه هي التي تتيح لمهندسي البيانات تخزين عناصر البيانات كمتجهات في مساحة متعددة الأبعاد.

يعد اختيار نموذج الفضاء المتجه المناسب أمرًا بالغ الأهمية لأن الاختيار الخاطئ قد يؤدي إلى عدم الدقة وعدم الكفاءة في البيانات.

تختلف عملية تحويل المتجهات لعناصر البيانات حسب نوع البيانات الخاصة بها. وفيما يلي شرح موجز لكيفية تحويل عناصر البيانات المختلفة إلى ناقلات.

بيانات النص

  • للبدء في تحويل البيانات النصية إلى ناقل، يجب أن يكون النص مميزًا، مما يعني أنه يجب تقسيم النص إلى وحدات أصغر مثل الكلمات أو العبارات.
  • بعد ذلك تأتي بعض خطوات المعالجة المسبقة للنص مثل القطع والترجمة.
  • في الخطوة التالية، يتم تحويل هذه الرموز إلى ناقلات رقمية.

بيانات الصورة

  • من أجل تعيين الصور كمتجهات، يجب استخراج ميزات الصورة. الشبكات العصبية التلافيفية (CNNs) هي بعض نماذج التعلم العميق المعروفة التي تُستخدم لاستخراج ميزات الصور عالية الوضوح.
  • هذه الميزات هي بالضرورة الحواف والأنسجة والأشكال في الصورة.
  • يمكن بعد ذلك بسهولة تحويل هذه الميزات إلى نظيرات رقمية كمتجهات.

البيانات المنظمة

  • شكل آخر من البيانات هو البيانات المنظمة التي يتم تخزينها عادة في شكل صفوف وأعمدة.
  • يتم استخراج الميزات من هذا التنسيق عن طريق اختيار الأعمدة الأكثر إفادة من مجموعة البيانات.
  • يجب ضغط القيم الرقمية التي يتم استردادها في نطاق قابل للتطبيق، ولهذا يتم تطبيق التطبيع على البيانات الرقمية قبل تعيينها إلى متجه.

الاتجاهات المستقبلية في البحث عن المتجهات

مع التطورات المستمرة في مجال الذكاء الاصطناعي والتعلم الآلي، فإن هذا العلم الكامل لخوارزميات البحث عن المتجهات والتعلم الآلي سوف يتوسع أكثر. تعد إدارة كميات ضخمة من البيانات المعروفة أيضًا باسم البيانات الضخمة تحديًا حقيقيًا لمعظم المؤسسات في يومنا هذا. سوف يعتني مجال بحث المتجهات وخوارزميات البحث المقابلة بكل هذه الاهتمامات في المستقبل القريب.

بعض المفاهيم الجديدة والمتقدمة التي قد نراها في الاتجاهات المستقبلية القريبة لبحث المتجهات هي:

  1. بحث متعدد الوسائط
  2. البحث عبر الوسائط
  3. نماذج هجينة
  4. التعلم بالقليل من اللقطات
  5. الذكاء الاصطناعي القابل للتفسير
  6. التعلم الاتحادي
  7. التخصيص المحسن
  8. التكامل مع الرسوم البيانية المعرفية
  9. البحث الدلالي عن الكود
  10. البحث الصوتي والمحادثة
  11. الذكاء الاصطناعي الأخلاقي والعدالة

الاعتبارات الأخلاقية مع الذكاء الاصطناعي

انتبه إلى النقطة الأخيرة المذكورة في الاتجاهات المستقبلية لبحث المتجهات. في حين أن الذكاء الاصطناعي يمكن أن يكون مفيدًا حقًا لتحقيق الكفاءة والدقة، إلا أن التحقيق المناسب مطلوب للحفاظ على الأنشطة الأخلاقية تحت السيطرة. في الآونة الأخيرة، اقترح الرئيس التنفيذي لشركة OpenAI، سام ألتمان، أن هذا هو الوقت المناسب الآن لتعيين لجنة تكون مسؤولة عن التحقق مما إذا كانت ممارسات الذكاء الاصطناعي التي يتم تنفيذها غير أخلاقية. تتضمن الآثار الأخلاقية المتعلقة بالبحث عن المتجهات مخاوف تتعلق بالخصوصية والتحيز في النتائج. فقط عندما تؤخذ هذه الجوانب الأخلاقية في الاعتبار، يمكننا أن نقول حقًا أن الذكاء الاصطناعي هو في الواقع "ذكي". ومن أجل القيام بذلك، يجب تقديم وتنفيذ أفضل الممارسات لمعالجة هذه القضايا الأخلاقية.