25 de statistici de recunoaștere a imaginilor pentru a dezvălui pixelii din spatele tehnologiei

Publicat: 2023-10-09

Calculatoarele moderne învață să vadă la fel ca oamenii, iar tehnologia de recunoaștere a imaginilor face posibilă acest lucru.

Rețelele neuronale se află în centrul acestei tehnologii. Învață din date și recunoaște tipare. Pe măsură ce furnizați mai multe date despre obiecte, fețe și chiar emoții, devine mai bun la „vederea” și înțelegerea unei imagini.

Recunoașterea imaginilor este un subset al vederii computerizate și al inteligenței artificiale (AI). Include tehnici și algoritmi care etichetează și clasifică conținutul unei imagini.

La baza sa, tehnologia abia începe să evolueze, dar multe organizații au început deja să folosească software de recunoaștere a imaginilor pentru a antrena modele și pentru a adăuga capabilități de recunoaștere a unei imagini în alte platforme software. În zilele noastre, recunoașterea imaginilor ajută la diagnosticarea medicală, la găsirea persoanelor rătăcite și chiar la transformarea în realitate a mașinilor cu conducere autonomă.

Potențialul pieței este vast și se extinde continuu pentru a pătrunde în noi industrii. Să explorăm aceste statistici și să vedem ce este nou în recunoașterea imaginilor.

Statisticile pieței de recunoaștere a imaginii

Piața de recunoaștere a imaginii crește rapid și devine populară în sectoarele de retail, asistență medicală și securitate. Inteligența artificială și învățarea automată sunt motorii principali ai creșterii pieței. Pe baza statisticilor de mai jos, orice oportunitate pe piața de recunoaștere a imaginii ar putea fi promițătoare între 2023 și 2030.

Vezi cum arată statisticile.

Piața globală de recunoaștere a imaginii este de așteptat să arate o rată de creștere anuală compusă (CAGR) de 10,42% din 2023 până în 2030.
Dimensiunea pieței de recunoaștere a imaginii din SUA este de așteptat să fie cea mai mare, evaluată la 3,94 miliarde de dolari în 2023.

10,53 miliarde de dolari

este valoarea proiectată a pieței de recunoaștere a imaginii pentru 2023.

Sursa: Statista

Dimensiunea pieței de recunoaștere a imaginii din America de Nord a crescut cu 11,86% în 2023.
Piața de recunoaștere a imaginii din Australia este estimată să ajungă la 280 de milioane de dolari în 2023.
America de Sud arată o creștere semnificativă a dimensiunii pieței de 20,26% în 2023.
Dimensiunea pieței globale de recunoaștere a imaginii AI a fost evaluată la 3330,67 milioane USD în 2022 și este de așteptat să se extindă la o CAGR de 24,91% pentru a ajunge la 12652,88 milioane în 2028.
Piața de recunoaștere a imaginii din Asia este relativ mai mică, cu o dimensiune de 2,57 miliarde de dolari în 2023.
Dimensiunea pieței de recunoaștere a imaginii din Europa Centrală și de Vest este și mai mică, la 1,88 miliarde USD în 2023.
CAGR-ul estimat al pieței de recunoaștere a imaginii din SUA din 2023 până în 2030 este de 7,86%.

Statistica tehnologiei de recunoaștere a imaginilor

Învățarea profundă are un rol principal în tehnologia de recunoaștere a imaginilor. Modelele populare de învățare profundă precum You Only Look Once (YOLO) și Single-Shot Detector (SSD) folosesc straturi de convoluție pentru a analiza imagini sau fotografii digitale. Tehnicile și modelele de deep learning vor continua să se îmbunătățească în 2023, făcând recunoașterea imaginilor mai simplă și mai precisă.

În plus, algoritmi precum transformarea caracteristicilor invariante la scară (SIFT), caracteristicile robuste accelerate (SURF) și modelele de recunoaștere a imaginii de analiză a componentelor principale (PCA) citesc, procesează și livrează.

Ecosistemul tehnologic din jurul recunoașterii imaginilor se schimbă rapid. Aceste statistici vă vor actualiza cu privire la cele mai recente aspecte din partea tehnologiei.

Laboratorul de Informatică și Inteligență Artificială (CSAIL) al MIT a dezvoltat un Encoder Generativ Mascat (MAGE) pentru a deduce părțile lipsă ale unei imagini. A atins o acuratețe de 80,9% la sondarea liniară și a identificat corect imaginile în 71,9% din cazuri când i s-au dat zece exemple etichetate din fiecare clasă.
Object365, un set de date de detectare a obiectelor la scară largă, a fost instruit cu peste 600.000 de imagini.

1.000 de imagini

din fiecare clasă sunt necesare pentru instruirea sistemelor de detectare și recunoaștere a imaginilor și obiectelor.

Sursa: IBM

1 până la 2 megapixeli este ideal atunci când imaginile nu au nevoie de detalii fine pentru detectarea obiectelor. Dacă imaginile necesită detalii fine, acestea sunt împărțite în imagini de 1-2 megapixeli fiecare.
Sistemele mari și puternice de recunoaștere a imaginii pot gestiona 1000 de cadre pe secundă (FPS). În schimb, sistemele comune de recunoaștere a imaginii procesează la 100 FPS.
Cel mai mare set de date disponibil public pentru antrenarea modelelor de recunoaștere a imaginilor este IMDB-Wiki, cu peste 500.000 de imagini cu fețe umane.
Berkeley Deep Drive (BDD110K) este cel mai mare set de date video de condus variat. Are peste 100.000 de videoclipuri adnotate pentru sarcini de percepție în conducerea autonomă.
Recunoașterea imaginii constă din trei straturi - intrare, ascuns și ieșire. Stratul de intrare captează semnalul, stratul ascuns îl procesează, iar stratul de ieșire decide ce este.
O imagine color are o adâncime cuprinsă între 8 și 24 sau mai mare. Într-o imagine pe 24 de biți, există trei grupări: 8 pentru roșu, 8 pentru verde și 8 pentru albastru. Combinația acestor biți reprezintă alte culori.
4 statistici de ordinul întâi (medie, varianță, asimetrie și curtoză) și 5 statistici de ordinul doi (al doilea moment unghiular, contrast, corelație, omogenitate și entropie) reprezintă caracteristicile textuale ale unei imagini.

Statistici privind acuratețea sistemului de recunoaștere a imaginilor

Cu rețelele neuronale convoluționale (CNN), nivelul de acuratețe al recunoașterii imaginilor a crescut. Totuși, provocări precum deformarea, variația obiectelor din aceeași clasă și ocluzia pot afecta acuratețea sistemului. (Ocluzia apare atunci când un obiect ascunde o parte a unui obiect diferit din imagine.)

În ciuda acestor potențiale eșecuri, sistemele de recunoaștere a imaginii prezintă niveluri incredibil de ridicate de certitudine. Explorați aceste statistici pentru a înțelege la ce precizie vă puteți aștepta de la un software de recunoaștere a imaginii și cât de mare este spațiul de eroare.

Rata medie de eroare pentru toate seturile de date în recunoașterea imaginilor este de 3,4%.
Rata de eroare de top 5 în recunoașterea imaginilor se referă la procentul de ori în care o etichetă țintă nu apare printre cele cinci predicții cu cea mai mare probabilitate. Multe tehnici nu pot ajunge sub 25%.

6%

este rata medie de eroare pentru setul de date ImageNet, care este utilizat pe scară largă în sistemele de recunoaștere a imaginilor dezvoltate de Google și Facebook.

Sursa: MIT

Nivelul de precizie aproximativ al instrumentelor de recunoaștere a imaginii este de 95%. Acest lucru se datorează dezvoltării CNN și a altor rețele neuronale profunde bazate pe caracteristici.
YOLOv7 este cel mai eficient model precis de detectare a obiectelor în timp real pentru sarcinile de viziune pe computer.

Surse:

Statista
Yahoo
IBM
Despre circuite
Viso
Altexsoft
V7labs
HackerNoon

De la pixeli la modele

Statisticile de mai sus arată clar că piața de recunoaștere a imaginii se află pe o traiectorie de creștere din 2023 până în 2030. Tehnologia evoluează și își mărește acuratețea cu noi actualizări și progrese. Dar creșterea nu este exclusivă recunoașterii imaginii. Întreaga zonă a vederii computerizate se extinde în dimensiunea pieței și în adoptare. Pe măsură ce valoarea de piață crește, companiile care își găsesc un loc în sectorul recunoașterii imaginii vor beneficia.

Aflați mai multe despre viziunea computerizată și înțelegeți modul în care mașinile interpretează lumea vizuală.