EfficientDet: Prema Skalabilnom I Učinkovitom Otkrivanju Objekata

Sadržaj:

EfficientDet: Prema Skalabilnom I Učinkovitom Otkrivanju Objekata
EfficientDet: Prema Skalabilnom I Učinkovitom Otkrivanju Objekata

Video: EfficientDet: Prema Skalabilnom I Učinkovitom Otkrivanju Objekata

Video: EfficientDet: Prema Skalabilnom I Učinkovitom Otkrivanju Objekata
Video: [DeepReader] EfficientDet: масштабируемое и эффективное обнаружение объектов 2024, Studeni
Anonim

Kao jedna od glavnih aplikacija u računalnom vidu, otkrivanje predmeta postaje sve važnije u scenarijima koji zahtijevaju visoku preciznost, ali imaju ograničene računalne resurse, poput robotike i automobila bez vozača. Nažalost, mnogi moderni precizni detektori ne udovoljavaju tim ograničenjima. Što je još važnije, aplikacije za otkrivanje stvarnih objekata rade na različitim platformama, koje često zahtijevaju različite resurse.

Skalabilno i učinkovito otkrivanje objekata
Skalabilno i učinkovito otkrivanje objekata

Dakle, prirodno je pitanje kako dizajnirati točne i učinkovite detektore objekata koji se također mogu prilagoditi širokom rasponu ograničenja resursa?

EfficientDet: skalabilno i učinkovito otkrivanje objekata, usvojeno na CVPR 2020, predstavlja novu obitelj skalabilnih i učinkovitih detektora predmeta. Nadovezujući se na prethodni rad na skaliranju neuronskih mreža (EfficientNet) i ugrađujući novu dvosmjernu funkcionalnu mrežu (BiFPN) i nova pravila skaliranja, EfficientDet postiže modernu preciznost dok je 9 puta manji i koristi znatno manje proračuna od poznatih modernih detektora. Sljedeća slika prikazuje opću mrežnu arhitekturu modela.

Slika
Slika

Optimizacija arhitekture modela

Ideja koja stoji iza EfficientDet-a proizlazi iz napora da se pronađu rješenja za poboljšanje računalne učinkovitosti sustavnim ispitivanjem prethodnih najmodernijih modela detekcije. Općenito, detektori predmeta imaju tri glavne komponente: okosnicu koja izvlači značajke iz zadane slike; mreža objekata koja uzima više razina funkcija iz okosnice kao ulaz i izlazi popis kombiniranih funkcija koje predstavljaju karakteristične karakteristike slike; i konačna mreža klasa / kutija koja koristi kombinirane funkcije za predviđanje klase i mjesta svakog objekta.

Nakon pregleda mogućnosti dizajna za ove komponente, identificirali smo nekoliko ključnih optimizacija za poboljšanje performansi i učinkovitosti. Prethodni detektori uglavnom koriste ResNets, ResNeXt ili AmoebaNet kao okosnice, koje su ili manje moćne ili imaju nižu učinkovitost od EfficientNets-a. Početnom implementacijom okosnice EfficientNet može se postići mnogo veća učinkovitost. Na primjer, počevši s osnovnom linijom RetinaNet koja koristi okosnicu ResNet-50, naša studija ablacije pokazuje da jednostavna zamjena ResNet-50 s EfficientNet-B3 može poboljšati točnost za 3%, a računanje smanjiti za 20%. Druga je optimizacija poboljšanje učinkovitosti funkcionalnih mreža. Iako većina prethodnih detektora jednostavno koristi piramidnu mrežu Downlink (FPN), otkrivamo da je nizvodni FPN u osnovi ograničen na jednosmjerni protok informacija. Alternativni FPN-ovi poput PANet-a dodaju dodatne uzvodno uz cijenu dodatnih izračuna.

Nedavni pokušaji korištenja pretraživanja neuronske arhitekture (NAS) otkrili su složeniju NAS-FPN arhitekturu. Međutim, iako je ova mrežna struktura učinkovita, ona je također nepravilna i visoko optimizirana za određeni zadatak, što otežava prilagodbu drugim zadacima. Da bismo riješili ove probleme, predlažemo novu mrežu dvosmjernih funkcija BiFPN, koja provodi ideju kombiniranja višeslojnih funkcija s FPN / PANet / NAS-FPN, što omogućuje prijenos informacija od vrha do dna i odozdo prema gore. koristeći redovite i učinkovite veze.

Slika
Slika

Kako bismo dodatno poboljšali učinkovitost, predlažemo novu brzo normaliziranu tehniku sinteze. Tradicionalni pristupi obično tretiraju sve ulaze u FPN na isti način, čak i u različitim rezolucijama. Međutim, primjećujemo da ulazne značajke s različitim rezolucijama često nejednako doprinose izlaznim funkcijama. Stoga dodajemo dodatnu težinu svakoj ulaznoj funkciji i prepuštamo mreži da nauči važnost svake od njih. Također ćemo zamijeniti sve redovite savijanje jeftinijim, duboko odvojivim konvolucijama. Ovom optimizacijom naš BiFPN dodatno poboljšava točnost za 4%, istovremeno smanjujući računske troškove za 50%.

Treća optimizacija uključuje postizanje najboljeg kompromisa između točnosti i učinkovitosti pod različitim ograničenjima resursa. Naš prethodni rad pokazao je da međusobno skaliranje dubine, širine i razlučivosti mreže može značajno poboljšati performanse prepoznavanja slike. Inspirirani ovom idejom, predlažemo novu metodu kompozitnog skaliranja za detektore objekata koja kolektivno povećava razlučivost / dubinu / širinu. Svaka mrežna komponenta, tj. Okosnica, objekt i mreža predviđanja bloka / klase, imat će jedan složeni faktor skaliranja koji kontrolira sve dimenzije skaliranja pomoću heurističkih pravila. Ovaj pristup olakšava određivanje načina skaliranja modela izračunavanjem faktora razmjere za dano ograničenje ciljanih resursa.

Kombinacijom nove okosnice i BiFPN-a, prvo dizajniramo malu osnovnu liniju EfficientDet-D0, a zatim primjenjujemo skaliranje složenih spojeva kako bismo dobili EfficientDet-D1 do D7. Svaki serijski model ima veće računske troškove, pokrivajući širok raspon ograničenja resursa od 3 milijarde FLOP-a do 300 milijardi FLOPS-a, i pruža veću preciznost.

Model performansi

Procjena EfficientDet-a na COCO skupu podataka, široko korištenom referentnom skupu podataka za otkrivanje objekata. EfficientDet-D7 postiže prosječnu prosječnu točnost (mAP) od 52,2, što je 1,5 bodova više od prethodnog modernog modela, koristeći 4 puta manje parametara i 9,4 puta manje izračuna

Slika
Slika

Također smo uspoređivali veličinu parametara i kašnjenje CPU / GPU između EfficientDet i prethodnih modela. Sa sličnim ograničenjima točnosti, modeli EfficientDet rade 2–4 puta brže na GPU-u i 5–11 puta brže na procesoru od ostalih detektora. Iako su modeli EfficientDet prvenstveno namijenjeni otkrivanju objekata, njihovu učinkovitost testiramo i u drugim zadacima poput semantičke segmentacije. Da bismo izvršili zadatke segmentacije, malo modificiramo EfficientDet-D4 zamjenom glave za otkrivanje i gubitka i gubitka glave zadržavajući istu skaliranu okosnicu i BiFPN. Ovaj model uspoređujemo s prethodnim modernim modelima segmentacije za Pascal VOC 2012, široko korišteni skup podataka za testiranje segmentacije.

Slika
Slika

S obzirom na njihove izuzetne performanse, očekuje se da će EfficientDet poslužiti kao novi temelj za buduća istraživanja otkrivanja objekata i potencijalno precizne modele otkrivanja objekata potencijalno učiniti korisnima u mnogim stvarnim aplikacijama. Tako su otvorene sve točke prijeloma koda i prethodno obučeni model na Github.com.

Preporučeni: