Компьютерлік көрудің негізгі қосымшаларының бірі ретінде объектілерді анықтау жоғары дәлдікті қажет ететін, бірақ робототехника және жүргізушісіз машиналар сияқты шектеулі есептеу ресурстарына ие сценарийлерде маңызды бола түсуде. Өкінішке орай, қазіргі заманғы жоғары дәлдіктегі көптеген детекторлар бұл шектеулерге сәйкес келмейді. Одан да маңызды, объектілерді анықтайтын қосымшалар әр түрлі платформаларда жұмыс істейді, олар көбінесе әртүрлі ресурстарды қажет етеді.
Сонымен, ресурстардың шектеулерінің кең ауқымына бейімделе алатын дәл және тиімді объект детекторларын қалай құру керек деген сұрақ туындайды?
EfficientDet: масштабталатын және тиімді объектілерді анықтау, CVPR 2020-да қабылданған, масштабталатын және тиімді объектілерді анықтайтын жаңа отбасын ұсынады. Нейрондық желілерді (EfficientNet) масштабтау бойынша жаңа жұмыстарға сүйене отырып және жаңа екі бағытты функционалды желіні (BiFPN) және масштабтаудың жаңа ережелерін енгізе отырып, EfficientDet заманауи дәлдікке жетеді, ал 9 есе аз және белгілі заманауи детекторларға қарағанда айтарлықтай аз есептеуді қолданады. Келесі суретте модельдердің жалпы желілік архитектурасы көрсетілген.
Модельдік архитектураны оңтайландыру
EfficientDet идеясының негізі алдыңғы заманауи анықтау модельдерін жүйелі түрде зерттеу арқылы есептеу тиімділігін арттырудың шешімдерін табуға бағытталған. Жалпы алғанда, объектілерді анықтайтын құрылғылар үш негізгі компоненттен тұрады: берілген кескіннен ерекшеліктерді шығаратын магистраль; магистральдан функциялардың бірнеше деңгейлерін кіріс ретінде қабылдайтын және суреттің сипаттамалық сипаттамаларын білдіретін біріктірілген функциялар тізімін шығаратын объектілер желісі; және әр объектінің класы мен орналасуын болжау үшін біріктірілген функцияларды қолданатын соңғы класс / қорап желісі.
Осы компоненттердің дизайн нұсқаларын қарастырғаннан кейін біз өнімділік пен тиімділікті жақсарту үшін бірнеше негізгі оңтайландыруларды анықтадық. Алдыңғы детекторлар көбінесе ResNets, ResNeXt немесе AmoebaNet-ті магистральдар ретінде пайдаланады, олар неғұрлым қуаты төмен немесе тиімділігі EfficientNets-ке қарағанда төмен. EfficientNet магистралін алғашқы іске асырған кезде әлдеқайда тиімділікке қол жеткізуге болады. Мысалы, ResNet-50 магистралін қолданатын RetinaNet негізінен бастап, біздің абляциялық зерттеуіміз ResNet-50-ді EfficientNet-B3-ке ауыстырудың дәлдікті 3% -ға жақсарта алатынын, ал есептеуді 20% -ға төмендететіндігін көрсетеді. Тағы бір оңтайландыру - функционалды желілердің тиімділігін арттыру. Алдыңғы детекторлардың көпшілігі Downlink Pyramid Network (FPN) желісін қолданғанымен, FPN төменгі ағысы табиғатынан біржақты ақпарат ағынымен шектелгенін байқаймыз. PANet сияқты балама FPN-ді қосымша есептеу есебінен қосымша ағынға қосады.
Жүйелік архитектуралық іздеуді (NAS) қолданудың соңғы әрекеттері күрделі NAS-FPN архитектурасын тапты. Алайда, бұл желілік құрылым тиімді болғанымен, сонымен қатар ол жүйесіз және белгілі бір тапсырма үшін өте оңтайландырылған, сондықтан басқа тапсырмаларға бейімделу қиынға соғады. Осы мәселелерді шешу үшін біз FPN / PANet / NAS-FPN-ден көп қабатты функцияларды біріктіру идеясын жүзеге асыратын BiFPN екі бағытты функцияларының жаңа желісін ұсынамыз, бұл ақпараттың жоғарыдан төменге де, төменге де берілуіне мүмкіндік береді. төменнен жоғарыға. тұрақты және тиімді байланыстарды қолдану.
Тиімділікті одан әрі арттыру үшін біз синтездің жылдам қалыпқа келтірілген жаңа әдісін ұсынамыз. Дәстүрлі тәсілдер, әдетте, FPN-ге барлық енгізулерді бірдей шешеді, тіпті әртүрлі шешімдерде де. Алайда, әр түрлі ажыратымдылықтары бар енгізу функциялары көбінесе шығыс функцияларына тең емес ықпал ететіндігін байқаймыз. Осылайша, біз әр енгізу функциясына қосымша салмақ қосып, желіге әрқайсысының маңыздылығын білуге мүмкіндік береміз. Біз сондай-ақ барлық тұрақты конволюцияларды арзан, терең бөлінетін конвульцияларға ауыстырамыз. Осы оңтайландырудың көмегімен BiFPN есептеу шығындарын 50% төмендете отырып, дәлдікті 4% -ға арттырады.
Үшінші оңтайландыру ресурстардың әртүрлі шектеулері кезінде дәлдік пен тиімділік арасындағы ең жақсы ымыраға жетуді көздейді. Біздің алдыңғы жұмысымыз желінің тереңдігін, ені мен ажыратымдылығын масштабтау кескінді тану өнімділігін едәуір жақсарта алатынын көрсетті. Осы идеядан шабыттанып, біз объективтік детекторлар үшін ажыратымдылықты / тереңдікті / енді бірге арттыратын жаңа композициялық масштабтау әдісін ұсынамыз. Әрбір желілік компонент, яғни магистраль, объект және блок / класс болжамды желісі, эвристикалық ережелерді қолдана отырып, барлық масштабтау өлшемдерін басқаратын бір күрделі масштабтау факторына ие болады. Бұл тәсіл берілген мақсатты ресурстардың шектелуіне масштаб коэффициентін есептеу арқылы модельді қалай масштабтауға болатындығын анықтауға мүмкіндік береді.
Жаңа магистраль мен BiFPN-ді біріктіре отырып, біз алдымен шағын EfficientDet-D0 бастапқы сызбасын құрастырамыз, содан кейін E7DD-D1-ден D7-ге дейін алу үшін құрама масштабтауды қолданамыз. Әрбір сериялық модель 3 миллиард FLOP-тен 300 миллиард FLOPS-қа дейінгі ресурстардың шектеулерінің кең спектрін қамтитын есептеу шығындарына ие және дәлдікті қамтамасыз етеді.
Өнімділік моделі
COCO деректер жиынтығында EfficientDet-ті бағалау, нысанды анықтау үшін кеңінен қолданылатын сілтеме жиынтығы. EfficientDet-D7 орташа дәлдігі 52,2 құрайды, бұл алдыңғы заманауи модельден 1,5 пунктке жоғары, 4 есе аз параметрлерді және 9,4 есе аз есептеулерді қолданады
Біз сондай-ақ параметр өлшемін және CPU / GPU кідірісін EfficientDet және алдыңғы модельдер арасында салыстырдық. Ұқсас дәлдік шектеулері кезінде EfficientDet модельдері басқа детекторларға қарағанда GPU-да 2-4 есе, ал процессорда 5-11 есе жылдам жұмыс істейді. EfficientDet модельдері бірінші кезекте объектілерді анықтауға арналған болса, біз олардың тиімділігін семантикалық сегментация сияқты басқа тапсырмаларда да тексереміз. Сегменттеу тапсырмаларын орындау үшін, біз бірдей масштабты магистраль мен BiFPN сақтай отырып, анықтау басын және бастың жоғалуы мен жоғалуын ауыстыру арқылы EfficientDet-D4-ті аздап өзгертеміз. Біз бұл модельді кеңінен қолданылатын сегменттеуді тестілеу деректер базасы, Паскаль VOC 2012 үшін қазіргі заманғы сегментация модельдерімен салыстырамыз.
Олардың ерекше өнімділіктерін ескере отырып, EfficientDet болашақ объектілерді анықтауға арналған зерттеулер үшін жаңа негіз болады және көптеген нақты қосымшаларда пайдалы дәлдігі жоғары модельдерді жасайды деп күтілуде. Осылайша Github.com сайтында код пен алдын-ала дайындалған модельдің барлық нүктелерін ашты.