Master's Thesis

Framework for Efficient Deployment of Deep Neural Network Models on Edge Devices

Author of thesis: Ing. Martin Pavella

Acad. year: 2024/2025

Supervisor: prof. Ing. Lukáš Sekanina, Ph.D.

Abstract:

PyTorch has become the preferred framework for developing deep neural network (DNN) models. However, the development of drivers and other SW support for utilizing HW accelerators on edge devices for PyTorch models, has not yet caught up. The state of the art solution is to convert PyTorch models to the LiteRT format, for which there is sufficient driver support. The limitation of this approach is that not every model is convertible to LiteRT. These problematic models therefore cannot utilize HW accelerators, and often have to run on the CPU. This thesis proposes a solution based on partitioning of PyTorch models into submodels. Some submodels will be converted into the LiteRT format, and the unconvertible ones will remain in PyTorch. This allows the model to at least partially utilize the HW accelerators. The thesis also defines a new file format for storing the segmented hybrid models in a single file, as well as a runtime engine capable of running efficient inference of hybrid models on edge devices.

Keywords:

deep neural networks, hardware accelerators, edge devices, model partitioning, hybrid model, PyTorch, ONNX, LiteRT, TFLite

Date of defence

26.06.2025

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

Jaký podíl (např. počet násobení, paměťových operací) se z celé testované sítě podařilo přenést z CPU na NPU jednotku?
Jak práce navazuje na vaši bakalářskou práci na téma převodu ONNX do tflite formátů?
Zkoušel jste pro konverzi více různých sítí?
Je Vámi dosažené zrychlení významné?

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Computer Systems

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Machine Learning (NMAL)

Composition of Committee

doc. Ing. Lukáš Burget, Ph.D. (předseda)
prof. Dr. Ing. Jan Černocký (člen)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Ing. František Grézl, Ph.D. (člen)

Supervisor’s report
prof. Ing. Lukáš Sekanina, Ph.D.

Obtížné zadání z firemního prostředí bylo vyřešeno inovativním zbůsobem. Je vysoce pravděpodobné, že vytvořené řešení bude využito ve firmě při akceleraci DNN v hardware.Vzhledem k dosaženým výsledkům a kvalitní technické zprávě navrhuji hodnocení stupněm výborně. Současně také diplomovou práci doporučuji vhodně ocenit.

Evaluation criteria	Verbal classification
Informace k zadání	Téma bylo zadáno externí firmou. Jednalo se o nadprůměrně náročné zadání, které vyžadovalo detailní pochopení problematiky efektivní implementace hlubokých neuronových sítí (DNN) v hardware a možností návrhových nástrojů. Zadání bylo zcela splněno. Vznikl v praxi použitelný nástroj do značné míry řešící nekompatibilitu různých nástrojů a formátů pro vývoj DNN na různých akcelerátorech DNN.
Aktivita při dokončování	Diplomová práce byla dokončena v dostatečném předstihu a její obsah byl dostatečně konzultován.
Publikační činnost, ocenění	Předpokládá se využití vytvořeného nástroje v rámci firmy, která projekt zadala.
Práce s literaturou	Diplomant aktivně získával a využíval vhodné studijní materiály.
Aktivita během řešení, konzultace, komunikace	Diplomant byl během řešení nadstandardně aktivní, dodržoval dohodnuté termíny a samostatně řešil dílčí části projektu. Na konzultace byl výborně připraven.

Points proposed by supervisor: 99

Grade proposed by supervisor: A

Reviewer’s report
Ing. Vojtěch Mrázek, Ph.D.

Tato práce představuje nový nástroj pro efektivní výpočet inference neuronové sítě. Student vytvořil i s vhodnou kombinací existujících nástrojů ucelenou aplikaci, která by mohla najít uplatnění i u průmyslového partnera. Proto navrhuji celkové hodnocení stupněm A - výborně a doporučuji komisi zvážit ocenění této práce.

Evaluation criteria	Verbal classification	Points
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí
Prezentační úroveň technické zprávy	Práce je psaná srozumitelně a je logicky strukturovaná. Pouze bych ocenil větší využívání diagramů pro vysvětlení toho, co je jádrem práce a kde je její přidaná hodnota.	90
Formální úprava technické zprávy	Práce je psaná anglickým jazykem a je psaná na dobré úrovni. Z typografické a formální stránky je práce bez závažnějších nedostatků.	95
Práce s literaturou	Student ve své práci využívá 78 zdrojů. Přestože se jedná z velké části o implementační práci, student čerpal z aktuálních vědeckých poznatků z oblasti efektivní inference neuronových sítí. Všechny použité zdroje jsou z mého pohledu relevantní a správně použité.	95
Realizační výstup	Cílem práce je vytvořit nástroj, který z obecného popisu sítě v ONNX formátu vytvoří samostatné segmenty pro CPU a akcelerační jednotku NPU. Při této transformaci se musí jednotlivé formáty konvertovat a součástí implementace je i tvorba přechodových mezikroků pro efektivní komunikaci mezi oběma platformami. Autor neprezentuje pouze demonstrátor navrženého přístupu, ale ucelený proces, který řeší akceleraci hybridní sítě (takové, jejíž část není možné akcelerovat na NPU) od začátku do konce. Mimo jiné se zaměřuje i na správné využívání zdrojů, maximálního sdílení předkompilovaných a transformovaných dat při opakovaném spouštění a podobně. Vlastní práce mi byla předvedena i na používané desce NXP a je funkční. V evaluaci se autor se zaměřil na jednu komplexní síť do detailu, což však nevidím jako problém. Všechny parametry byly správně vyhodnoceny. Mírnou rezervu vidím ve způsobu prezentace výsledků, které by mohlo více využívat grafickou formu a lépe mezi sebou porovnávat.	95
Využitelnost výsledků	Student ve své práci řeší automatický nástroj, který řeší aktuální problémy zpracování neuronových sítí a je ve svých možnostech unikátní. Věřím, že nástroj najde své uplatnění i pro větší okruh uživatelů.
Náročnost zadání	Evaluation level: značně obtížné zadání Zadání hodnotím jako značně obtížné, jelikož student řešil aktuální problémy efektivního zpracování neuronových sítí na vestavěných systémech. Největší komplikací je nutnost používání a ladění používaných nástrojů, které jsou zatím nedokonalé.

Topics for thesis defence:

Jaký podíl (např. počet násobení, paměťových operací) se z celé testované sítě podařilo přenést z CPU na NPU jednotku?
Jak práce navazuje na vaši bakalářskou práci na téma převodu ONNX do tflite formátů?

Points proposed by reviewer: 95

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Framework for Efficient Deployment of Deep Neural Network Models on Edge Devices