Generowanie i walidacja syntetycznych zbiorów danych obrazów do trenowania modeli sztucznej inteligencji w wizji komputerowej

Loading...
Thumbnail Image

Date

Editor

Journal Title

Journal ISSN

Volume Title

Publisher

Title alternative

Generating and Validating Synthetic Image Datasets for Training AI Models in Computer Vision

Abstract

Niniejsza rozprawa doktorska dotyczy generowania i walidacji syntetycznych zbiorów danych obrazów do trenowania modeli w widzeniu komputerowym. Głównym celem pracy jest rozwiązanie problemów związanych z niedoborem danych oraz ich zmiennością˛ w kontekście trenowania solidnych i dokładnych modeli SI. Zaproponowano wieloaspektowe podejście obejmujące opracowanie nowych technik generowania danych syntetycznych, tworzenie realistycznych i zróżnicowanych zbiorów danych oraz rygorystyczną walidację tych zbiorów poprzez kompleksowe eksperymenty. Początkowa faza badań skupia się na rekonstrukcji botanicznych drzew na podstawie pojedynczych obrazów z wykorzystaniem zaawansowanych algorytmów uczenia maszynowego. Zaproponowana została metoda wykorzystująca "Radial Bounding Volumes" oraz dwumodalne modele wzrostu, aby dokładnie odtworzyć struktury 3D drzew. Technikę zwalidowano poprzez intensywne testy na rzeczywistych zbiorach danych, wykazując jej skuteczność w tworzeniu wysokiej jakości rekonstrukcji. Badania zostały rozszerzone na tworzenie syntetycznych zbiorów danych poprzez wykorzystywanie ControlNet zintegrowanego z Stable Diffusion do generowania realistycznych syntetycznych obrazów roślin. To autorskie podeście obejmuje szczegółowy proces tworzenia anotowanych obrazów, zapewniając, że zbiory danych są odpowiednie do trenowania modeli głębokiego uczenia. Ostatnia faza pracy obejmuje walidację syntetycznych zbiorów danych. Przeprowadzony został szereg eksperymentów porównujących wydajność modeli SI trenowanych na danych syntetycznych z tymi trenowanymi na danych rzeczywistych. Wyniki wskazują, że modele trenowane na powstałych syntetycznych zbiorach danych działają porównywalnie, a w niektórych przypadkach przewyższają modele trenowane na tradycyjnych zbiorach danych. To podkreśla potencjał danych syntetycznych do uzupełniania lub nawet zastępowania danych rzeczywistych w niektórych aplikacjach. Badania te wnoszą wkład w dziedzinę widzenia komputerowego poprzez dostarczenie solidnych metod generowania i walidacji danych syntetycznych, torując drogę do bardziej efektywnego i ekonomicznego trenowania modeli SI. Wyniki maja˛ istotne implikacje dla różnych zastosowań, w tym automatyzacji rolnictwa, badań biologicznych i innych. This thesis explores the generation and validation of synthetic image datasets for training models in computer vision. The core objective is to address the challenges of data scarcity and variability in training robust and accurate AI models. A multi-faceted approach was adopted, involving the development of novel techniques for synthetic data generation, the creation of realistic and diverse datasets, and the rigorous validation of these datasets through comprehensive experiments. The initial phase of the research focuses on the reconstruction of botanical trees from single images, leveraging advanced machine learning algorithms. A method was introduced using radial bounding volumes and bi-modal growth models to accurately reconstruct 3D tree structures. This technique was validated through extensive testing against real-world datasets, demonstrating its efficacy in producing high-fidelity reconstructions. Subsequently, the investigation was expanded to synthetic dataset creation, utilizing ControlNet integrated with Stable Diffusion to generate realistic synthetic images of various plants. This approach includes a detailed pipeline for generating annotated images, ensuring the datasets are suitable for training deep learning models for tasks. The final phase involves the validation of the synthetic datasets. A series of experiments were conducted to compare the performance of AI models trained on synthetic data versus those trained on real data. The results indicate that models trained on these synthetic datasets perform comparably to, and in some cases exceed, those trained on traditional datasets. This highlights the potential of synthetic data to supplement or even replace real data in certain applications. This research contributes to the field of computer vision by providing robust methods for synthetic data generation and validation, paving the way for more efficient and cost-effective training of AI models. The findings have significant implications for various applications, including agricultural automation, urban planning, and beyond.

Description

Wydział Matematyki i Informatyki

Sponsor

Keywords

trenowanie modeli sztucznej inteligencji, Training AI Models

Citation

Seria

ISBN

ISSN

DOI

Title Alternative

Rights Creative Commons

Creative Commons License