Grupowa klasyfikacja danych niekompletnych – podejście nieimputacyjne z zastosowaniem we wspomaganiu diagnostyki guzów jajnika

Wójtowicz, Andrzej

Grupowa klasyfikacja danych niekompletnych – podejście nieimputacyjne z zastosowaniem we wspomaganiu diagnostyki guzów jajnika

Files

phd_thesis_archive.pdf (1.06 MB)

Date

2017

Authors

Wójtowicz, Andrzej

Advisor

Wygralak, Maciej. Promotor

Title alternative

Ensemble classification of incomplete data – a non-imputation approach with an application in ovarian tumour diagnosis support

Abstract

W niniejszej pracy doktorskiej zająłem się problemem klasyfikacji danych niekompletnych. Motywacja do podjęcia badań ma swoje źródło w medycynie, gdzie bardzo często występuje zjawisko braku danych. Najpopularniejszą metodą radzenia sobie z tym problemem jest imputacja danych, będąca uzupełnieniem brakujących wartości na podstawie statystycznych zależności między cechami. W moich badaniach przyjąłem inną strategię rozwiązania tego problemu. Wykorzystując opracowane wcześniej klasyfikatory można przekształcić je do formy, która zwraca przedział możliwych predykcji. Następnie, poprzez zastosowanie operatorów agregacji oraz metod progowania, można dokonać finalnej klasyfikacji. W niniejszej pracy pokazuję jak dokonać ww. przekształcenia klasyfikatorów oraz jak wykorzystać strategie agregacji danych przedziałowych do klasyfikacji. Opracowane przeze mnie metody podnoszą jakość klasyfikacji danych niekompletnych w problemie wspomagania diagnostyki guzów jajnika. Dodatkowa analiza wyników na zewnętrznych zbiorach danych z repozytorium uczenia maszynowego Uniwersytetu Kalifornijskiego w Irvine (UCI) wskazuje, że przedstawione metody są komplementarne z imputacją.
In this doctoral dissertation I focus on the problem of classification of incomplete data. The motivation for the research comes from medicine, where missing data phenomena are commonly encountered. The most popular method of dealing with data missingness is imputation; that is, inserting missing data on the basis of statistical relationships among features. In my research I choose a different strategy for dealing with this issue. Classifiers of a type previously developed can be transformed to a form which returns an interval of possible predictions. In the next step, with the use of aggregation operators and thresholding methods, one can make a final classification. I show how to make such transformations of classifiers and how to use aggregation strategies for interval data classification. These methods improve the quality of the process of classification of incomplete data in the problem of ovarian tumour diagnosis. Additional analysis carried out on external datasets from the University of California, Irvine (UCI) Machine Learning Repository shows that the aforementioned methods are complementary to imputation.

Description

Wydział Matematyki i Informatyki

Keywords

dane niekompletne, incomplete data, klasyfikacja, classification, imputacja, imputation, operatory agregacji, aggregation operators

URI

http://hdl.handle.net/10593/17969

Collections

Doktoraty 2010-2025 /dostęp otwarty/
Doktoraty (WMiI)

Full item page Statistics

Grupowa klasyfikacja danych niekompletnych – podejście nieimputacyjne z zastosowaniem we wspomaganiu diagnostyki guzów jajnika

Files

Date

Authors

Advisor

Editor

Journal Title

Journal ISSN

Volume Title

Publisher

Title alternative

Abstract

Description

Sponsor

Keywords

Citation

Seria

ISBN

ISSN

URI

DOI

Title Alternative

Rights Creative Commons

Creative Commons License

Collections