Eliminowanie redundancji i duplikatów w danych XML

Piłka, Tomasz


Eliminating redundancy and duplicates in XML data


Niniejsza praca doktorska została poświęcona analizie zagadnień występowania i rozwiązywania problemów jakie wynikają z obecności redundancji i duplikatów w bazach danych, w szczególności w bazach danych XML. W pracy przedstawiono ogólne metody przydatne do wykrywania redundancji i duplikatów. Główna tezą w pracy jest pokazanie, że poprawę jakości zarówno schematu, jak i stanu bazy danych XML można uzyskać poprzez wykrywanie i eliminowanie występujących w niej redundancji i duplikatów. Metody wykrywania redundancji i duplikatów opracowane na potrzeby relacyjnych baz danych można skutecznie uogólnić na przypadek baz danych XML. Proponowana metoda normalizacji do postaci normalnej XML pozwala na przeprowadzenie transformacji, w wyniku której wyeliminowana zostaje redundancja, natomiast zachowane są zarówno dane, jak i zależności funkcyjne. Zaproponowana metoda wykrywania i eliminacji duplikatów w danych XML nie powoduje utraty postaci normalnej tych danych, jeśli przed normalizacją były one w postaci normalnej XML. Istotne wyniki teoretyczne przedstawione w pracy dotyczą metod eliminacji redundancji w danych XML poprzez ich normalizację. Najbardziej istotne wyniki o charakterze praktycznym dotyczą eliminowania duplikatów w danych XML, gdzie dyskutowane są metody eliminacji duplikatów w bazach danych XML zarówno na podstawie przeglądu wybranych rozwiązań, jak i własnych propozycji.
This thesis is dedicated to the analysis of occurrence and solving the issues that result from the presence of redundancy and duplicates in databases, in particular XML databases. The paper presents general methods useful for detecting redundancy and duplicates. The main thesis of the paper is to show that improving the quality of both schema and status of the XML database can be obtained by detecting and eliminating redundancy and duplicates occurring in it. Methods of detecting redundancy and duplicates developed for the needs of relational databases can be effectively generalized to the case of XML databases. The proposed method of normalization to the XML normal form allows transformations, as a result of which redundancy is eliminated, while both data and functional dependencies are retained. The proposed method of detecting and eliminating duplicates in XML data does not cause the loss of the normal form if it was in the form of normal XML before normalization. Important theoretical results presented in the paper relate to the methods of elimination of redundancy in the XML data through their standardization. The most important practical results concern the elimination of duplicates in XML data, where the methods of elimination of duplicates in XML databases are discussed, based on a review of selected solutions and own propositions.


Wydział Matematyki i Informatyki



XML, dane relacyjne, relational data, redundancja, redundancy, normalizacja, normalization, duplikaty, duplicates






Uniwersytet im. Adama Mickiewicza w Poznaniu
