In this thesis, a configurable generalisation of some well-known distance measures is introduced. Parameters are given to use this metric in the area of law enforcement, but also molecular biology.... Show moreIn this thesis, a configurable generalisation of some well-known distance measures is introduced. Parameters are given to use this metric in the area of law enforcement, but also molecular biology. With a valid distance measure, it is possible to analyse data by using a dimension reduction technique. One of these techniques is analysed and extended. Show less
In dit proefschrift worden verschillende manieren onderzocht om semi-gestructureerde gegevens te analyseren, bijv. HTML bestanden. HTML bestanden hebben een structuur/opbouw, maar waar en hoe vaak... Show moreIn dit proefschrift worden verschillende manieren onderzocht om semi-gestructureerde gegevens te analyseren, bijv. HTML bestanden. HTML bestanden hebben een structuur/opbouw, maar waar en hoe vaak je een tekst bold of italic maakt varieert voor elke HTML. Er is gekeken naar verschillende manieren om de voorkomens van een patroon (bijvoorbeeld alle moleculen in onze dataset bevatten een bepaalde set van atomen en verbindingen) te tellen om zo interessante patronen te vinden. Het juist presenteren van de resultaten aan de gebruiker is ook van belang. Dit proefschrift behandelt de visuele weergave van resultaten van de analyse (mining) van semi-gestructureerde gegevens, zodat de gebruiker eenvoudiger interessante patronen kan vinden. De conclusies zijn moeilijk kort samen te vatten. Echter het blijkt dat sommige patronen interessanter waren wanneer zij heel vlak achter elkaar voorkwamen en andere wanneer zij bijvoorbeeld wekelijks voorkwamen. Om nog meer interessante patronen te vinden is het aan te raden rekening te houden met dit element van tijd. Verder blijkt het dat visualisaties nodig zijn om de grote hoeveelheid patronen effectief te presenteren, bijvoorbeeld de gebruiker ziet in __n oog opslag substructuren van moleculen die voorkomen. Het onderzoek in dit proefschrift is belangrijk voor de analyse van data. Denk bijvoorbeeld aan de analyse van het gedrag van klanten. Het is interessant voor bedrijven om te weten dat klanten bepaalde producten aanschaffen bijvoorbeeld elke maandag. Dit is vernieuwend omdat wij subgroepen van producten ontdekken, maar wij tellen subgroepen met de juiste eigenschappen voor tijd zwaarder dan subgroepen die gewoon zomaar voorkomen. De visualisatie van samen voorkomende molecuul substructuren kan de analyse van deze versnellen en deze manier van plotten is nieuw. Show less
Many databases do not consist of a single table of fixed dimensions, but of objects that are related to each other: the databases are relational, or structured. We study the discovery of patterns... Show moreMany databases do not consist of a single table of fixed dimensions, but of objects that are related to each other: the databases are relational, or structured. We study the discovery of patterns in such data. In our approach, a data analyst specifies constraints on patterns that she believes to be of interest, and the computer searches for patterns that satisfy these constraints. An important constraint on which we focus, is the constraint that a pattern should have a significant number of occurrences in the data. Constraints like this allow the search to be performed reasonably efficiently. We develop algorithms for searching ppatterns taht are represented in formal first order logic, tree data structures and graph data structures. We perform experiments in which these algorithms, and algorithms proposed by other researchers, are compared with each other, and study which properties determine the efficiency of the algorithms. As a result, we are able to develop more efficient algorithms. As application we study the discovery of fragments in molecular datasets. The aim is to discover fragments that relate the structure of molecules to their activity. Show less