Kategorinių požymių priklausomybių struktūros statistinė analizė ir jos taikymas genetikoje
Santrauka
Disertacijoje nagrinėjami kai kurie kategorinių požymių statistinės analizės uždaviniai – ryšių struktūros bei modelio parinkimo ir jo parametrų įvertinimo uždaviniai. Disertacijos tikslas – pasiūlyti ryšių struktūros tarp kategorinių požymių įvertinimo metodą tuo atveju, kai turime didelės dimensijos duomenų rinkinius ir išsklaidytas dažnių lenteles, t. y. kai daugumoje dažnių lentelės ląstelių yra mažas stebinių skaičius arba jos yra tuščios. Ši situacija iliustruojama DNR genetinių sekų statistine analize. Disertaciją sudaro įvadas, trys pagrindiniai skyriai, išvados, naudotos literatūros ir autoriaus publikacijų sąrašai. Įvadiniame skyriuje pristatoma tiriamoji problema ir jos aktualumas, aprašomas tyrimų objektas, formuluojamas darbo tikslas ir uždaviniai, aptariamas darbo mokslinis naujumas bei ginamieji teiginiai. Įvado pabaigoje pateikiami autoriaus pranešimai konferencijose disertacijos tema. Pirmame skyriuje pateikta kategorinių požymių statistinėje analizėje taikomų matematinių modelių apžvalga, šių modelių ryšys su Markovo laukų teorija ir Gibso skirstiniu. Antrame skyriuje atlikta statistinė analizė kai kurioms realioms DNR sekoms Markovo eilės jose įvertinimui bei pirminių ir antrinių DNR grandinių vijų palyginimui: pasiūlyta kategorinių duomenų statistinės analizės metodika, pagrįsta specialia stebimų duomenų forma, apibendrintu logit modeliu bei savirankos testais. Trečiame skyriuje išsklaidytų dažnių lentelės problemai spręsti pasiūlytas semiparametrinis duomenų glodinimo metodas, kuriuo remiantis sukonstruotas semiparametrinis (suglodintas) savirankos kriterijus hipotezėms apie išsklaidytų kategorinių požymių tikimybinį skirstinį tikrinti. Modeliavimo būdu ištirtos pasiūlyto metodo galimybės DNR genetinių sekų statistinėje analizėje. Disertacijos tema paskelbti 6 straipsniai. Du iš jų yra referuojami ISI Web of Science duomenų bazėje. Disertacijos tema perskaityti 6 pranešimai tarptautinėse ir 5 respublikinėse konferencijose. The dissertation considers some problems in the statistical analysis of categorical variables – the dependence structure between categorical variables and the problems of selecting and assessing the models for this structure. The aim of this dissertation is to propose the method to estimate dependence structure between multivariate categorical variables in case of sparse frequency tables and to apply the proposed method in the statistical analysis of genetic sequences. The thesis layout consists of introduction chapter, three main chapters, conclusions, list of authors’s publications and bibliography chapter. The introduction reveals the investigated problem, importance of the thesis and the object of research and describes the purpose and tasks of the dissertation, research methodology, scientific novelty, the practical significance and defended statements. The introduction end in presenting the author’s publications on the subject of the defended dissertation. In the first chapter of the dissertation various models available for describing the nature of the association between categorical variables are introduced and their link with Markov field theory and Gibbs distribution. In the second chapter the basic notions of DNA sequences and a special structure of genetic data is introduced. The logit models and Markov field theory are applied to assess the dependence structure (interactions) between DNA nucleotides and to test hypothesis about Markov order of these dependencies and hypothesis about reverse-complement symmetry between the leading and the lagging strand of DNA. In the third chapter of dissertation a simple resampling technique based on semi-parametric smoothing (semi-parametric or smoothed bootstrap) is introduced and its application for hypothesis testing in sparse contingency tables is discussed. The main results of the thesis are published in six scientific papers. Two of them are published in Thomson ISI Web of Science data base. The results were presented at five national and five international conferences