A comparative analysis of mathematical methods for homogeneity estimation of the Lithuanian population
Abstract
Population genetic structure is one of the most important population genetic parameters revealing its demographic features. The aim of this study was to evaluate the homogeneity of the Lithuanian population on the basis of the genome-wide genotyping data. The comparative analysis of three methods – multidimensional scaling, principal components, and principal coordinates analysis – to visualize multidimensional genetics data was performed. The results of visualization (mapping images) are also presented. Įvadas. Vienas svarbiausių populiacijos genetikos parametrų yra populiacijos genetinė struktūra, atskleidžianti demografinius populiacijos ypatumus. Tyrimo tikslas – nustatyti Lietuvos populiacijos homogeniškumą remiantis viso genomo skenavimo duomenimis. Daugiamačiams genetiniams duomenims vizualizuoti buvo atlikta lyginamoji trijų metodų analizė: daugiamačių skalių, pagrindinių komponenčių ir pagrindinių koordinačių. Taip pat pateikti vaizdai, gauti vizualizavimo metu.Medžiaga ir metodai. Duomenų imtį sudarė 425 asmenys iš šešių Lietuvos populiacijos etnolingvistinių grupių. Tiriamųjų asmenų DNR buvo išskirta iš kraujo leukocitų fenolio–chloroformo ekstrakcijos metodu bei automatizuota DNR išskyrimo sistema Tecan Freedom EVO. DNR genotipavimas atliktas naudojant VNP Illumina HumanOmniExpress12 v1.1 ir Infinium OmniExpress24 lustus Vilniaus universiteto Biomedicinos instituto Žmogus ir medicininės genetikos katedroje. Lietuvos populiacijos homogeniškumui įvertinti buvo naudojamas PLINK duomenų failas pasitelkus PLINK v1.07 programą. Genotipo duomenys buvo vizualizuoti daugiamačių skalių ir pagrindinių komponenčių metodu PAST3 programa. Populiacijos genetinei struktūrai nustatyti pagrindinių komponenčių metodu buvo naudojama TheSmartPCA from EIGENSOFT 7.2.1 programa.Išvados. VertinantLietuvos populiacijos genetinę struktūrą buvo ištirti ir palyginti daugiamačių skalių, pagrindinių koordinačių ir pagrindinių komponenčių metodai. Gauti rezultatai parodė, kad genotipo duomenų vizualizavimui geriau naudoti pagrindinių koordinačių ir pagrindinių komponenčių metodus, nes gauti rezultatai yra panašūs, palyginti su daugiamačių skalių metodu. Lietuvos populiacija yra homogeniška, o vizualizuoti duomenys yra glaudžiai susiję, kai naudojami pagrindinių koordinačių arba pagrindinių komponenčių metodai.