Research and application of machine learning methods for migraine attack prediction
Abstract
Migraine is a complex neurological disorder characterized by strong inter- and intra-individual variability, which makes early forecasting difficult using only clinical observations. Wearable biosensors combined with machine learning offer new opportunities to detect subtle physiological changes that may precede migraine attacks and to develop individualized prediction models.
This dissertation investigates migraine analysis and next-day prediction using physiological recordings collected under real-life monitoring conditions. Data were obtained with the Empatica Embrace Plus wearable device and include electrodermal activity, pulse rate, skin temperature, and movement-related signals. The analysis focuses on nocturnal recordings, since the night period provides a more stable physiological context with fewer external disturbances. Nights were standardized using sleep-based contextual selection and consistent night-level rules.
The experimental framework is organized in two stages. In the first stage, a window-level binary classification task is used as an exploratory methodological analysis to examine how design choices influence model performance. Night recordings are segmented into analysis frames ranging from 5 to 120 minutes, statistical features are extracted, and the influence of signal preprocessing and feature representation is evaluated across several classifier families, including Random Forest, XGBoost, histogram-based gradient boosting, support vector machines, and k-nearest neighbors.
In the second stage, the research evaluates next-day migraine prediction based on whole-night recordings. This stage refines the experimental methodology to obtain more reliable estimates of predictive performance under a stricter validation framework. The analysis focuses on the effect of temporal aggregation while comparing the same classifier families under consistent evaluation conditions.
The results demonstrate considerable variability across participants in achievable prediction performance and optimal modeling configurations. Shorter analysis frames generally preserve informative short-term physiological changes, whereas longer windows tend to smooth these variations. Signal preprocessing shows a window-dependent effect and does not consistently improve performance. Overall, the results highlight the importance of temporal resolution, rigorous validation, and individualized modeling for wearable-based migraine prediction systems. Migrena yra sudėtingas neurologinis sutrikimas, pasižymintis didele tarpindividualine ir intraindividualine kintamumo variacija, todėl ankstyvas priepuolių prognozavimas remiantis vien klinikiniais stebėjimais yra sudėtingas. Nešiojamieji biosensoriai kartu su mašininio mokymosi metodais suteikia galimybę nustatyti subtilius fiziologinius pokyčius, galinčius pasireikšti prieš migrenos priepuolį, ir kurti individualizuotus prognozavimo metodus.
Disertacijoje tiriama migrenos analizė ir kitos dienos migrenos prognozavimas naudojant fiziologinius duomenis, surinktus realiomis gyvenimo sąlygomis. Duomenys buvo registruojami naudojant nešiojamąjį įrenginį Empatica Embrace Plus ir apima elektroderminės odos veiklos, pulso dažnio, odos temperatūros ir judesio signalus. Analizė orientuota į naktinius įrašus, nes nakties laikotarpis pasižymi stabilesnėmis fiziologinėmis sąlygomis ir mažesne išorinių veiksnių įtaka. Naktys buvo standartizuotos taikant miego pagrindu paremtą kontekstinį atrinkimą ir nuoseklias naktų parinkimo taisykles.
Eksperimentinė analizė organizuota dviem etapais. Pirmajame etape taikoma lango lygmens dvejetainė klasifikacijos užduotis, siekiant įvertinti, kaip metodiniai sprendimai veikia modelių veikimą. Naktiniai įrašai suskirstomi į analizės langus nuo penkių iki šimto dvidešimties minučių trukmės, apskaičiuojami statistiniai požymiai, o signalų išankstinio apdorojimo ir požymių reprezentacijos įtaka vertinama taikant kelias klasifikatorių šeimas, įskaitant Random Forest, XGBoost, histograminį gradientinį stiprinimą, atraminių vektorių mašinas ir artimiausių kaimynų metodą.
Antrajame etape vertinamas kitos dienos migrenos prognozavimas, remiantis visos nakties duomenimis. Šiame etape taikoma griežtesnė validavimo schema, siekiant gauti patikimesnius modelių veikimo įverčius, o analizėje daugiausia dėmesio skiriama laiko agregavimo poveikiui, lyginant tas pačias klasifikatorių šeimas nuoseklioje vertinimo aplinkoje.
Rezultatai rodo didelę dalyvių tarpusavio variaciją tiek prognozavimo tikslumo, tiek optimalių modelių konfigūracijų atžvilgiu. Trumpesni analizės langai dažniau išsaugo informatyvius trumpalaikius fiziologinius pokyčius, o ilgesni langai linkę šiuos svyravimus išlyginti. Signalų išankstinis apdorojimas pasižymi nuo lango trukmės priklausančiu poveikiu ir neužtikrina nuoseklaus rezultatų pagerėjimo. Gauti rezultatai pabrėžia laiko rezoliucijos, griežtos validacijos ir individualizuoto modeliavimo svarbą kuriant migrenos prognozavimo sistemas, paremtas nešiojamųjų įrenginių duomenimis.
