dc.contributor.author | Baltušninkaitė, Indrė | |
dc.contributor.author | Bratčikovienė, Nomeda | |
dc.date.accessioned | 2023-09-18T19:44:29Z | |
dc.date.available | 2023-09-18T19:44:29Z | |
dc.date.issued | 2018 | |
dc.identifier.issn | 1392-642X | |
dc.identifier.uri | https://etalpykla.vilniustech.lt/handle/123456789/142895 | |
dc.description.abstract | Šiame straipsnyje nagrinėjamos didžiųjų duomenų regresinės analizės galimybės ir galimi sunkumai. Straipsnyje išskirtos ir paaiškintos pagrindinės juos nusakančios charakteristikos, nustatyti galimi iššūkiai, kylantys didžiųjų duomenų analitikoje. Atsižvelgiant į tai, pasiūlyta keletas didžiųjų duomenų regresinėje analizėje naudojamų metodų, kurie leidžia sumažinti skaičiavimų naštą ir atrinkti nepriklausomus kintamuosius, geriausiai nusakančius priklausomą kintamąjį, bei pasiekti didesnį modelio tikslumą. Vienas iš darbo tikslų – metodų pritaikymas realiems didiesiems duomenims, todėl didelis dėmesys skiriamas tiriamajai daliai. Realių duomenų regresijos modelių sudarymui ir parametrų vertinimui naudojami išskaidytos ir stebinių įtakos indeksu paremtos regresijos metodai, o geriausiai priklausomąjį kintamąjį nusakančių nepriklausomų kintamųjų atrinkimui naudojama LASSO ir LARS regresija. Straipsnyje taip pat pateikiami atlikti modelių tinkamumo ir tikslumo vertinimai, jų tarpusavio rezultatų palyginimai. | lit |
dc.description.abstract | Opportunities and challenges of regression analysis for big data are investigated in the present article. Firstly, the main characteristics describing big data are identified and explained, and then potential challenges that arise in big data analytics are identified. According to the identified challenges, some methods used in the regression analysis for big data are proposed. These methods reduce the calculation burden and select variables that best describe the response variable, thus achieving sufficient statistical accuracy and reducing costs and time of calculations. One of the main purposes of this article is to apply the methods for real data set. Simulation and real data regression models are formed and parameters are estimated using divided regression and regression based on leverage techniques. The LASSO and LARS regressions are used to select the best subset of variables. Finally, model diagnostics, accuracy estimation and comparisons of results are performed. | eng |
dc.format | PDF | |
dc.format.extent | p. 56-69 | |
dc.format.medium | tekstas / txt | |
dc.language.iso | lit | |
dc.relation.isreferencedby | Business Source Complete | |
dc.relation.isreferencedby | DOAJ | |
dc.relation.isreferencedby | Index Copernicus | |
dc.source.uri | http://www.journals.vu.lt/statisticsjournal/article/view/12836/11642 | |
dc.title | Regresinės analizės taikymas didiesiems duomenims | |
dc.title.alternative | Application of regression analysis to big data | |
dc.type | Straipsnis kitoje DB / Article in other DB | |
dcterms.references | 10 | |
dc.type.pubtype | S3 - Straipsnis kitoje DB / Article in other DB | |
dc.contributor.institution | Vilniaus Gedimino technikos universitetas | |
dc.contributor.faculty | Fundamentinių mokslų fakultetas / Faculty of Fundamental Sciences | |
dc.subject.researchfield | N 001 - Matematika / Mathematics | |
dc.subject.vgtuprioritizedfields | FM0101 - Fizinių, technologinių ir ekonominių procesų matematiniai modeliai / Mathematical models of physical, technological and economic processes | |
dc.subject.ltspecializations | L103 - Įtrauki ir kūrybinga visuomenė / Inclusive and creative society | |
dc.subject.lt | didieji duomenys | |
dc.subject.lt | regresinė analizė | |
dc.subject.lt | stebinių įtakos indeksu pagrįsta regresija | |
dc.subject.lt | LASSO | |
dc.subject.lt | LARS | |
dc.subject.lt | RMSLE | |
dc.subject.en | big data | |
dc.subject.en | regression analysis | |
dc.subject.en | leveraging | |
dc.subject.en | LASSO | |
dc.subject.en | LARS | |
dc.subject.en | RMSLE | |
dcterms.sourcetitle | Lietuvos statistikos darbai = Lithuanian journal of statistics | |
dc.description.issue | Nr. 1 | |
dc.description.volume | t. 57 | |
dc.publisher.name | Vilnius University Press; Lietuvos statistikų sąjunga; Lietuvos Statistikos departamentas | |
dc.publisher.city | Vilnius | |
dc.identifier.elaba | 37684953 | |