• Lietuvių
    • English
  • English 
    • Lietuvių
    • English
  • Login
View Item 
  •   DSpace Home
  • Baigiamieji darbai (ETD) / Graduation works (ETD)
  • Daktaro disertacijos ir jų santraukos / Doctoral dissertations and their summaries
  • View Item
  •   DSpace Home
  • Baigiamieji darbai (ETD) / Graduation works (ETD)
  • Daktaro disertacijos ir jų santraukos / Doctoral dissertations and their summaries
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Enhancements of pre-processing, analysis and presentation techniques in web log mining

Thumbnail
View/Open
ZPabarskaite_tezes[1].pdf (1.262Mb)
Date
2009
Author
Pabarškaitė, Židrina
Metadata
Show full item record
Abstract
As Internet is becoming an important part of our life, more attention is paid to the information quality and how it is displayed to the user. The research area of this work is web data analysis and methods how to process this data. This knowledge can be extracted by gathering web servers’ data – log files, where all users’ navigational patters about browsing are recorded. The research object of the dissertation is web log data mining process. General topics that are related with this object: web log data preparation methods, data mining algorithms for prediction and classification tasks, web text mining. The key target of the thesis is to develop methods how to improve knowledge discovery steps mining web log data that would reveal new opportunities to the data analyst. While performing web log analysis, it was discovered that insufficient interest has been paid to web log data cleaning process. By reducing the number of redundant records data mining process becomes much more effective and faster. Therefore a new original cleaning framework was introduced which leaves records that only corresponds to the real user clicks. People tend to understand technical information more if it is similar to a human language. Therefore it is advantageous to use decision trees for mining web log data, as they generate web usage patterns in the form of rules which are understandable to humans. However, it was discovered that users browsing history length is different, therefore specific data preparation needed in order to compose fixed length data vectors required by the algorithm. Methods what data preparations steps necessary to carry out are provided and later classification and prediction tasks were applied to generate web usage models which then could contribute to the web site refinement. Finally, it was shown that specific part of the text can be a valuable source of information. This part of the text is extracted from the hyperlink text. Method was suggested and steps provided how to use hyperlink text together with other features. Experiments demonstrated more accurate results defining user behaviour by using text as additional feature. In addition hyperlink text can be used in results presentation step as it represents the actual text that users see when clicking hyperlinks. The main results of this dissertation were presented in 5 scientific publications: two articles in periodical scientific publications from the Master Journal List of Institute for Scientific Information (Thomson ISI Web of science), one in the referred journal by IOS Press, 2 scientific papers were presented and published in the international referred conferences.
 
Internetui skverbiantis į mūsų gyvenimą, vis didesnis dėmesys kreipiamas į informacijos pateikimo kokybę, bei į tai, kaip informacija yra pateikta. Disertacijos tyrimų sritis yra žiniatinklio serverių kaupiamų duomenų gavyba bei duomenų pateikimo galutiniam naudotojui gerinimo būdai. Tam reikalingos žinios išgaunamos iš žiniatinklio serverio žurnalo įrašų, kuriuose fiksuojama informacija apie išsiųstus vartotojams žiniatinklio puslapius. Darbo tyrimų objektas yra žiniatinklio įrašų gavyba, o su šiuo objektu susiję dalykai: žiniatinklio duomenų paruošimo etapų tobulinimas, žiniatinklio tekstų analizė, duomenų analizės algoritmai prognozavimo ir klasifikavimo uždaviniams spręsti. Pagrindinis disertacijos tikslas – perprasti svetainių naudotojų elgesio formas, tiriant žiniatinklio įrašus, tobulinti paruošimo, analizės ir rezultatų interpretavimo etapų metodologijas. Darbo tyrimai atskleidė naujas žiniatinklio duomenų analizės galimybes. Išsiaiškinta, kad internetinių duomenų – žiniatinklio įrašų švarinimui buvo skirtas nepakankamas dėmesys. Parodyta, kad sumažinus nereikšmingų įrašų kiekį, duomenų analizės procesas tampa efektyvesnis. Todėl buvo sukurtas naujas metodas, kurį pritaikius žinių pateikimas atitinka tikruosius vartotojų maršrutus. Tyrimo metu nustatyta, kad naudotojų naršymo istorija yra skirtingų ilgių, todėl atlikus specifinį duomenų paruošimą – suformavus fiksuoto ilgio vektorius, tikslinga taikyti iki šiol nenaudotus praktikoje sprendimų medžių algoritmus klasifikavimo ir prognozavimo uždaviniams spręsti. Analizės metu rasti naršymo maršrutai leidžia tobulinti žiniatinklio struktūrą, kad labiau atitiktų naudotojų poreikius. Pasiūlytas teksto, esančio ant nuorodų, panaudojimas. Parodyta, kad prie lankytojų žiūrėtų puslapių pridėjus ir tekstinę informaciją, esančią ant hipernuorodų, galima pasiekti tikslesnius naudotojo elgesį prognozuojančius rezultatus. Pasiūlytas naršymo rezultatų pavaizdavimo etapo patobulinimas, kuomet panaudojus tekstą, esantį ant nuorodų, rezultatai tyrėjui pateikiami suprantamesne forma. Tyrimų rezultatai publikuoti 5 moksliniuose leidiniuose: paskelbti 3 straipsniai: du – straipsnių rinkinyje, įtrauktame į Mokslinės informacijos instituto pagrindinį (Thomson ISI Web of Science) sąrašą, vienas – recenzuojamajame IOS Press leidinyje, du – paskelbti tarptautinėse konferencijose.
 
Issue date (year)
2009
URI
https://etalpykla.vilniustech.lt/handle/123456789/108461
Collections
  • Daktaro disertacijos ir jų santraukos / Doctoral dissertations and their summaries [1724]

 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjects / KeywordsInstitutionFacultyDepartment / InstituteTypeSourcePublisherType (PDB/ETD)Research fieldStudy directionVILNIUS TECH research priorities and topicsLithuanian intelligent specializationThis CollectionBy Issue DateAuthorsTitlesSubjects / KeywordsInstitutionFacultyDepartment / InstituteTypeSourcePublisherType (PDB/ETD)Research fieldStudy directionVILNIUS TECH research priorities and topicsLithuanian intelligent specialization

My Account

LoginRegister