Fuzzy inference and machine learning-based prediction with a small dataset for oil spills in the geological environment
Abstract
Oil spills on the ground cause significant damage to the geological environment, including groundwater, which becomes uninhabitable once contaminated. It is necessary to predict the scale of an oil spill and the consequences of contamination on the geological environment to minimise the damage of pollution. Specialists could use the prediction results to choose a strategy for its elimination. The literature provides many approaches for predicting an oil spill on the water. However, approaches are lacking for predicting oil spills in the geological environment.
A detailed analysis of the prediction of oil spills on the geological environment and the water shows that scientists most often use machine learning algorithms and fuzzy logic to solve these problems. However, it is unclear what machine learning algorithms and fuzzy inference should apply to oil spill prediction in the geological environment. Moreover, in the real-world cases of oil spills in the geological environment, scientists and practitioners often face the challenge of a small dataset, which makes prediction difficult.
The dissertation consists of an introduction, three main chapters, general conclusions, and a list of references. The first chapter provides a literature review and formulates the dissertation’s objectives. The second chapter proposes fuzzy inference and machine learning-based prediction with a small dataset of oil spills on a ground environment. It consists of two main parts: the first, where the fuzzy inference model for predicting oil spill contamination of the geological environment uses the fuzzification of two in-puts (the spilt oil product volume and the specific oil capacity), and defuzz-ification, applying a newly proposed procedure based on the area ratio of a fuzzy membership function, to predict whether an oil product will penetrate the ground layer; and the second, where the proposed approach of machine learning (Linear Regression, Decision Trees, SVR, Ensembles, and GPR) and fuzzy inference allow for the prediction of the consequences of oil spills into the groundwater using small datasets.
The third chapter describes a two-part experiment with the proposed fuzzy inference model, machine learning algorithms, and an ANFIS-based model. The results of the experiment with the fuzzy inference model show that the proposed model is correct and does not contradict reality. The two calculated performance measures (MAE and RMSE) show that the proposed fuzzy inference model can predict the geological consequences of an oil spill with sufficient accuracy. Naftos išsiliejimas ant žemės daro didelę žalą geologinei aplinkai, įskaitant požeminį vandenį, užteršia ją ir daro netinkamą gyventi. Todėl būtina numatyti naftos išsiliejimo mastą ir užterštumo pasekmes geologinei aplinkai, kad taršos žala būtų kuo mažesnė, o specialistai, remdamiesi prognozavimo rezultatais, galėtų pasirinkti jos likvidavimo strategiją. Literatūroje yra daug būdų ir metodų, kaip prognozuoti naftos išsiliejimą vandenyje. Tačiau naftos išsiliejimo geologinėje aplinkoje prognozavimo metodų trūksta.
Išsami naftos išsiliejimo geologinėje aplinkoje ir vandenyje analizė rodo, kad mokslininkai dažniausiai taikė mašininio mokymosi algoritmus ir neraiškiaisiais skaičiavimais grindžiamą prognozavimą, kad išspręstų šias problemas. Tačiau neaišku, kokie mašininio mokymosi algoritmai ir neraiškiaisiais skaičiavimais grindžiamas prognozavimas turėtų būti taikomi prognozuojant naftos išsiliejimą geologinėje aplinkoje. Be to, realiais naftos išsiliejimo geologinėje aplinkoje atvejais mokslininkai ir praktikai dažnai susiduria su nedidelio duomenų rinkinio iššūkiu, o tai apsunkina prognozes.
Disertaciją sudaro įvadas, trys pagrindiniai skyriai, bendrosios išvados ir literatūros sąrašas. Pirmame skyriuje atliekama literatūros apžvalga ir suformuluoti disertacijos tikslas ir uždaviniai. Antrame skyriuje siūlomas neaiškiaisiais skaičiavimais ir mašininiu mokymusi grindžiamos prognozės metodas su nedideliu duomenų rinkiniu apie naftos išsiliejimus ant žemės paviršiaus. Šį metodą sudaro dvi pagrindinės dalys. Pirma, neraiškiaisiais skaičiavimais grindžiamas išvadų modelis, skirtas prognozuoti geologinės aplinkos taršai išsiliejus naftai, jame naudojamas dviejų kintamųjų įvesties (t. y. išsiliejusio naftos produkto tūrio ir specifinės naftos talpos) fuzifikavimas ir išvesties defuzifikavimas, taikant pasiūlytą naują būdą, grindžiamą neaiškios narystės funkcijos ploto santykiu. Antra, siūlomas neraiškiaisiais skaičiavimais ir mašininiu mokymusi (tiesine regresija, sprendimų medžiais, SVR, ansambliais ir GPR) grindžiamos prognozės metodas leidžia nuspėti naftos išsiliejimo į požeminį vandenį pasekmes, naudojant nedidelius duomenų rinkinius.
Trečiame skyriuje aprašomas eksperimentas, kurį sudarė dvi dalys, eksperimentuojant su siūlomu neraiškiaisiais skaičiavimais grindžiamu prognozės modeliu, su mašininio mokymosi algoritmais ir ANFIS pagrindu sukurtu modeliu. Eksperimento su neraiškiaisiais skaičiavimais grindžiamu modeliu rezultatai rodo, kad pasiūlytas modelis yra tinkamas ir neprieštarauja tikrovei. Apskaičiuoti du statistiniai testai (MAE ir RMSE) rodo, kad siūlomas neraiškiaisiais skaičiavimais grindžiamas metodas gali gana tiksliai numatyti geologines naftos išsiliejimo pasekmes.