Θεωρητική και εμπειρική σύγκριση στοχαστικών μεθόδων και μεθόδων μηχανικής μάθησης στην πρόβλεψη υδρολογικών διεργασιών

Γ. Παπαχαραλάμπους, Θεωρητική και εμπειρική σύγκριση στοχαστικών μεθόδων και μεθόδων μηχανικής μάθησης στην πρόβλεψη υδρολογικών διεργασιών, Μεταπτυχιακή εργασία, 372 pages, Τομέας Υδατικών Πόρων και Περιβάλλοντος – Εθνικό Μετσόβιο Πολυτεχνείο, Αθήνα, Οκτώβριος 2016.

Η πρόβλεψη της μελλοντικής συμπεριφοράς υδρολογικών διεργασιών είναι χρήσιμη στον σχεδιασμό και την λειτουργία των έργων υδραυλικού μηχανικού. Παράλληλα με τη διαρκώς αυξανόμενη χρήση των πιθανοτικών μεθόδων πρόβλεψης για τον εν λόγω σκοπό, μεγάλο πρακτικό και ερευνητικό ενδιαφέρον εξακολουθεί να υπάρχει και για τις μεθόδους σημειακής εκτίμησης. Γεγονός ακόμη είναι ότι οι μέθοδοι μηχανικής μάθησης έχουν εισέλθει δυναμικά στον χώρο της υδρολογίας και ότι η έρευνα εστιάζει συχνά στην σύγκριση μεθόδων της συγκεκριμένης κατηγορίας με κλασικές στοχαστικές μεθόδους. Οι διενεργούμενες συγκρίσεις στη διεθνή βιβλιογραφία αφορούν συνήθως μελέτες περίπτωσης. Η παρούσα εργασία διεξάγει μία θεωρητική σύγκριση της επίδοσης κλασικών στοχαστικών μεθόδων και μεθόδων μηχανικής μάθησης στην πρόβλεψη ανελίξεων πραγματοποιώντας υπολογιστικά πειράματα μεγάλης κλίμακας που βασίζονται σε προσομοιώσεις. Σκοπός της είναι η διατύπωση γενικών συμπερασμάτων επί του θέματος, τα οποία συνιστούν την βασική επιστημονική συνεισφορά της. Η συγκεκριμένη θεωρητική σύγκριση συνοδεύεται από εμπειρική μικρής κλίμακας σε γεωφυσικές διεργασίες με στόχο την ανάδειξη επιμέρους σημείων. Έμφαση δίνεται στις μεθόδους Support Vector Machines (SVM), που είναι οι δημοφιλέστερες από τις νεοεισαχθείσες στο πεδίο της υδρολογίας μέθοδοι μηχανικής μάθησης, ενώ στην σύγκριση συμμετέχουν και μέθοδοι Νευρωνικών Δικτύων - Neural Networks (NN), η χρήση των οποίων είναι μάλλον εδραιωμένη. Η σύγκριση αφορά μακροπρόθεσμες προβλέψεις στην χρονική κλίμακα των παρατηρήσεων, παρότι η βραχυπρόθεσμη πρόβλεψη είναι επίσης χρήσιμη. Όσον αφορά την μεθοδολογία που ακολουθείται, χρησιμοποιούνται συνολικά 28 μέθοδοι, από τις οποίες οι 9 είναι μέθοδοι μηχανικής μάθησης. Οι έξι από τις τελευταίες κατασκευάζονται βάσει ενός αλγορίθμου SVM και οι υπόλοιπες τρεις βάσει ενός αλγορίθμου NN. Πραγματοποιούνται 20 πειράματα προσομοίωσης, καθένα από τα οποία χρησιμοποιεί ως δεδομένα για την εφαρμογή των μεθόδων 2 000 χρονοσειρές, οι οποίες παράγονται με βάση ένα, κάθε φορά διαφορετικό, μοντέλο στοχαστικής ανέλιξης από τις συχνά χρησιμοποιούμενες οικογένειες μοντέλων Autoregressive Moving Average (ARMA), Autoregressive Integrated Moving Average (ARIMA), Autoregressive Fractionally Integrated Moving Average (ARFIMA) και Seasonal Autoregressive Integrated Moving Average (SARIMA). Συμπληρωματικά γίνονται 8 υπολογιστικά πειράματα, τα οποία χρησιμοποιούν από μία ιστορική χρονοσειρά. Οι εκάστοτε χρονοσειρές χωρίζονται σε δύο τμήματα. Το πρώτο τμήμα χρησιμοποιείται για την εκπαίδευση των μοντέλων, τα οποία στην συνέχεια διενεργούν προβλέψεις που αντιστοιχούν στο δεύτερο τμήμα, ενώ το τελευταίο χρησιμοποιείται ως χρονοσειρά - στόχος, δηλαδή ως αναφορά για την σύγκριση των προβλέψεων μεταξύ τους. Η συναξιολόγηση των μεθόδων πρόβλεψης γίνεται με βάση τις τιμές που λαμβάνουν 22 μέτρα, τα οποία ποσοτικοποιούν την επίδοση των μεθόδων ως προς ορισμένα κριτήρια. Τα τελευταία αφορούν την αμεροληψία ως προς την μέση τιμή και την τυπική απόκλιση, την ακρίβεια και την συσχέτιση. Το σημαντικότερο εξαγόμενο είναι ότι γενικώς δεν υπάρχουν μέθοδοι το ίδιο καλές ή κακές σε σχέση με τις υπόλοιπες ως προς το σύνολο των μέτρων που χρησιμοποιούνται, με αποτέλεσμα η συνολική εικόνα να είναι μάλλον ομοιόμορφη. Παρά ταύτα, υπάρχουν μέθοδοι που είναι σταθερά καλύτερες ή χειρότερες από άλλες ως προς συγκεκριμένα μέτρα, χωρίς αυτό να ισχύει για όλες τις μεθόδους. Προκύπτει ότι μία γενική κατάταξη των μεθόδων δεν είναι εφικτή, αλλά εφικτή είναι μια καταρχήν κατηγοριοποίηση τους με βάση την παρόμοια επίδοση στα διάφορα μέτρα. Άλλο σημαντικό συμπέρασμα είναι ότι μέθοδοι περισσότερο εξεζητημένες δεν δίνουν κατ’ ανάγκην καλύτερες προβλέψεις από απλούστερες μεθόδους. Τονίζεται ότι οι μέθοδοι μηχανικής μάθησης δεν διαφέρουν από τις κλασικές στοχαστικές μεθόδους ως προς τα όσα διατυπώνονται παραπάνω, ενώ ενδιαφέρον παρουσιάζει και το γεγονός ότι οι αλγόριθμοι SVM και ΝΝ που χρησιμοποιούνται στην παρούσα εργασία προσφέρουν εν δυνάμει πολύ καλή επίδοση ως προς την ακρίβεια σε σχέση με την συνολική εικόνα. Επισημαίνεται ότι, παρότι η εργασία εστιάζει στην σημειακή πρόβλεψη υδρολογικών διεργασιών, τα ανωτέρω αλλά και τα υπόλοιπα συμπεράσματα που προκύπτουν είναι γενικού επιστημονικού ενδιαφέροντος, ενώ επίσης αφορούν όλες τις δυνατές χρονικές κλίμακες παρατήρησης. Τέλος, παράλληλα με την χρήση συνθετικών χρονοσειρών, σημαντική συνεισφορά αποτελεί και η χρήση αρκετών μεθόδων και μέτρων. Λιγότερες μέθοδοι και λιγότερα μέτρα, ιδίως στην περίπτωση που τα τελευταία θα αντιστοιχούσαν σε λιγότερα κριτήρια, θα οδηγούσαν σε πολύ διαφορετική συνολική εικόνα. Για τον λόγο αυτό η μεθοδολογία της παρούσας εργασίας θεωρείται καταλληλότερη για αξιολόγηση οποιασδήποτε νέας μεθόδου σημειακής πρόβλεψης από την εφαρμογή μικρού αριθμού μεθόδων αναφοράς και μέτρων, η οποία συχνά απαντάται στην βιβλιογραφία.

Εργασίες μας που αναφέρονται σ' αυτή την εργασία: