Ηλεκτρονική Διάθεση Μαθήματος
Μαθησιακά Αποτελέσματα
Με την επιτυχή ολοκλήρωση του μαθήματος αναμένεται ότι οι φοιτητές/φοιτήτριες θα:
έχουν αποκτήσει βασικές γνώσεις στην υπολογιστική γλωσσολογία,
γνωρίζουν τις τεχνικές και μεθόδους επεξεργασίας φυσικής γλώσσας,
εξοικειωθούν με τις νέες τάσεις στην Τεχνητή Νοημοσύνη στην εποχή των Μεγάλων Γλωσσικών Δεδομένων,
ευαισθητοποιηθούν αναφορικά με τα ηθικά και νομικά ζητήματα,
είναι σε θέση να χειρίζονται εργαλεία επεξεργασίας φυσικής γλώσσας, έχοντας κατανοήσει την αρχιτεκτονική τους,
μπορούν να συμμετέχουν στη σχεδίαση, ανάπτυξη και αξιολόγηση γλωσσικών πόρων (εργαλείων και εφαρμογών),
μπορούν να συμμετέχουν στη σχεδίαση, ανάπτυξη και αξιολόγηση γλωσσικών δεδομένων (datasets) με τρόπο (ημι-)αυτόματο, ακολουθώντας συγκεκριμένες προδιαγραφές επισημείωσης.
Περιεχόμενο Μαθήματος
Το μάθημα αποτελεί σύντομη εισαγωγή στην Υπολογιστική Γλωσσολογία και την Επεξεργασία Φυσικής Γλώσσας, και αρθρώνεται στις ακόλουθες ενότητες:
1. Γλωσσική Τεχνολογία, Υπολογιστική Γλωσσολογία και Επεξεργασία Φυσικής Γλώσσας: εισαγωγή και βασικές έννοιες.
2. Σύντομη ιστορική αναδρομή και σημαντικοί σταθμοί: από τα νομοθετικά συστήματα στις πιθανοτικές προσεγγίσεις και τα Μεγάλα Γλωσσικά μοντέλα, την Παραγωγική Τεχνητή Νοημοσύνη (Generative AI) και την ανθρωποκεντρική Τεχνητή Νοημοσύνη (Human-centered AI).
3. Υπολογιστική Γλωσσολογία και γλωσσολογική θεωρία στην κατανόηση και παραγωγή κειμένου. Επίπεδα γλωσσικής ανάλυσης. Βασική προ-επεξεργασία: μορφοσυντακτική ανάλυση και λημματοποίηση.
4. Δομή της πρότασης: συντακτική ανάλυση (Context-Free Grammars, Constituency Parsing, Dependency Parsing).
5. Από τη μορφή στη σημασία: λεξική σημασιολογία, δομή ορισμάτων και ανάθεση σημασιολογικών ρόλων. Σημασιολογική αναπαράσταση (Abstract Meaning Representation).
6. Άλλες όψεις της σημασίας: λογικός συμπερασμός, παράφραση, απλοποίηση.
7. Κατανοώντας την πρόταση και πέρα από αυτή: επίλυση συναναφοράς (coreference resolution), συνοχή και συνεκτικότητα κειμένου (Discourse Coherence).
8. Επεξεργασία Φυσικής Γλώσσας και Γλωσσικοί πόροι: Σώματα κειμένων, λεξιλογικοί πόροι και εργαλεία. Επισημείωση σωμάτων κειμένων (αρχές, μέθοδοι και εργαλεία): τέχνη ή τεχνική;
9. Εφαρμογές. Μηχανική Μετάφραση. Εξαγωγή Πληροφορίας: γεγονότα, ονοματικές οντότητες, σχέσεις μεταξύ οντοτήτων.
10. Εφαρμογές. Αναγνώριση συναισθήματος, αναγνώριση προσβλητικού λόγου. Ειρωνεία, χιούμορ, επιχειρηματολογία.
11. Υπολογιστική Γλωσσολογία: νομικά και ηθικά ζητήματα.
12. Παρουσίαση εργασιών
Λέξεις Κλειδιά
Επεξεργασία Φυσικής Γλώσσας, κατανόηση φυσικής γλώσσας, (Παραγωγική) Τεχνητή Νοημοσύνη, γλωσσικοί πόροι, επισημείωση σωμάτων κειμένων
Επιπρόσθετη βιβλιογραφία για μελέτη
Γιούλη, Π. (2024) Υπολογιστική Γλωσσολογία: Μέθοδοι και εφαρμογές. Από τις συμβολικές προσεγγίσεις στη Μηχανική Μάθηση και την Παραγωγική Τεχνητή Νοημοσύνη. Σημειώσεις μαθήματος.
Παναγιωτακόπουλος, Χ., Τσαλίδης, Χ., Γάκης, Π. και Κόκκινος, Θ. (2022). Υπολογιστική γλωσσολογία. Από τον προγραμματισμό μέχρι τη διδακτική πράξη. [Προπτυχιακό εγχειρίδιο]. Κάλλιπος, Ανοικτές Ακαδημαϊκές Εκδόσεις. https://dx.doi.org/10.57713/kallipos-127
Τάντος, Α., Μαρκαντωνάτου, Σ., Αναστασιάδη-Συμεωνίδη, Ά., Κυριακοπούλου, Π. (2015). Υπολογιστική γλωσσολογία. [ηλεκτρ. βιβλ.] Αθήνα: Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών. http://hdl.handle.net/11419/2205 https://repository.kallipos.gr/handle/11419/2205
Jurafsky, D. and Martin, J. H. (2020-2021) Speech and Language Processing (3rd ed. draft) https://web.stanford.edu/~jurafsky/slp3/
Jacob Eisenstein. (2019). Natural Language Processing. MIT Press. https://cseweb.ucsd.edu/~nnakashole/teaching/eisenstein-nov18.pdf
Bender, Emily M. and Alex Lascarides. (2019). Linguistic Fundamentals for Natural Language Processing II: 100 Essentials from Semantics and Pragmatics. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers
Goldberg, Y. (2015). A Primer on Neural Network Models for Natural Language Processing. ArXiv, abs/1510.00726. https://www.semanticscholar.org/paper/A-Primer-on-Neural-Network-Models-for-Natural-Goldberg/56edaa1368ff4dfa45388e4be24fdfbded7d88a7