ΨΗΦΙΑΚΗ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ - ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ

Πληροφορίες Μαθήματος
ΤίτλοςΨΗΦΙΑΚΗ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ - ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ / DISCRETE TIME SPEECH SYNTHESIS - LANGUAGE TECHNOLOGY
ΚωδικόςDM06
ΣχολήΘετικών Επιστημών
ΤμήμαΠληροφορικής
Κύκλος / Επίπεδο2ος / Μεταπτυχιακό
Περίοδος ΔιδασκαλίαςΧειμερινή
Υπεύθυνος/ηΚωνσταντίνος Κοτρόπουλος
ΚοινόΌχι
ΚατάστασηΕνεργό
Course ID40002281

Πρόγραμμα Σπουδών: ΠΜΣ Τμήματος Πληροφορικής (2014-σήμερα)

Εγγεγραμμένοι φοιτητές: 1
ΚατεύθυνσηΤύπος ΠαρακολούθησηςΕξάμηνοΈτοςECTS
ΤΕΧΝΟΛΟΓΙΕΣ ΓΝΩΣΗΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥΕπιλογής117,5
ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗΕπιλογής117,5
ΨΗΦΙΑΚΑ ΜΕΣΑ- ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗΥποχρεωτικό Κατ' Επιλογήν117,5
ΔΙΚΤΥΑΚΑ ΣΥΣΤΗΜΑΤΑΕπιλογής117,5

Πρόγραμμα Σπουδών: ΠΜΣ Τμήματος Πληροφορικής (2013-σήμερα)

Εγγεγραμμένοι φοιτητές: 0
ΚατεύθυνσηΤύπος ΠαρακολούθησηςΕξάμηνοΈτοςECTS
Πληροφοριακά ΣυστήματαΕπιλογής217,5
Τεχνολογίες Πληροφορίας και Επικοινωνιών στην ΕκπαίδευσηΕπιλογής217,5
Ψηφιακά ΜέσαΥποχρεωτικό217,5
Επικοινωνιακά Συστήματα και ΤεχνολογίεςΕπιλογής217,5

Πληροφορίες Τάξης
ΤίτλοςΨΗΦΙΑΚΗ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ - ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ
Ακαδημαϊκό Έτος2018 – 2019
Περίοδος ΤάξηςΧειμερινή
Διδάσκοντες μέλη ΔΕΠ
Ώρες Εβδομαδιαία3
Class ID
600158704
Τύπος Μαθήματος 2016-2020
  • Επιστημονικής Περιοχής
Τύπος Μαθήματος 2011-2015
Ειδικού Υποβάθρου / Κορμού
Τρόπος Παράδοσης
  • Πρόσωπο με πρόσωπο
Ηλεκτρονική Διάθεση Μαθήματος
Erasmus
Το μάθημα προσφέρεται και σε φοιτητές προγραμμάτων ανταλλαγής.
Γλώσσα Διδασκαλίας
  • Ελληνικά (Διδασκαλία, Εξέταση)
  • Αγγλικά (Διδασκαλία, Εξέταση)
Προαπαιτήσεις
Γενικές Προαπαιτήσεις
Η προηγούμενη έκθεση σε προπτυχιακά μαθήματα Τεχνητής Νοημοσύνης, Αναγνώρισης Προτύπων και Ψηφιακής Επεξεργασίας Ομιλίας αλλά και η προϋπόθεση προγραμματιστικής ικανότητας, βοηθά στη γρηγορότερη αφομοίωση των εννοιών και την επιτυχέστερη τριβή με το αντικείμενο.
Μαθησιακά Αποτελέσματα
Γνωστικοί: Έκθεση σε στοιχειώδεις γνώσεις της επιστήμης της ομιλίας. Αντιμετώπιση του προβλήματος αναγνώρισης ομιλίας υπό το πρίσμα της αναγνώρισης προτύπων μεταβαίνοντας συστηματικώς από ντετερμινιστικές τεχνικές, όπως η δυναμική χρονική κλιμάκωση, σε στατιστικές τεχνικές, δηλαδή τα κρυμμένα μοντέλα Markov. Αποσύνθεση του προβλήματος σύνθεσης ομιλίας σε επιμέρους προβλήματα που αντιμετωπίζονται με κλασικές τεχνικές τεχνητής νοημοσύνης (π.χ. αυτόματα πεπερασμένων καταστάσεων, μεταγραφείς πεπερασμένων καταστάσεων, γραμματικές ανεξάρτητες από τα συμφραζόμενα) ή τεχνικές ψηφιακής επεξεργασίας σήματος για τη μετατροπής της φωνητικής μεταγραφής σε προφορικό λόγο. Κατανόηση της προσωδίας. Δεξιότητες: Θεμελίωση υποβάθρου για ενασχόληση με τη γλωσσική τεχνολογία. Απόκτηση των αναγκαίων αναλυτικών και προγραμματιστικών δεξιοτήτων. Εξοικείωση με περιβάλλοντα, όπως τα SONIC, HTK, Sphinx, SRI Language Toolkit, CMU Language Toolkit, Festival μέσω εκπόνησης εκπόνησης δύο μεγάλων ομαδικών προγραμματιστικών εργασιών.
Γενικές Ικανότητες
  • Εφαρμογή της γνώσης στην πράξη
  • Αναζήτηση, ανάλυση και σύνθεση δεδομένων και πληροφοριών, με τη χρήση και των απαραίτητων τεχνολογιών
  • Προσαρμογή σε νέες καταστάσεις
  • Λήψη αποφάσεων
  • Αυτόνομη εργασία
  • Ομαδική εργασία
  • Παραγωγή νέων ερευνητικών ιδεών
  • Σχεδιασμός και διαχείριση έργων
  • Άσκηση κριτικής και αυτοκριτικής
  • Προαγωγή της ελεύθερης, δημιουργικής και επαγωγικής σκέψης
Περιεχόμενο Μαθήματος
Το πρόβλημα της αναγνώρισης ομιλίας υπό το πρίσμα της αναγνώρισης προτύπων. Ανασκόπηση ψηφιακής επεξεργασίας ομιλίας. Δυναμική χρονική κλιμάκωση (Dynamic Time Warping). Μίγματα Γκαουσιανών μοντέλων. Κρυμμένα μοντέλα Markov (Hidden Markov Models). Στατιστική μοντελοποίηση γλώσσας. Αποτίμηση γλωσσικών μοντέλων. Μετατροπή γραπτού λόγου σε προφορικό. Γραμματικές, συναγωγή, τεχνολογία προτάσεων μεταγραφή. Μορφοσυντακτική ανάλυση. Προσωδιακή ανάλυση. Αλγόριθμοι σύνθεσης ομιλίας.
Λέξεις Κλειδιά
μεταγραφή προφορικού λόγου σε γραπτό, μεταγραφή γραπτού λόγου σε προφορικό, επεξεργασία φυσικών γλωσσών
Τύποι Εκπαιδευτικού Υλικού
  • Διαφάνειες
  • Βιβλίο
Χρήση Τεχνολογιών Πληροφορίας και Επικοινωνιών
Χρήση Τ.Π.Ε.
  • Χρήση Τ.Π.Ε. στη Διδασκαλία
  • Χρήση Τ.Π.Ε. στην Εργαστηριακή Εκπαίδευση
  • Χρήση Τ.Π.Ε. στην Επικοινωνία με τους φοιτητές
Περιγραφή
Διαφάνειες σε ηλεκτρονική μορφή, Demos.
Οργάνωση Μαθήματος
ΔραστηριότητεςΦόρτος ΕργασίαςECTSΑτομικάΟμαδικάErasmus
Διαλέξεις752,5
Μελέτη και ανάλυση βιβλίων και άρθρων301
Εκπόνηση μελέτης (project)752,5
Συγγραφή εργασίας / εργασιών301
Εξετάσεις150,5
Σύνολο2257,5
Αξιολόγηση Φοιτητών
Περιγραφή
Ανάθεση, εκτέλεση, παρουσίαση προγραμματιστικών εργασιών και γραπτή εξέταση. Οι φοιτητές αξιολογούνται με βάση την πρόοδο που σημειώνουν κατά την εκπόνηση υποχρεωτικών εργασιών (50%), την παρακολούθηση των παραδόσεων και την ενεργητική συμμετοχή τους σ' αυτές (10%) και την επίδοσή τους στις γραπτές εξετάσεις κατά 40%. Η ανακοίνωση της ανάθεσης εργασιών στους φοιτητές γίνεται στη σελίδα του μαθήματος στον ΠΗΛΕΑ http://pileas.csd.auth.gr. Οι φοιτητές προάγονται, εφόσον ο τελικός βαθμός είναι μεγαλύτερος ή ίσος του πέντε (5). Λεπτομέρειες επί της διαδικασίας παρατίθενται στον ΠΗΛΕΑ.
Μέθοδοι Αξιολόγησης Φοιτητών
  • Γραπτή Εξέταση με Ερωτήσεις Σύντομης Απάντησης (Διαμορφωτική, Συμπερασματική)
  • Γραπτή Εργασία (Διαμορφωτική, Συμπερασματική)
  • Δημόσια Παρουσίαση (Διαμορφωτική, Συμπερασματική)
Βιβλιογραφία
Επιπρόσθετη βιβλιογραφία για μελέτη
Προτεινόμενη βιβλιογραφία: X. Huang, A. Acero, and H. -S. Hon, Spoken Language Processing. Upper Saddle River, N.J.: Pearson Education-Prentice Hall, 2001. D. Jurafsky and J. H. Martin, Speech and Language Processing, 2/e. Upper Saddle River, N.J.: Pearson Education-Prentice Hall, 2009. Άλλοι ενδεικτικoί τίτλοι (Πλήρης κατάλογος στην ιστοσελίδα του μαθήματος): J. R. Deller, J. G. Proakis, and J. H. L. Hansen, Discrete-Time Processing of Speech Signals. New York, Ν.Y.: Wiley-IEEE, 1999. T. F. Quartieri, Discrete-Time Speech Signal Processing: Principles and Practice. Upper Saddle River, N.J.: Pearson Education-Prentice Hall, 2002. L. R. Rabiner and R. W. Schafer, Theory and Applications of Digital Speech Processing. Upper Saddle River, N.J.: Pearson Education-Prentice Hall, 2011. S. E. Levinson, Mathematical Models for Speech Technology. New York, N.Y.: J. Wiley & Sons, 2005. T. Dutoit, Ιntroduction to Speech Synthesis, 1/e. Dordrecht, The Netherlands: Kluwer Academic Publishers, 1997. F. Jelinek, Statistical Methods for Speech Recognition. Cambridge, MA: The MIT Press, 1999. T. Dutoit and F. Marques, Applied Signal Processing. A MATLAB-Based Proof of Concept. New York, N.Y.: Springer, 2009 (πρόσβαση στο e-book μέσω του www.lib.auth.gr)
Τελευταία Επικαιροποίηση
29-01-2020