Ηλεκτρονική Διάθεση Μαθήματος
Μαθησιακά Αποτελέσματα
1. Οι φοιτητές θα αποκτήσουν σημαντικές γνώσεις σε τεχνικές επεξεργασίας και ανάλυσης μεγάλων δεδομένων.
2. Θα μπορούν αν εργαστούν σε ομάδες
3. Θα αποκτήσουν μεγαλύτερη αυτοπεποίθηση παρουσιάζοντας τη δουλειά τους στην τάξη
4. Θα έρθουν σε επαφή με σύγχρονες τεχνικές μεγάλων δεδομένων που χρησιμοποιούνται που έχουν μεγάλη ζήτηση και στη Βιομηχανία.
Περιεχόμενο Μαθήματος
- Εισαγωγή στα Μεγάλα Δεδομένα (Big Data) και στην Επιστήμη Δεδομένων (Data Science), βασικές έννοιες και προκλήσεις
- Η πλατφόρμα Hadoop, βασικά και προχωρημένα θέματα.
- Το οικοσύστημα του Hadoop: HDFS, Hbase, Pig, Hive
- NoSQL databases
- Θεωρητικά στοιχεία σχετικά με MapReduce και σχεδίαση αλγορίθμων
- Η γλώσσα προγραμματισμού Scala.
- Η πλατφόρμα Spark, βασικά και προχωρημένα θέματα.
- Streaming, SQL, Machine Learning, GraphΧ: οι βασικές βιβλιοθήκες.
- Διερεύνηση δεδομένων με το εργαλείο R πάνω από Spark.
- Σχεδίαση αλγορίθμων σε Spark.
- Βάσεις δεδομένων γράφων (graph databases)
- Άλλα συστήματα: Giraph, GraphLab, Hama, BlinlkDB
Λέξεις Κλειδιά
μεγάλα δεδομένα, επεξεργασία δεδομένων, εξόρυξη από μεγάλα δεδομένα, ανάλυση δεδομένων
Επιπρόσθετη βιβλιογραφία για μελέτη
M. Zaharia, B. Chambers: Spark, the definitive guide, O' Reilly, 2018.
H. Karau, A. Konwinski, P. Wendell, M. Zaharia: Learning Spark, O' Reilly, 2015.
N. Lynch: Distributed algorithms, Morgan Kaufmann, 1996.
I. Robinson, J. Webber, E. Eifrem: Graph databases, O' Reilly, 2013.
S. Ryza, U. Laserson, S Owen, J. Wills: Advanced analytics with Spark, O'Reilly, 2015.
R. Schutt, C. O'Neil: Doing Data Science, O' Reilly, 2014.
C.A. Varela, G. Agha: Programming distributed computing systems: a foundational approach, The MIT Press, 2013.