Με αυτό το βιβλίο, θα:
• Εξερευνήστε τη MySQL από τη δομή της βάσης δεδομένων έως τις σύνθετες ερωτήσεις
• Μάθετε πώς να επιλέγετε μετασχηματισμούς Spark για βελτιστοποιημένες λύσεις
• Εξερευνήσετε ισχυρούς μετασχηματισμούς και συνενώσεις όπως reduceByKey(), combineByKey() και mapPartitions()
• Κατανοήσετε την κατάτμηση δεδομένων για βελτιστοποιημένα ερωτήματα
• Δημιουργήσετε και να εφαρμόσετε ένα μοντέλο χρησιμοποιώντας σχεδιαστικά πρότυπα PySpark
• Εφαρμόσετε αλγόριθμους εύρεσης μοτίβων σε δεδομένα γράφων
• Αναλύσετε δεδομένα γράφων με χρήση του API GraphFrames
• Εφαρμόσετε αλγόριθμους PySpark σε δεδομένα κλινικής και γονιδιωματικής
• Μάθετε πώς να χρησιμοποιείτε και να εφαρμόζετε τεχνικές μηχανικής χαρακτηριστικών σε αλγορίθμους μηχανικής μάθησης
• Κατανοήσετε και να χρησιμοποιήσετε πρακτικά πρότυπα σχεδίασης δεδομένων
ΠΡΟΗΓΜΕΝΗ ΑΝΑΛΥΤΙΚΗ ΜΕ PySpark
Ο όγκος των δεδομένων που παράγονται σήμερα είναι τεράστιος και αυξάνεται συνεχώς. Το Apache Spark έχει αναδειχθεί ως το de facto εργαλείο για την ανάλυση μεγάλων δεδομένων (big data) και αποτελεί πλέον κρίσιμο μέρος της εργαλειοθήκης της επιστήμης δεδομένων. Ενημερωμένος για το Spark 3.0, αυτός ο πρακτικός οδηγός συνδυάζει το Spark, τις στατιστικές μεθόδους και πραγματικά σύνολα δεδομένων για να σας διδάξει πώς να προσεγγίζετε προβλήματα ανάλυσης χρησιμοποιώντας το PySpark, το API του Spark για Python, καθώς και άλλες βέλτιστες πρακτικές στον προγραμματισμό με το Spark. Οι επιστήμονες δεδομένων Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen και Josh Wills προσφέρουν μια εισαγωγή στο οικοσύστημα Spark, και στη συνέχεια καταδύονται σε πρότυπα που εφαρμόζουν κοινές τεχνικές -συμπεριλαμβανομένων της ταξινόμησης, της ομαδοποίησης, του συνεργατικού φιλτραρίσματος και της ανίχνευσης ανωμαλιών- σε τομείς όπως η γονιδιωματική, η ασφάλεια και τα χρηματοοικονομικά. Αυτή η ενημερωμένη έκδοση καλύπτει επίσης την επεξεργασία εικόνας και τη βιβλιοθήκη Spark NLP.
Αν έχετε μια βασική κατανόηση της μηχανικής μάθησης και της στατιστικής και προγραμματίζετε σε Python, αυτό το βιβλίο θα σας βοηθήσει να ξεκινήσετε την ανάλυση δεδομένων μεγάλης κλίμακας.
• Εξοικειωθείτε με το μοντέλο προγραμματισμού και το οικοσύστημα του Spark
• Μάθετε γενικές προσεγγίσεις στην επιστήμη των δεδομένων
• Εξετάστε πλήρεις υλοποιήσεις που αναλύουν μεγάλα δημόσια σύνολα δεδομένων
• Ανακαλύψτε ποια εργαλεία μηχανικής μάθησης έχουν νόημα για συγκεκριμένα προβλήματα
• Εξερευνήστε κώδικα που μπορεί να προσαρμοστεί σε πολλές χρήσεις