Αλγοριθμική Επιστήμη Δεδομένων με Pyspark

Η ταχύτητα του Apache Spark, η ευκολία χρήσης του, οι προηγμένες δυνατότητες αναλυτικής επεξεργασίας και η υποστήριξη πολλαπλών γλωσσών καθιστούν τη γνώση αυτού του πλαισίου υπολογιστών κατανεμημένων πόρων απαραίτητη δεξιότητα για μηχανικούς δεδομένων και επιστήμονες δεδομένων. Με αυτόν τον πρακτικό οδηγό, όποιος αναζητά μια εισαγωγή στο Spark θα μάθει αποτελεσματικούς αλγόριθμους και παραδείγματα με χρήση του PySpark.

Σε κάθε κεφάλαιο, ο συγγραφέας Mahmoud Parsian δείχνει πώς να λύνετε ένα πρόβλημα δεδομένων με ένα σύνολο μετασχηματισμών και αλγορίθμων του Spark. Θα μάθετε να αντιμετωπίζετε προβλήματα που σχετίζονται με ETL, σχεδιαστικά πρότυπα, αλγόριθμους μηχανικής μάθησης, κατάτμηση δεδομένων και ανάλυση γονιδιωματικής. Κάθε λεπτομερές παράδειγμα εφαρμογής περιλαμβάνει αλγορίθμους PySpark χρησιμοποιώντας τον driver του PySpark σε κατάλληλο διαδραστικό περιβάλλον.

ISBN:9789925353026
Έτος έκδοσης: 2025
Περισσότερα

90.00€

Εξαντλήθηκε

Με αυτό το βιβλίο, θα:
• Εξερευνήστε τη MySQL από τη δομή της βάσης δεδομένων έως τις σύνθετες ερωτήσεις
• Μάθετε πώς να επιλέγετε μετασχηματισμούς Spark για βελτιστοποιημένες λύσεις
• Εξερευνήσετε ισχυρούς μετασχηματισμούς και συνενώσεις όπως reduceByKey(), combineByKey() και mapPartitions()
• Κατανοήσετε την κατάτμηση δεδομένων για βελτιστοποιημένα ερωτήματα
• Δημιουργήσετε και να εφαρμόσετε ένα μοντέλο χρησιμοποιώντας σχεδιαστικά πρότυπα PySpark
• Εφαρμόσετε αλγόριθμους εύρεσης μοτίβων σε δεδομένα γράφων
• Αναλύσετε δεδομένα γράφων με χρήση του API GraphFrames
• Εφαρμόσετε αλγόριθμους PySpark σε δεδομένα κλινικής και γονιδιωματικής
• Μάθετε πώς να χρησιμοποιείτε και να εφαρμόζετε τεχνικές μηχανικής χαρακτηριστικών σε αλγορίθμους μηχανικής μάθησης
• Κατανοήσετε και να χρησιμοποιήσετε πρακτικά πρότυπα σχεδίασης δεδομένων


ΠΡΟΗΓΜΕΝΗ ΑΝΑΛΥΤΙΚΗ ΜΕ PySpark
Ο όγκος των δεδομένων που παράγονται σήμερα είναι τεράστιος και αυξάνεται συνεχώς. Το Apache Spark έχει αναδειχθεί ως το de facto εργαλείο για την ανάλυση μεγάλων δεδομένων (big data) και αποτελεί πλέον κρίσιμο μέρος της εργαλειοθήκης της επιστήμης δεδομένων. Ενημερωμένος για το Spark 3.0, αυτός ο πρακτικός οδηγός συνδυάζει το Spark, τις στατιστικές μεθόδους και πραγματικά σύνολα δεδομένων για να σας διδάξει πώς να προσεγγίζετε προβλήματα ανάλυσης χρησιμοποιώντας το PySpark, το API του Spark για Python, καθώς και άλλες βέλτιστες πρακτικές στον προγραμματισμό με το Spark. Οι επιστήμονες δεδομένων Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen και Josh Wills προσφέρουν μια εισαγωγή στο οικοσύστημα Spark, και στη συνέχεια καταδύονται σε πρότυπα που εφαρμόζουν κοινές τεχνικές -συμπεριλαμβανομένων της ταξινόμησης, της ομαδοποίησης, του συνεργατικού φιλτραρίσματος και της ανίχνευσης ανωμαλιών- σε τομείς όπως η γονιδιωματική, η ασφάλεια και τα χρηματοοικονομικά. Αυτή η ενημερωμένη έκδοση καλύπτει επίσης την επεξεργασία εικόνας και τη βιβλιοθήκη Spark NLP.


Αν έχετε μια βασική κατανόηση της μηχανικής μάθησης και της στατιστικής και προγραμματίζετε σε Python, αυτό το βιβλίο θα σας βοηθήσει να ξεκινήσετε την ανάλυση δεδομένων μεγάλης κλίμακας.
• Εξοικειωθείτε με το μοντέλο προγραμματισμού και το οικοσύστημα του Spark
• Μάθετε γενικές προσεγγίσεις στην επιστήμη των δεδομένων
• Εξετάστε πλήρεις υλοποιήσεις που αναλύουν μεγάλα δημόσια σύνολα δεδομένων
• Ανακαλύψτε ποια εργαλεία μηχανικής μάθησης έχουν νόημα για συγκεκριμένα προβλήματα
• Εξερευνήστε κώδικα που μπορεί να προσαρμοστεί σε πολλές χρήσεις

Διαστασεις (cm) :
  • 21x29
Σελίδες :
  • 944
Εξώφυλλο βιβλίου :
  • Μαλακό


Ενότητα 1
ΜΕΡΟΣ Ι: Θεμελιώδεις Έννοιες
1. Εισαγωγή στο Spark και το PySpark
2. Μετασχήματισμοί σε Δράσή
3. Μετασχήματισμοί τύπου Mapper
4.Μειώσεις (Reductions) στο Spark


ΜΕΡΟΣ IΙ: Εργασία με Δεδομένα
5. Διαμέρισή Δεδομένων
6. Αλγόριθμοι Γράφων
7. Αλλήλεπίδρασή με Εξωτερικές Πήγές Δεδομένων
8. Αλγόριθμοι Κατάταξής


ΜΕΡΟΣ ΙΙΙ: Σχεδιαστικά Πρότυπα Δεδομένων
9. Κλασικά Σχεδιαστικά Πρότυπα Δεδομένων
10. Πρακτικά Σχεδιαστικά Πρότυπα Δεδομένων
11. Σχεδιαστικά πρότυπα συνένωσής δεδομένων
12. Μήχανική Χαρακτήριστικών (Feature Engineering) στο PySpark


Ενότητα 2
13. Ανάλυσή Μεγάλων Δεδομένων
14. Εισαγωγή στήν ανάλυσή δεδομένων με το PySpark
15. Συστάσεις μουσικής και το σύνολο δεδομένων Audioscrobbler
16. Δήμιουργία προβλέψεων με δέντρα αποφάσεων και δάσή αποφάσεων
17. Ανίχνευσή ανωμαλιών με ομαδοποίήσή K-means
18. Κατανόήσή τής Wikipedia με LDA και Spark NLP
19. Ανάλυσή γεωχωρικών και χρονικών δεδομένων
20. Εκτίμήσή του χρήματοοικονομικού κινδύνου
21. Ανάλυσή Γονιδιωματικών Δεδομένων και το έργο BDG
22. Ανίχνευσή ομοιότήτας εικόνας με βαθιά μάθήσή και PySpark LSH
23. Διαχείρισή του κύκλου ζωής τής μήχανικής μάθήσής με το MLflow


Ευρετήριο

Τα cookies είναι σημαντικά για την εύρυθμη λειτουργία του Broken Hill Publishers LTD και για την βελτίωση της online εμπειρία σας.
Επιλέξτε «Αποδοχή» ή «Ρυθμίσεις» για να ορίσετε τις επιλογές σας.
Απαραίτητα
Τα απολύτως απαραίτητα cookies είναι ουσιαστικής σημασίας για την ορθή λειτουργία του ιστότοπου και δεν μπορούν να απενεργοποιηθούν. Αυτά τα cookies δεν αναγνωρίζουν την ατομική σας ταυτότητα. Εάν ρυθμίσετε τον browser σας, ώστε να μπλοκάρει τη χρήση αυτών των cookies η Ιστοσελίδα ή ορισμένα τμήματα αυτής δεν θα λειτουργούν.
Στατιστικά

Τα στατιστικά cookies μας δίνουν τη δυνατότητα να αξιολογούμε την αποτελεσματικότητα των διάφορων λειτουργιών του site μας ώστε να βελτιώνουμε συνεχώς την εμπειρία που προσφέρουμε.

Τα εργαλεία που χρησιμοποιούμε περιλαμβάνουν τα Google Analytics, Hotjar, Skroutz Analytics, Facebook Pixel, Pinterest Tag.

Διάφορα

Αυτά τα cookies χρησιμοποιούνται από υπηρεσίες τρίτων για διάφορες λειτουργίες όπως αλληλεπίδραση με κοινωνικά δίκτυα, χάρτες, κτλ. Χωρίς αυτά οι επιπλέον λειτουργίες δεν θα είναι διαθέσιμες.

Τα εργαλεία που χρησιμοποιούμε περιλαμβάνουν τα Google Maps, AddThis social/share buttons, SnapWidget / Instagram widget.