Description
En science des données, les données sont dites «volumineuses» si elles ne peuvent pas entrer dans la mémoire d'un seul ordinateur portable ou poste de travail standard. L'analyse de grands ensembles de données nécessite l'utilisation d'un cluster de dizaines, centaines ou milliers d'ordinateurs. L'utilisation efficace de tels clusters nécessite l'utilisation de systèmes de fichiers distribués, tels que le système de fichiers distribués Hadoop (HDFS) et les modèles de calcul correspondants, tels que Hadoop, MapReduce et Spark. Dans ce cours, qui fait partie du programme Data Science MicroMasters, vous apprendrez quels sont les goulots d'étranglement dans le calcul parallèle massif et comment utiliser Spark pour minimiser ces goulots d'étranglement. Vous apprendrez à effectuer un apprentissage automatique supervisé non supervisé sur des ensembles de données massifs à l'aide de la bibliothèque d'apprentissage automatique (MLlib). Dans ce cours, comme dans les autres de ce programme MicroMasters, vous acquerrez une expérience pratique de l'utilisation de PySpark dans l'environnement des notebooks Jupyter.
Prix : GRATUIT pour auditer !
Big Data Analytics Utilisation de Spark via edX, une plate-forme pour l'éducation fondée par Harvard et MIT.
TUN aide les étudiants !
Bourses d'études
Communauté
Droits d'auteur, 2025 - TUN, Inc

