Les bases de Spark - scala

Contexte

Dans ce dépôt, j'ai mis des exemples pratiques des commandes Apache Spark avec Scala. Le but est de vous montrer comment créer, importer et manipuler des fichiers rdd et datasets avec scala dans un environnement Spark (Databricks).

Les fichiers avec extention /databricks_files/*.dbc sont des fichiers databricks que vous pouvez réutiliser, sinon, vous pouvez utiliser les fichier .scala diréctement.

Scala vs Python pour Apache Spark

Apache Spark, le célèbre framework d’analyse Big Data, est écrit en Scala. C’est ce qui lui permet d’offrir une vitesse élevée grâce à sa nature statique. Toutefois, Spark propose des APIs pour Scala, Python, Java et R. Les deux langages les plus utilisés pour Spark sont Scala et Python.

En termes de performances, Scala est dix fois plus rapide que Python. Ce langage utilise Java Virtual Machines pendant le runtime, ce qui lui offre une vitesse accrue dans la plupart des cas. La nature dynamique de Python réduit aussi sa vitesse.

Les bibliothèques Spark doivent être appelées par Python, et ceci requiert beaucoup de traitement de code. Dans ce cas de figure, Scala fonctionne bien avec un nombre de coeurs limité.

De plus, Scala interagit mieux avec les services Hadoop et notamment le système de fichiers HDFS sur lequel est basé Spark. Avec Python, les développeurs doivent utiliser des bibliothèques tierces comme Hadoopy, alors que Scala interagit avec Hadoop via des API natives en Java. Il est donc plus facile d’écrire des applications Hadoop natives en Scala.

Sources

Les exemples sont issus de la formation Machine Learning with Apache Spark 3.0 using Scala que j'ai suivi sur Udemy. Comparaison Scala vs Python : Datascientest

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
data		data
databricks_files		databricks_files
README.md		README.md
Spark Practice 1.scala		Spark Practice 1.scala
Spark Practice 2 manipulate dataframes.scala		Spark Practice 2 manipulate dataframes.scala
Spark Practice 3 variables and values.scala		Spark Practice 3 variables and values.scala
import_data_in_spark.scala		import_data_in_spark.scala

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Les bases de Spark - scala

Contexte

Scala vs Python pour Apache Spark

Sources

About

Uh oh!

Releases

Packages

Languages

AbdelmajidLh/Spark_practices

Folders and files

Latest commit

History

Repository files navigation

Les bases de Spark - scala

Contexte

Scala vs Python pour Apache Spark

Sources

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages