Tutorial do PySpark

Apache Spark está escrito na linguagem de programação Scala. Para dar suporte ao Python com Spark, a comunidade Apache Spark lançou uma ferramenta, o PySpark. Usando o PySpark, você também pode trabalhar com RDDs na linguagem de programação Python. É por causa de uma biblioteca chamada Py4j que eles conseguem isso. Este é um tutorial introdutório, que aborda os conceitos básicos de documentos orientados a dados e explica como lidar com seus vários componentes e subcomponentes.

Público

Este tutorial foi preparado para os profissionais que aspiram a fazer carreira na linguagem de programação e na estrutura de processamento em tempo real. Este tutorial destina-se a tornar os leitores confortáveis em iniciar o PySpark, juntamente com seus vários módulos e submódulos.

Pré-requisitos

Antes de prosseguir com os vários conceitos dados neste tutorial, presume-se que os leitores já estejam cientes sobre o que é uma linguagem de programação e uma estrutura. Além disso, será muito útil se os leitores tiverem um bom conhecimento do Apache Spark, Apache Hadoop, Linguagem de Programação Scala, Hadoop Distributed File System (HDFS) e Python.