Available options are listed below:
Aprenda Apache Spark: Construa Pipelines Escaláveis com PySpark e Otimização
| AUTHOR | Smart Tech Content, Studiod21; Rodrigues, Diego |
| PUBLISHER | Independently Published (06/25/2025) |
| PRODUCT TYPE | Paperback (Paperback) |
APRENDA APACHE SPARK Construa Pipelines Escaláveis com PySpark e Otimização
Este livro é indicado para estudantes, desenvolvedores, engenheiros de dados, cientistas de dados e profissionais de tecnologia que buscam dominar Apache Spark na prática, em ambientes corporativos, cloud pública e integrações modernas. Você aprenderá a construir pipelines escaláveis para processamento de dados em larga escala, orquestrando workloads distribuídas com AWS EMR, Databricks, Azure Synapse e Google Cloud Dataproc. O conteúdo abrange integração com Hadoop, Hive, Kafka, SQL, Delta Lake, MongoDB e Python, além de técnicas avançadas de tuning, otimização de jobs, análise em tempo real, machine learning com MLlib e automação de workflows. Inclui:
- Implementação de pipelines ETL e ELT com Spark SQL e DataFrames
- Processamento de dados em streaming e integração com Kafka e AWS Kinesis
- Otimização de jobs distribuídos, tuning de performance e uso de Spark UI
- Integração de Spark com S3, Data Lake, NoSQL e bancos relacionais
- Deploy em clusters gerenciados na AWS, Azure e Google Cloud
- Machine Learning aplicado com MLlib, Delta Lake e Databricks
- Automação de rotinas, monitoramento e escalabilidade para Big Data
Ao final, você dominará Apache Spark como solução profissional para análise de dados, automação de processos e machine learning em ambientes complexos e de alta performance.
apache spark, big data, pipelines, processamento distribuído, aws emr, databricks, streaming, etl, machine learning, integração cloud
APRENDA APACHE SPARK Construa Pipelines Escaláveis com PySpark e Otimização
Este livro é indicado para estudantes, desenvolvedores, engenheiros de dados, cientistas de dados e profissionais de tecnologia que buscam dominar Apache Spark na prática, em ambientes corporativos, cloud pública e integrações modernas. Você aprenderá a construir pipelines escaláveis para processamento de dados em larga escala, orquestrando workloads distribuídas com AWS EMR, Databricks, Azure Synapse e Google Cloud Dataproc. O conteúdo abrange integração com Hadoop, Hive, Kafka, SQL, Delta Lake, MongoDB e Python, além de técnicas avançadas de tuning, otimização de jobs, análise em tempo real, machine learning com MLlib e automação de workflows. Inclui:
- Implementação de pipelines ETL e ELT com Spark SQL e DataFrames
- Processamento de dados em streaming e integração com Kafka e AWS Kinesis
- Otimização de jobs distribuídos, tuning de performance e uso de Spark UI
- Integração de Spark com S3, Data Lake, NoSQL e bancos relacionais
- Deploy em clusters gerenciados na AWS, Azure e Google Cloud
- Machine Learning aplicado com MLlib, Delta Lake e Databricks
- Automação de rotinas, monitoramento e escalabilidade para Big Data
Ao final, você dominará Apache Spark como solução profissional para análise de dados, automação de processos e machine learning em ambientes complexos e de alta performance.
apache spark, big data, pipelines, processamento distribuído, aws emr, databricks, streaming, etl, machine learning, integração cloud
