Topicos em BD

Processamento BigData

2017-1

Objetivo

Implementar um programa de processamento de BigData envolvendo fontes variadas de dados. Neste trabalho o aluno esta livre para definir a finalidade específica do programa de acordo com os requisitos mínimos. Este programa ajudará o aluno compreender a API da plataforma Apache Spark e o paradigma MapReduce. O trabalho será apresentado e executado em sala de aula na data a ser acordada.

Requisitos mínimos:

Utilizar a API BigData do Apache Spark
Integrar pelo menos 3 fontes distintas de dados em pelo menos 2 formatos diferentes.
Executar pelo menos 1 algoritmo de Machine Learning

Forma de entrega:

O trabalho deve ser implementado de forma que possa ser executado nas servidoras de computação do Departamento de Informática. Neste modulo estamos utilizando o sistema Zeppelin. Ou seja, o aluno deverá deixar seu trabalho num notebook Zeppelin.

O que deve ser apresentado e entregue no dia da apresentação:

um relatório com no máximo 2 páginas no formato ACM contendo: resumo, introdução explicando o objetivo do programa, as particularidades do programa que o autor julga importante, resultados e uma conclusão.
Deve ser feita a execução do programa em conjunto com slides para explicar o problema e os objetivos.

Equipe:

O trabalho é individual.

Exemplos de trabalhos:

Simulador de eleição para vereador cruzando dados de boletim de urna e doações de campanha. (dados do TSE)
Analisador de streaming de mercado de ações cruzando horario de notícias com valor do stock num periodo de tempo proximo.(Açoes da IBM, RSS com noticias da IBM)

Mais repositórios de dados são encontrados nesses links: Curitiba e governo federal.