O desafio faz parte do curso na plataforma da Digital Innovation One:
Criando um ecossistema Hadoop totalmente gerenciado com Google Cloud Platform
O desafio consiste em efetuar um processamento de dados utilizando o produto Dataproc do GCP. Esse processamento irá efetuar a contahem das palavras de um livro e informar quantas vezes cada palavra aparece no mesmo.
De acordo com o relatório obtido pelo arquivo part-00000 as seguintes palavras são as que mais foram usadas no livro:
| # | Palavra | Ocorrências |
|---|---|---|
| 1 | the | 4066 |
| 2 | and | 2969 |
| 3 | of | 2746 |
| 4 | I | 2719 |
| 5 | to | 2144 |
| 6 | my | 1631 |
| 7 | a | 1394 |
| 8 | in | 1129 |
| 9 | was | 994 |
| 10 | that | 986 |
Ainda segundo relatório o caractere vazio '' apareceria em 1186 vezes, ocupando a 8ª posição. Porém, como o caractere vazio não representa uma palavra, foi descartado da lista.