• (31) 99973-2709
  • hugomoraismendes@gmail.com

Data Munging

Data Munging

O que é Data Munging?

O Data Munging as vezes é confundido com Data Wrangling, mas o Data Munging é o processo inicial de refinar os dados brutos que obtemos através de arquivos, sites ou banco de dados e deixando eles mais adequados para o consumo de usuários ou sistemas.

A medida em que a diversidade, a experiência e a especialização dos profissionais que trabalham com dados crescem, o “munging” e “wrangling” se tornaram termos genéricos, sendo mais usados de forma análoga à “codificação” para engenheiros de software.

O processo de Data Munging: Uma visão geral

  • Exploração de dados: O processo de Munging geralmente começa com a exploração de dados. Se um analista está apenas olhando dados novos fazendo a análise inicial chamamos de (IDA – Initial Data Analysis), ou quando um Cientista de Dados inicia a busca de novas associações em registros existentes na análise exploratória de dados é chamado de (EDA – Exploratory Data Analysis), a troca sempre começa com algum grau de descoberta de dados.

  • Transformação de dados: Depois de estabelecer uma noção do conteúdo e da estrutura dos dados brutos, os dados devem ser transformados em novos formatos apropriados para o processamento posterior. Esta etapa envolve a pura reestruturação dos dados, desnormalizando tabelas diferentes para que as informações relevantes possam ser acessadas de um local, ou remodelando e agregando dados de séries temporais às dimensões e extensões de interesse.

  • Enriquecimento de dados: Quando os dados estiverem prontos para o consumo, os usuários que optarem por executar o processo poderão executar etapas opcionais de enriquecimento. Isso envolve encontrar fontes externas de informações para expandir o escopo ou o conteúdo dos registros existentes. Por exemplo, usando um conjunto de dados climáticos de código aberto para adicionar temperatura diária aos números de vendas de uma sorveteria.

  • Validação de dados: O passo final é a validação. Nesse ponto, os dados estão prontos para serem usados, mas certas verificações de bom senso ou sanidade são essenciais para a validar a veracidade dos dados. Esta etapa permite que os usuários descubram erros de digitação, mapeamentos incorretos, problemas com as etapas de transformação, até a rara corrupção causada por falha ou erro computacional.

Cloud e o futuro do Data Munging

A computação em nuvem e os Data Warehouses em nuvem geralmente contribuíram para uma expansão maciva dos dados corporativos das organizações. A Data Munging é apenas um termo relevante nos dias atuais, graças à importância de informações rápidas, flexíveis, mas cuidadosamente tratadas, todas elas foram os principais benefícios das plataformas modernas de dados em nuvem.

Agora, conceitos como o Data Lake e as tecnologias NoSQL explodiram a prevalência e a utilidade dos dados e análises de autoatendimento. Usuários individuais em todos os lugares têm acesso a uma quantidade de dados brutos, e são cada vez mais confiáveis para transformar e analisar esses dados de forma eficaz. Esses especialistas devem saber limpar, transformar e verificar todas essas informações em si.

Seja na modernização de sistemas existentes, como Data Warehouses para melhor confiabilidade e segurança, ou capacitando usuários, como Cientistas de Dados, a trabalhar em informações corporativas de ponta a ponta.

Iniciando com o Data Munging

O processo de Data Munging é um procedimento geral para transformar dados de formulários ou planilhas em dados úteis e específicos de casos de uso. Sem o uso das técnicas do Munging, que seja realizado por sistemas automatizados ou usuários especializados, os dados não ficam prontos para qualquer tipo de consumo.

Existem muitas ferramentas poderosas e versáteis, como o Python, que estão tornando cada vez mais fácil para qualquer pessoa fazer uma busca eficaz.

Hugo Mendes

×

Tabela de Conteúdo