• (31) 99973-2709
  • hugomoraismendes@gmail.com

Category Archive Ciência de Dados

Google Colaboratory

O que é o Colaboratory

O Colaboratory ou “Colab” permite escrever código Python no seu navegador, com:

  • Nenhuma configuração necessária;
  • Acesso gratuito a GPUs; e
  • Compartilhamento fácil.

Você pode ser um estudante, um cientista de dados ou um pesquisador de IA, o Colab pode facilitar seu trabalho. Assista ao vídeo Introdução ao Colab para saber mais.

O notebook Colab é um ambiente interativo que permite escrever e executar código.

Os notebooks do Colab permitem combinar código executável e rich text em um só documento, além de imagensHTMLLaTeX e muito mais. Quando você cria seus próprios notebooks do Colab, eles são armazenados na sua conta do Google Drive. É possível compartilhar os notebooks do Colab facilmente com colegas de trabalho ou amigos e permitir que eles façam comentários ou até editem o documento. Para saber mais, consulte a Visão Geral do Colab. Para criar um novo notebook do Colab, use o menu Arquivo acima ou acesse o seguinte: criar um novo notebook do Colab.

 

Ciência de Dados

Com o Colab, você pode aproveitar o todo o potencial das conhecidas bibliotecas Python para analisar e ver dados. O código abaixo usa numpy para gerar dados aleatórios e matplotlib para visualizá-los.

É possível importar para os notebooks do Colab os dados da sua conta do Google Drive, como planilhas. Também é possível importar do GitHub e de muitas outras fontes. Para saber mais sobre como importar dados e como o Colab pode ser usado para a ciência de dados, consulte o link abaixo em Como trabalhar com dados.

Machine Learning

Com o Colab, é possível importar um conjunto de dados de imagem, treinar um classificador de imagens dentro dele e avaliar o modelo, tudo com apenas algumas linhas de código. Os notebooks do Colab executam código dos servidores em nuvem do Google. Isso significa que você pode tirar proveito da potência de hardware do Google, como GPUs e TPUs, independentemente da potência da sua máquina. Você só precisa de um navegador.

O Colab é usado amplamente pela comunidade de machine learning, para aplicações como:

  • Primeiros passos com o TensorFlow
  • Desenvolvimento e treinamento de redes neurais
  • Experimentos com TPUs
  • Divulgar pesquisas em IA
  • Criação de tutoriais

Para ver notebooks do Colab que demonstram aplicações de machine learning, consulte os exemplos de machine learning.

Regressão linear

Sobre regressão linear

A regressão linear é um método estatístico comum, que foi adotado no aprendizado de máquina e aprimorado com muitos novos métodos para ajustar a linha e medir o erro. No sentido mais básico, a regressão se refere à previsão de um alvo numérico. A regressão linear ainda é uma boa escolha quando você deseja um modelo muito simples para uma tarefa preditiva básica. A regressão linear também tende a funcionar bem em conjuntos de dados esparsos e de alta dimensão, sem complexidade.

A relação entre as alturas das crianças e de seus pais foi representada por um modelo matemático, que associa a variável dependente com a variável independente, conhecido como modelo de regressão linear simples.

Essa relação entre as variáveis pode ocorrer de duas maneiras:

  1. Utilizando a análise de regressão
  2. Calculando o coeficiente de correlação de Pearson

análise de regressão avalia a amplitude da variação em uma variável, decorrente da variação em outra variável. Confuso, né? Deixa-me dar alguns exemplos: a variação dos gastos familiares com alimentação em decorrência do quanto de renda a família ganha; a variação da concessão de limite no cartão de crédito em decorrência do salário; o crescimento na taxa de criminalidade, relacionado com o crescimento na taxa de desemprego.

Já o coeficiente de correlação de Pearson informa o quão fortemente duas variáveis estão relacionadas. Essa relação pode variar de -1 a 1 e quanto mais próximo dos extremos, mais forte é a correlação, podendo ser positiva ou negativa. Aquela variável que possui a maior correlação é ideal para usar no modelo.

Por que regressão simples?

Um modelo de regressão simples inclui somente duas variáveis: uma independente e uma dependente. A variável dependente é aquela que está sendo explicada, enquanto a variável independente é aquela que é utilizada para explicar a variação na variável dependente.

Chega mais e confere esses exemplos:

  • Nota de uma prova pode ser explicada pelo tempo de estudo do aluno.
  • Venda de bolos pode ser explicada pelo número de clientes.
  • Consumo de energia do ar-condicionado pela sensação térmica da cidade.
  • Quantidade de metrôs em relação ao número esperado de pessoas no carnaval do Rio de Janeiro.
  • Frequência de compras e-commerce pelo valor do frete cobrado.

Todos os exemplos citado envolvem apenas duas variáveis. Poderiam envolver mais variáveis que explicassem melhor o modelo de regressão simples? Poderia, mas aí não seria regressão simples e sim regressão múltipla.

Por que regressão linear?

Um modelo de regressão linear é uma equação matemática que fornece uma relação linear, ou seja, de linha reta entre duas variáveis, comumente chamada de y. Pelo menos foi assim que aprendemos no ensino médio:

regressão

No entanto, alguns livros ensinam dessa forma aqui:

regressão

Os estatísticos resolveram complicar mais um pouquinho e trocaram as letrinhas. Passaram a usar o alfabeto grego que eles tanto amam.

regressão

Cada um dos conjuntos de valores do estimador de beta zero e estimador de beta 1 fornece uma linha reta diferente. O intercepto é fornecido com base no termo constante na equação e corresponde ao valor do estimador de y quando é zero.

O coeficiente de ou inclinação da linha fornece a quantidade de variação em y estimado, que é decorrente da variação correspondente a uma unidade de x. Esse é o modelo de regressão linear simples.

O modelo de regressão linear simples pode ser determinístico ou probabilístico. Um modelo determinístico fornece uma relação exata entre y. Esse modelo afirma, simplesmente, que é determinado exatamente por x, e que para determinado valor de existe um, e exclusivamente um (único) valor para y.

O modelo pode ser representado por essa equação:

Os betas 0 e 1 são os parâmetros da população. Como os dados da população são difíceis de obter, trabalhamos com os valores estimados, que são calculados utilizando-se de dados gerados pela amostra. Os valores são estimados pela equação:

Entretanto, em muitos casos, a relação entre duas variáveis não é exata. Por causa disso, precisamos levar em consideração a ausência de outras variáveis no modelo e adicionamos o erro aleatório, representado pela letra épsilon. Mais uma letrinha grega para o seu mais novo dicionário.

Quando adicionamos o erro aleatório passamos a ter um modelo probabilístico ou de relação estatística, que representa dois fenômenos:

  1. Variáveis omitidas ou ausentes: o erro aleatório captura os efeitos decorrentes de todas as variáveis que possam não ter sido incluídas no modelo.
  2. Variação aleatória: basicamente causada pelo comportamento humano.

Considerando os dois fenômenos chegamos à uma representação de modelo mais realista.

regressão

O que é regressão linear simples?

Agora que você já sabe o que é regressão linear e regressão simples, juntamos os conceitos e chegamos a essa conclusão: o modelo de regressão linear simples é uma equação matemática que inclui somente duas variáveis e apresenta uma relação em linha reta entre elas. Sacou?

Para que serve?

modelo de regressão serve para prever comportamentos com base na associação entre duas variáveis que geralmente possuem uma boa correlação.

Se você quisesse apenas saber qual o grau de relação entre as variáveis, calcular o coeficiente de Pearson seria suficiente.

Como funciona?

Você precisa conhecer a essência do dado e quanto mais informação você tiver, maior será a sua capacidade de entender a variabilidade de y em função de x.

Com os dados em mãos, faça um gráfico de dispersão (scatter plot) para cada uma das variáveis independentes, calcule o coeficiente de Pearson para as variáveis disponíveis, selecione a mais importante e calcule o intercepto e a inclinação da reta da sua amostra.

Quando tiver feito essas etapas, seu modelo de regressão estará pronto.

No entanto é preciso validar esse modelo. Como você pode fazer isso? Realizando a análise de resíduos.

Eu não vou entrar nesse assunto agora porque o texto já está bem longo. Mas para testar os resíduos (erro aleatório), você precisa validar as premissas do modelo: o erro precisa ter média zero; ter uma distribuição normal; ser independente e ter variância constante. Ok?

Aplicações

As aplicações são infinitas. Eu já citei algumas no início do texto e você pode voltar lá, se quiser. Mas pense assim: tudo que você quiser prever como resultado e puder ser explicado ao máximo com apenas uma variável, poderá aplicar o modelo de regressão simples.

Então segue mais exemplos para reforçar o conhecimento:

  • Produtividade estimada de sacas de café e altitude de plantio (espera-se que quanto mais alto, maior será a produção de café)
  • Número de mortes por doenças isquêmicas do coração em pessoas acima de 60 anos e vacinas contra o vírus da gripe na mesma população (existe uma relação de que quanto maior o número de vacinas, menor o número de mortes)
  • Venda de pipoca e pessoas que vão ao cinema (quanto mais cinéfilos, mais pipoca).

Podemos ficar aqui pensando em várias aplicações e conseguir gerar muitos insights, mas esse não é o propósito do texto.

Agora que você já sabe um pouco mais sobre modelos de regressão linear simples, compartilha com a gente onde e como você aplicaria esta técnica.

E lembre-se, a estatística é a ciência que estuda a incerteza e os modelos sempre apresentarão erros associados. Isso acontece porque existe variabilidade.

No final das contas, a estatística não foi feita para você acertar; o papel dela é direcionar.

Gerar dados aleatórios

Para quem trabalha com Ciência de Dados, e precisa de dados aleatórios para gerar um teste ou fazer uma análise. Recomendo usar o site fakenamegenerator.

Para gerar esses dados, existem 5 passos que vou abordar aqui abaixo:

Passo 1: Concorde com os termos do site (que os dados gerados são falsos).

Passo 2: Selecione um formato de saída e uma compressão, os formatos de saida podem ser:

  • CSV, XLSX, HTM, SQL ou TXT.

Os formatos de compressão podem ser:

  • ZIP ou TAR.GZ.

Passo 3: Selecione o conjunto de dados que deseja, sendo eles nome, países, sexo e idade.

Passo 4: Selecione os campos que deseja incluir no arquivo que será gerado.

 

Passo 5: Insira a quantidade de linhas que deseja ter como resultado (limite 100.000). 

O resultado chegará no e-mail.

Passo 6: Insira a quantidade de linhas que deseja ter como resultado (limite 100.000). 

E por fim conforme a solicitação marcando a caixa do reCAPTCHA e em alguns minutos terá o resultado no e-mail.

Veja abaixo o arquivo é recebido no e-mail.