Mudança de Endereço!

Migramos para um novo endereço. Agora, estamos em: www.estatsite.com.br !

 

Missing no Python: Como Localizar e Substituir

Nenhuma base de dados vem completa. Se você não sabe disso, já é bom ter conhecimento de que isso é um fato. Na vida real, as bases são bem diferentes do que costumamos ver na academia ou até mesmo em sites como Kaggle (embora algumas tenham missing por lá). Sendo assim, é importante saber como lidar quando se deparar com um conjunto de dados em que haja algo faltando. Aqui, construímos um dataframe no Pandas contendo algumas linhas missing. Vejamos como localizar essas linhas, como contar a quantidade de campos missing, como substituir esse campo por média ou mediana (da coluna completa ou por grupos), dentre outras coisas. (mais…)

Random Forest

Random Forest é um poderosíssimo modelo que tem ganhado muita força no mercado. É um modelo que chamamos de ensembled, um método de aprendizado ensembled. Esse nome inglês, que até o momento eu desconheço tradução – e se tiver, é pouco usada -, consiste em combinar diferentes métodos de aprendizado. Por esse motivo, são modelos mais poderosos e que obtém maior acurácia que modelos tradicionais, ainda que, obviamente, também tenham seus riscos. No post de hoje, vou falar, de forma simplificada, como funciona o Random Forest e também deixar o código em Python para que vocês pratiquem. (mais…)

Machine Learning do Zero no R

Atenção, agora o EstatSite está em um novo endereço: www.EstatSite.com.br! Em breve, o domínio ‘.com’ será desativado. Acesse o novo endereço e se inscreva para não perder nenhuma novidade!!!

 

Análogo ao que foi feito no post Machine Learning do Zero no Python, teremos agora no blog um tutorial bem básico, do ZERO, para quem quer aprender Machine Learning, mas no R – mais especificamente, no RStudio. Não fique com medo por ser um post mais extenso, você pode fazer um pouco cada dia durante um certo período de tempo, caso sinta que está pesado demais.

Pode ter certeza de que o que você verá abaixo é boa parte do dia à dia de um cientista de dados, todas as tarefas aqui são extremamente comuns na rotina da área e vai ser um ótimo começo para qualquer um. Na verdade, mesmo se você tiver um leve domínio, talvez possa tirar proveito de muitas das tarefas aqui executadas. Sem mais delongas, vamos ao tutorial! (mais…)

Regressão Linear no Python

Como já expliquei em vários outros posts, Regressão Linear é uma técnica muito utilizada em modelagem – caso não se recorde, visite os posts Regressão Linear Simples – Parte 1Regressão Linear Simples – Parte 2Regressão Linear Simples – Parte 3 e Regressão Linear Múltipla. Em suma, um modelo linear será a soma ponderada de uma ou mais variáveis, chamadas de variáveis independentes ou explicativas, que irão predizer uma varável-alvo, também chamada de variável dependente ou resposta. Agora, vamos ver como você consegue rodar esse modelo no Python. (mais…)

Machine Learning do Zero no Python

Recentemente, estive na Python Brasil 2019. Um evento muito legal, falei um pouco sobre ele no Twitter do EstatSite (veja a thread aqui), e, inclusive, estou devendo um post aqui no blog. Acabei participando de um tutorial chamado “Machine Learning do Zero”, dado pelo Tarsis Azevedo – o cara é fera, recomendo que acompanhem o trabalho dele pelo Twitter ou Github, @tarsisazevedo. Aqui, vai o código feito em sala de aula, com algumas alterações e comentários que inclui porque achei relevante – outras porque achei que poderia facilitar para os mais novos

Atualização: Vocês agora podem visitar o post Regressão Linear no Python para aprender mais sobre regressão linear utilizando Python! (mais…)

Listas de Econometria (2): Demonstrações Envolvendo Somatória

Dando continuidade às resoluções de exercícios de Econometria I, seguem mais alguns que são comuns de se ver nas primeiras listas da disciplina. Dessa vez, são demonstrações que envolvem lidar com a somatória. São exercícios simples, pouco trabalhosos, mas que são muito úteis para entender o resto da matéria. Inclusive, um deles servirá de base para a demonstração que está em Listas de Econometria (1): Derivando os Parâmetros de uma Regressão Linear Simples. Eu espero de verdade que isso ajude quem está apanhando da matéria. Qualquer problema no entendimento, até se achar que algo não está legível, não hesite em me contatar. Bora passar nessa matéria! (mais…)