Neste artigo, exploraremos o passo a passo para enriquecer e validar dados relevantes para a modelagem preditiva de turnover. Abordaremos as principais atividades realizadas, como a combinação de variáveis, criação de novas dimensões, discretização, transformações matemáticas e tratamento de valores ausentes. Além disso, destacaremos a importância do pré-processamento, análise exploratória e validação dos dados antes de aplicar modelos de machine learning para prever o turnover.

O Problema de Negócio do Case 2

O artigo aborda o passo a passo para resolver o case 2, que tem o mesmo problema de negócio do case 1: ajudar gerentes de empresa a prever se os funcionários irão pedir demissão em breve. O artigo utiliza dados de pesquisas de satisfação e felicidade dos funcionários para estruturar, limpar e enriquecer um dataset final para modelos preditivos.

  • A importância de prever a rotatividade de funcionários para empresas
  • Utilização de dados de pesquisas de satisfação e felicidade dos funcionários para análise preditiva
  • Estruturação e limpeza de dados para modelos preditivos

Arquivos Utilizados

Os arquivos utilizados incluem um novo arquivo com várias colunas criadas no case 1 e duas novas colunas: tipo da empresa (produto ou serviço) e sexo do funcionário. Além disso, foram utilizados dois arquivos pré-tratados no case 1: comentários feitos pelos funcionários e interações nos comentários (likes e dislikes).

  • Importância das variáveis tipo da empresa e sexo do funcionário
  • Utilização de comentários e interações como fonte de dados
  • Pré-tratamento de arquivos para análise de dados

Atividades Realizadas

As principais atividades realizadas incluem a combinação de variáveis, a criação de uma nova variável para medir o sentimento em relação aos comentários, e a identificação de valores nulos e infinitos.

  • Criação de nova variável para medir sentimento em relação aos comentários
  • Identificação e tratamento de valores nulos e infinitos
  • Importância da análise de sentimentos em dados de feedback dos funcionários

Tratamento de Dados

Para garantir a qualidade e confiabilidade dos dados, foram realizados tratamentos específicos, tais como a substituição de valores nulos por 1, indicando igualdade entre likes e dislikes. Além disso, valores infinitos foram discretizados em faixas utilizando a técnica K-Means Discretizer, considerando o número de likes superior ao de dislikes. O resultado foi a criação de uma nova variável com 3 faixas indicando a relação entre likes e dislikes.

  • Substituição de valores nulos por 1 para indicar igualdade entre likes e dislikes
  • Discretização de valores infinitos em faixas utilizando a técnica K-Means Discretizer
  • Criação de uma nova variável com 3 faixas indicando a relação entre likes e dislikes

Criação de Nova Dimensão

Foi realizada a criação de uma nova dimensão ao cruzar os dados de comentários e interações com a variável target de churn. Para cada funcionário, foi calculada a taxa de churn dos comentários curtidos e descurtidos, ou seja, a porcentagem de autores desses comentários que pediram demissão posteriormente. Este processo envolveu a mesclagem de bases de dados, o cruzamento com interações nos comentários e a aplicação da técnica Pivot Table para calcular a média do churn por funcionário.

  • Cálculo da taxa de churn dos comentários curtidos e descurtidos por funcionário
  • Mesclagem de bases de dados
  • Cruzamento com interações nos comentários
  • Aplicação da técnica Pivot Table para calcular a média do churn por funcionário

Enriquecimento de Variáveis

Algumas variáveis foram aprimoradas utilizando a técnica Box-Cox, que otimiza a distribuição dos dados ao elevá-los a um fator lambda. Isso contribui para a redução de outliers e melhora a distribuição dos dados, resultando em uma maior confiabilidade e precisão nas análises.

  • Utilização da técnica Box-Cox para aprimorar variáveis
  • Redução de outliers
  • Melhoria na distribuição dos dados

Análise exploratória de dados

Durante a análise exploratória, foram identificadas correlações entre variáveis, como o número de votos e churn, que aumentou de 0.08 para 0.1 após a transformação.

  • Identificação de correlações entre variáveis como forma de compreender seu impacto no churn
  • Exemplo de aumento da correlação entre o número de votos e churn após transformação
  • Importância da análise exploratória para compreender o comportamento das variáveis

Tratamento de variáveis categóricas

As variáveis categóricas de sexo e tipo de empresa foram tratadas com a técnica de one-hot encoding, após análise dos valores ausentes.

  • Aplicação da técnica de one-hot encoding para tratar variáveis categóricas
  • Análise dos valores ausentes antes do tratamento das variáveis categóricas
  • Importância do tratamento adequado das variáveis categóricas para a qualidade dos dados

Validação e limpeza final

Foram realizadas atividades de validação, incluindo análise de correlação das novas variáveis com o churn, tratamento de valores nulos remanescentes e filtragem das variáveis para o dataset final.

  • Importância da validação para garantir a qualidade e confiabilidade dos dados
  • Análise de correlação das novas variáveis com o churn como parte da validação
  • Identificação e tratamento de valores nulos remanescentes para manter a integridade dos dados

O artigo enfatiza a importância do pré-processamento, análise exploratória, enriquecimento e validação dos dados antes da modelagem preditiva, destacando técnicas como combinação de variáveis, criação de novas dimensões, discretização, transformações matemáticas, tratamento de valores ausentes e análise de correlações.

  • Enfatização da importância das etapas iniciais do processo de análise de dados
  • Destaque para as técnicas utilizadas, como combinação de variáveis e criação de novas dimensões
  • Ênfase na necessidade de dados limpos, enriquecidos e validados para a modelagem preditiva

Conclusão

Ao enriquecer o dataset com novas variáveis relevantes ao problema e realizar as etapas de pré-processamento, análise exploratória, enriquecimento e validação dos dados, estamos preparados para utilizar modelos de machine learning voltados à predição de turnover. Este caso prático permitiu exercitar diversas técnicas importantes, essenciais para a construção de um dataset final limpo, enriquecido e validado.