Analisis del Dataset

Carga de los datos a un DataFrame de Pandas

Con la ayuda de la multiples librerias de Python procedemos a analizar los datos del dataset y a limpiarlo, normalizarlo y analizarlo.

# cargar los datos desde el archivo csv.

import pandas as pd
import csv
import numpy as np
import matplotlib.pyplot as plt
import random as rnd
import seaborn as sns

El dataset contiene 444448 registros sin valores nulos

El dataset esta compuesto por:

Utilizando Data Wrangler profundizamos el analisis exploratorio de cada columna, su informacion, oportunidades y sugerencias.

Variables e informacion del dataset

1. vru.line

En esta columna se designa el VRU que atiende la llamada, es unico para cada call_id
Pero hay 6 VRU con capacidad para asignar lineas del 1 al 16.
En esta columna no hay datos faltantes.
Y el datatype es object, deberia ser string.

Sugerencias

Hay solo 31 lineas que se utilizan de manera regular de un total de 65 lineas disponibles.
Esto es obvio al analizar la distribucion de frecuencia de los VRU, cantidad de llamadas por ano por VRU

2. call_id

Es la identificacion que se le asigna a cada llamada entrante.
Vemos que en el dataset existen 444.443 registros, pero solo hay 54.472 call_id.
El VRU designa este numero, pero se puede ver que el mismo numero corresponde a llamadas diferentes en momentos diferentes

Por lo que los call_id se repiten el mismo para distintas llamadas

Sugerencia

Este campo deberia ser Primary Key utilizarse como clave.
Otra alternativa es combinar call_id + vru.line para identificar cada registro

3. customer_id

Tiene el 53% de los valores es cero = 234.552 registros de un total de 444.443
Prospectos de Clientes deberian ser los que tengan type == 'NW' customer_id == 0
- El 0 solo deberia utilizarse para aquellas llamadas de prospectos de clientes.
  Estos son solo 14.381 registros del total de llamados recibidos.
Esto es 53% de las llamadas recibidas no identifican al cliente
- Vamos a identificar estas llamadas como customer_id = 'CustNotId'
- Estos clientes pudieran resultar ser clientes prioritarios que estan siendo atendidos sin prioridad.
- Estos deberian ser solo los prospectos de clientes, todos los clientes regulares deberian estar identificados y ser minimos los clientes no identificados.
Clientes regulares sin identificar
Se han recibido 220.171 llamados de clientes regulares que no fueron identificados al momento de ingresar en el call_center.
Limpieza
1. Tenemos valores guardados como floats, corregimos el datatype.
2. Vamos a identificar los Prospectos de Clientes como 'ProspectCust'= 999999999999
3. Todos las llamadas que corresponden a clientes regulares y prioritarios sin identificar los vamos designar como 'CustNotId'= 0

4. priority

Todos los clientes deberian ser identificados y acorde al servicio, asignada una prioridad. Al ser defectuoso el proceso de identificacion de los clientes, la asignacion de prioridades tambien esta funcionando o seteada con fallas.

Funcionamiento ideal

Del total de los clientes identificados:
- Clientes con Prioridad (priority = 2) son 137.453, el 31% del total de las llamadas y el 65% de las llamadas identificadas
- Clientes Regulares (priority = 1) son 71.827, el 16% del total de las llamadas y el 34% de las llamadas identificadas
Clientes no identificados:
- Verificamos que todos los Prospectos de clientes tengan prioridad 0

Analisis:

El 85% de las llamadas entrantes son de clientes, aunque solo se identificaron como clientes solo el 47%.
- El 15% son Prospectos de Clientes.
- Del restante 85% correspondientes a clientes: _ solo 47% se identifican como clientes. _ 65% son prioritarios = 31% del total de llamadas * 34% son regulares = 16% del total de llamadas
Limpieza
Normalizamos los tipos corrigiendo los valores TT y AA.
Eliminamos los registros AA.
Corregimos ' TT' por 'TT'

5. type

Hay 6 posibles servicios que provee el call center a los clientes que se contactan:
1. PS = Actividad regular
2. PE = Actividad regular en ingles
3. NE = Actividad Acciones
4. IN = Soporte Home-Banking
5. TT = Solicitud de contacto directo del banco
6. NW = Cliente Potencial - informacion

-   El 68% de los contactos al call center son para resolver actividades regulares.
-   La segunda actividad del call center en orden de importancia, son los contactos de los prospectos de cliente, 15% de los contactos
-   La tercera es suporte sobre Mercado de acciones con el 9% de los contactos.
-   Por ultimo, solo 5% de los contactos son para recibir soporte para Home-Banking
-   Y un 3% unicamente solicita que el banco los contacte de manera directa.

6. date

Tenemos registradas 444.443 llamadas a lo largo de todo un ano.

Analizando la frecuencia y cantidad de llamadas por mes, podemos ver que la cantidad de llamadas recibidas por mes es bastante constante:

El promedio de llamadas recibidas por mes es de 37.036 llamadas y con un desvio estandar de 4.242 llamadas.
El mes que mas llamadas se registraron fue Diciembre con un total 43.065 llamadas
El mes que menos llamadas registro fue Septiembre con un total de 31.370 llamadas
La amplitud es de 11.695 llamadas.

7. vru_entry

13. outcome

Hay 3 posibilidades de resolucion de una llamada:

AGENT = que corresponde a los llamados atendidos por los agentes del call center, son el 79% de las llamadas
HANG = el cliente corta el llamado antes de ser atendido. Son el 20% de las llamadas ingresadas.
PHANTOM = una llamada en la que virtualmente se ignora. Son 4.440 llamadas en total, un promedio de 12 llamadas por dia. Un 1%

18. Stardate

No esta definida dentro del proceso del callcenter, por lo que no se le puede asignar un significado a la misma ni relacionarla con algo en especial. Es por ello que vamos a proceder a eliminar esta columna, y descartarla de nuestro analisis.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Diccionario_data.md

Diccionario_data.md

Analisis del Dataset

Carga de los datos a un DataFrame de Pandas

El dataset contiene 444448 registros sin valores nulos

Variables e informacion del dataset

1. vru.line

Sugerencias

2. call_id

Sugerencia

3. customer_id

4. priority

5. type

6. date

7. vru_entry

13. outcome

18. Stardate

Files

Diccionario_data.md

Latest commit

History

Diccionario_data.md

File metadata and controls

Analisis del Dataset

Carga de los datos a un DataFrame de Pandas

El dataset contiene 444448 registros sin valores nulos

Variables e informacion del dataset

1. vru.line

Sugerencias

2. call_id

Sugerencia

3. customer_id

4. priority

5. type

6. date

7. vru_entry

13. outcome

18. Stardate