Pero no por ello, todo vale, ni toda la información es correcta, lo contrario, alguna puede llevarnos a estrategias equivocadas. Los datos se han convertido en el elemento esencial que permite lograr la información que ayudará a entender como se comporta el consumidor, qué es lo que busca, qué forma es la más efectiva para ofrecérselo, los segmentos de población más rentables entre otras muchas variables fundamentales para la estrategia comercial y de marketing.
Para conseguirlo, es necesario establecer una pauta de trabajo correcta, una estrategia que analice todos las fases y establezca la pautas correctas. Desde como tabular los datos o que modelos de análisis y predicción son los más ajustados. Aunque el principal error suele estar en la primera fase, en la elección de los datos. Si no se escogen correctamente, podemos encontrarnos con datos sucios o dirty data que pueden distorsionar los resultados conseguidos.
¿Qué es el dirty data?
El dirty data tiene distintos orígenes y procede siempre de información desestructurada por una premisa que es básica, ni todos los clientes proporcionan toda la información ni esta es 100% real en todos los casos. Por ello el primer punto es tratarla y analizar antes de ser volcada en una base de datos. ¿Cómo hacerlo?
Parte de la información de muchos de los procesos es 100% fiable, esta se basa en transacciones reales tanto en compra como por ejemplo en visitas a nuestra página web. Allí encontraremos información sobre cuándo se compra, que segmento de población es el más interesado en un producto, etc. Estos datos junto a otros externos nos permitirán hacer contraste y criba de la información y quedarnos sólo con los datos válidos y en cualquier caso eliminar los que nos distorsionan los resultados como falsos.
El segundo punto de dirty data está en los datos obsoletos. Hay información que tiene una estabilidad a lo largo de tiempo, pero mucha de ellas cambia como lo hacen los hábitos de compra. No hace falta prescindir de los antiguos y quedarnos con los más actuales para así evitar riesgos, estos suele solucionarse cuanto más larga sea la serie de información que tengamos.
Por todo ello, el primer punto de cualquier estrategia basada en big data está en analizar la información y utilizar las herramientas estadísticas que depuren la información y eliminen unos errores que nos pueden costar muy caros.