Un lago de datos es un lugar para almacenar sus datos estructurados y no estructurados, así como un método para organizar grandes volúmenes de datos muy diversos de diversas fuentes.
Los lagos de datos son cada vez más importantes a medida que las personas, especialmente en los negocios y la tecnología, quieren realizar una exploración y descubrimiento de datos más amplios . Reunir datos en un solo lugar o la mayor parte en un solo lugar puede ser útil para eso.
Dependiendo de su plataforma, el lago de datos puede hacer que sea mucho más fácil. Puede manejar muchas estructuras de datos, como datos no estructurados y estructurados, y puede ayudarlo a obtener valor de sus datos.
¿Qué diferencia a un lago de datos de un almacén de datos?
La diferencia clave entre un lago de datos y un depósito de datos es que el lago de datos tiende a ingerir datos muy rápidamente y prepararlos más adelante sobre la marcha a medida que las personas acceden a él. Con un almacén de datos, por otro lado, usted prepara los datos con mucho cuidado por adelantado antes de dejarlos en el almacén de datos.
Eso es porque tienes diferentes objetivos con estos dos. Con un lago de datos, desea obtener sus datos lo más rápido posible para que las empresas con casos de uso operativo, especialmente en lo que respecta a informes operacionales, análisis y supervisión empresarial, tengan los datos más recientes para que, al ejecutar sus procesos múltiples veces durante un solo día hábil, realmente pueden ver las últimas cosas que están sucediendo en las operaciones.
Además, con el lago de datos generalmente ingieres datos en la forma original sin alterarlos. ¿Por qué? Bueno, una razón para eso es que, en muchas formas, el análisis avanzado en realidad depende de datos de origen detallados. Esta sería una analítica basada en cualquier tipo de minería, ya sea:
- Extracción de textos
- Minería de datos
- Análisis estadístico
- Cualquier cosa que involucre agrupamiento
- Análisis de gráficos
Como puede ver, muchas de estas formas analíticas necesitan la fuente de datos detallada, que es muy diferente de lo que requieren los informes. Es por eso que el lago de datos tiende a ser un tesoro de datos para análisis, al menos para formas avanzadas de análisis.
Diferentes tipos de datos Plataformas de lago
El lago de datos se puede usar de muchas maneras, y también tiene muchas plataformas que pueden estar debajo de él. Hadoop es la plataforma más común pero no la única.
Hadoop
Hadoop es atractivo. Ha demostrado tener escalabilidad lineal. Es un costo bajo para la escalabilidad en comparación con, por ejemplo, una base de datos relacional. Pero Hadoop no es solo un almacenamiento barato. También es una poderosa plataforma de procesamiento. Y si estás tratando de hacer análisis algorítmicos, Hadoop puede ser muy útil para eso.
Sistema de gestión de bases de datos relacionales
El sistema de gestión de bases de datos relacionales también puede ser una plataforma para el lago de datos, porque algunas personas tienen cantidades masivas de datos que desean poner en el lago que estén estructurados y también relacionales. Entonces, si sus datos son intrínsecamente relacionales, un enfoque DBMS para el lago de datos tendría mucho sentido. Además, si tiene casos de uso en los que desea realizar una funcionalidad relacional, como SQL, combinaciones complejas de tablas, ese tipo de cosas, entonces el RDBMS tiene mucho sentido.
La nube
Pero la tendencia es hacia los sistemas basados en la nube, y especialmente el almacenamiento basado en la nube. El gran beneficio de las nubes es la escalabilidad elástica. Pueden ordenar los recursos del servidor y otros recursos a medida que aumentan las cargas de trabajo. Y en comparación con muchos sistemas locales, la nube puede ser de bajo costo. Parte de eso es porque no hay integración de sistema.
Si quiere hacer algo en el lugar, usted u otra persona tiene que hacer una integración de sistema de varios meses, mientras que para muchos sistemas hay un proveedor de la nube que ya tiene esas cosas integradas. Básicamente, solo compra una licencia y puede comenzar a usar esa información en cuestión de horas en lugar de meses. Además, el enfoque de la tienda de objetos a la nube, que mencionamos en una publicación anterior sobre las mejores prácticas del lago de datos , tiene muchos beneficios.
Y, por supuesto, puede tener una combinación híbrida de plataformas con un lago de datos. Si está familiarizado con lo que llamamos almacén de datos lógicos, también puede tener algo similar a un almacén de datos lógico, y este es el lago de datos lógicos. Aquí es donde los datos se distribuyen físicamente a través de múltiples plataformas. Y hay algunos desafíos para eso, como si desea hacer consultas analíticas de gran alcance, y muchas de las respuestas, entonces necesita herramientas especiales que sean realmente buenas con consultas federadas o virtualización de datos y cosas de esa naturaleza para ayudarlo con ese. Pero esa tecnología está disponible a nivel de herramienta, y muchas personas la están usando.
Vía Oracle, imagen pexels