Как реализовать решение для озера данных
Мне нужен совет по внедрению Data Lake. Любые хорошие ссылки или примеры того, как реализовать концепцию озера данных (учебник) или указать мне правильное направление, будут достаточны.
Заранее спасибо
Что я уже пробовал:
Я ищу, чтобы настроить это для моей организации, и я понятия не имею, с чего начать. Любая помощь будет оценена по достоинству
Mehdi Gholam
Google-ваш друг.
GoodyGoodyGoody
на самом деле я столкнулся с 2 решениями, мне было интересно, кто пробовал или использовал их для локального хранения:
1. Озеро Данных Informatica
2. Озеро Данных Azure
Sni.DelWoods
Зависит от того, какие данные у вас есть и что вы хотите сделать с этими данными.
Я реализовал неродовое озеро данных в виде отдельной базы данных sql с несколькими таблицами, все поля-как nvarchar.
Данные, которые я получаю, имеют фиксированную структуру. Поэтому я импортирую данные из CSV - файлов в таблицу (rawlist1.csv в таблицу [rawlist]).
CSV приходит каждый день с растущим количеством строк. Производительная таблица получает только новые строки. Поэтому я импортирую все строки в таблицу озера данных и копирую только новые строки в производственную таблицу.
Это помогает сохранить продуктивную таблицу чистой от устаревших данных. В таблице data lake хранятся только данные за последние 10 дней.