Retention-правила

Содержание раздела
  1. Стратегии обработки данных
  2. Составные части правила
  3. Порядок применения правил

Система позволяет настраивать автоматический порядок обработки неактуальных версий данных с помощью retention-правил. Правила действуют для данных логических таблиц в указанных датасорсах.

Retention-правило можно настроить для обычных логических таблиц и партиций, как описано в разделе Управление retention-правилами. Для партиционированных таблиц retention-правила недоступны.

Стратегии обработки данных

Доступны следующие стратегии автоматической обработки неактуальных версий данных:

  • удаление — окончательное удаление данных;
  • остужение — перемещение данных из датасорсов-источника в датасорс-приемник, выделенный для архивного хранения.

Удаление данных позволяет оптимизировать дисковое пространство, освобождая его от данных с истекшим сроком хранения. В свою очередь, остужение данных оптимизирует хранение редко запрашиваемых данных, которые должны оставаться доступными.

Остужение данных возможно между следующими датасорсами:

  • в пределах одного датасорса типа ADB или ADP,
  • между разными датасорсами типа ADB,
  • между разными датасорсами типа ADP.

Схема остужения данных

Составные части правила

Каждое retention-правило определяет:

  • датасорс-источник,
  • срок хранения неактуальных версий данных в датасорсе-источнике,
  • (опционально) датасорс-приемник.

Если в правиле указан датасорс-приемник, правило работает на остужение данных, иначе — на удаление данных.

Порядок применения правил

Лидер кластера периодически проверяет необходимость остужения и удаления данных по retention-правилам окружения. Проверка запускается раз в интервал, равный значению параметра DATA_COOLING_RUN_PERIOD_MS (по умолчанию — раз в 10 минут).

Retention-правило исполняется, если в логической таблице есть неактуальные версии данных (исторические записи), срок хранения которых превысил заданный в правиле лимит.

Максимальное количество таблиц, обрабатываемых лидером одновременно, ограничено параметром DATA_COOLING_CONCURRENT и по умолчанию равно 2.

Если хотя бы один датасорс таблицы отключен, ее retention-правила не исполняются, пока все датасорсы не будут включены.