Retention-правила
Содержание раздела
Система позволяет настраивать автоматический порядок обработки неактуальных версий данных с помощью retention-правил. Правила действуют для данных логических таблиц в указанных датасорсах.
Retention-правило можно настроить для обычных логических таблиц и партиций, как описано в разделе Управление retention-правилами. Для партиционированных таблиц retention-правила недоступны.
Стратегии обработки данных
Доступны следующие стратегии автоматической обработки неактуальных версий данных:
- удаление — окончательное удаление данных;
- остужение — перемещение данных из датасорсов-источника в датасорс-приемник, выделенный для архивного хранения.
Удаление данных позволяет оптимизировать дисковое пространство, освобождая его от данных с истекшим сроком хранения. В свою очередь, остужение данных оптимизирует хранение редко запрашиваемых данных, которые должны оставаться доступными.
Остужение данных возможно между следующими датасорсами:
- в пределах одного датасорса типа ADB или ADP,
- между разными датасорсами типа ADB,
- между разными датасорсами типа ADP.
Составные части правила
Каждое retention-правило определяет:
- датасорс-источник,
- срок хранения неактуальных версий данных в датасорсе-источнике,
- (опционально) датасорс-приемник.
Если в правиле указан датасорс-приемник, правило работает на остужение данных, иначе — на удаление данных.
Порядок применения правил
Периодически система проверяет наличие данных, подлежащих остужению или удалению согласно настроенным retention-правилам. Интервал проверки данных настраивается сразу для всех retention-правил окружения с помощью параметра конфигурации DATA_COOLING_RUN_PERIOD_MS
. По умолчанию система запускает проверку раз в 10 минут.
Retention-правило логической таблицы исполняется при наличии в этой таблице данных неактуальных версий (исторических записей), срок хранения которых превысил заданный в правиле срок.
Максимальное количество логических таблиц, которые система одновременно обрабатывает согласно retention-правилам, определяется значением параметра конфигурации DATA_COOLING_CONCURRENT
. По умолчанию система обрабатывает максимум две таблицы одновременно.
Обработкой retention-правил занимается:
- лидер — если кластер работает в основном режиме (с лидером);
- нода, выбранная случайным образом, — если кластер работает в leaderless-режиме [deprecated].
Retention-правила логической таблицы не исполняются, если отключен хотя бы один датасорс из тех, где размещены данные этой таблицы. При этом не имеет значения, участвует отключенный датасорс в retention-правилах таблицы или нет.
Работа правил автоматически возобновляется после включения датасорса.