Retention-правила

Содержание раздела
  1. Стратегии обработки данных
  2. Составные части правила
  3. Порядок применения правил

Система позволяет настраивать автоматический порядок обработки неактуальных версий данных с помощью retention-правил. Правила действуют для данных логических таблиц в указанных датасорсах.

Retention-правило можно настроить для обычных логических таблиц и партиций, как описано в разделе Управление retention-правилами. Для партиционированных таблиц retention-правила недоступны.

Стратегии обработки данных

Доступны следующие стратегии автоматической обработки неактуальных версий данных:

  • удаление — окончательное удаление данных;
  • остужение — перемещение данных из датасорсов-источника в датасорс-приемник, выделенный для архивного хранения.

Удаление данных позволяет оптимизировать дисковое пространство, освобождая его от данных с истекшим сроком хранения. В свою очередь, остужение данных оптимизирует хранение редко запрашиваемых данных, которые должны оставаться доступными.

Остужение данных возможно между следующими датасорсами:

  • в пределах одного датасорса типа ADB или ADP,
  • между разными датасорсами типа ADB,
  • между разными датасорсами типа ADP.

Схема остужения данных

Составные части правила

Каждое retention-правило определяет:

  • датасорс-источник,
  • срок хранения неактуальных версий данных в датасорсе-источнике,
  • (опционально) датасорс-приемник.

Если в правиле указан датасорс-приемник, правило работает на остужение данных, иначе — на удаление данных.

Порядок применения правил

Периодически система проверяет наличие данных, подлежащих остужению или удалению согласно настроенным retention-правилам. Интервал проверки данных настраивается сразу для всех retention-правил окружения с помощью параметра конфигурации DATA_COOLING_RUN_PERIOD_MS. По умолчанию система запускает проверку раз в 10 минут.

Retention-правило логической таблицы исполняется при наличии в этой таблице данных неактуальных версий (исторических записей), срок хранения которых превысил заданный в правиле срок.

Максимальное количество логических таблиц, которые система одновременно обрабатывает согласно retention-правилам, определяется значением параметра конфигурации DATA_COOLING_CONCURRENT. По умолчанию система обрабатывает максимум две таблицы одновременно.

Обработкой retention-правил занимается:

  • лидер — если кластер работает в основном режиме (с лидером);
  • нода, выбранная случайным образом, — если кластер работает в leaderless-режиме [deprecated].

Retention-правила логической таблицы не исполняются, если отключен хотя бы один датасорс из тех, где размещены данные этой таблицы. При этом не имеет значения, участвует отключенный датасорс в retention-правилах таблицы или нет.
Работа правил автоматически возобновляется после включения датасорса.