ВЫБОР ФУНКЦИИ ДИНАМИЧЕСКОГО СЕГМЕНТИРОВАНИЯ
В CLUSTERIX-ПОДОБНЫХ СИСТЕМАХ

Р.К. Классен
(Кафедра компьютерных систем КНИТУ-КАИ)

Обработка больших массивов данных требует применения вычислительных кластеров и распределения данных по его узлам. За распределение промежуточных данных при обработке запросов в известных Clusterix-подобных системах отвечает функция динамического сегментирования, значение которой – остаток от деления ключа отношения на количество ядер в кластере. Такая функция часто позволяет получить идеальное распределение. Но в случае, когда ключ для соединения отношений содержит несколько уникальных значений, применение хеш-функции, используемой для хеширования хранимых данных, может оказаться не эффективным. В докладе обсуждается применение разных хеш-функций для динамического сегментирования и первоначального распределения по узлам. Демонстрируются карты распределения данных по ядрам кластера для исходных и временных отношений. Приводится сравнение производительности при использовании тех или иных хеш-функций. Даются рекомендации по релевантному выбору хеш-функции для целей динамического сегментирования.

ПРЕЗЕНТАЦИЯ ДОКЛАДА

ВИДЕО ДОКЛАДА: