ГИБРИДНЫЕ ТЕХНОЛОГИИ КОНСЕРВАТИВНЫХ СУБД БОЛЬШИХ ОБЪЕМОВ,
ДОСТУПНЫЕ ШИРОКОМУ КРУГУ ОРГАНИЗАЦИЙ
В.А. Райхлин, Р.К. Классен (КНИТУ-КАИ)
Обсуждаются новые принципы организации консервативных СУБД (с эпизодическим обновлением данных в специально выделяемое время) на сравнительно недорогих кластерных платформах с применением средств MySQL и GPU-акселераторов на исполнительном уровне. Актуальность принятой ориентации на работу с базами данных больших объемов определяется современными тенденциями интеллектуальной обработки больших информационных массивов. Повышение объема баз данных требует их хеширования по узлам кластера. Это обуславливает необходимость использования регулярного плана обработки запросов. Применение однородных кластерных технологий (СУБД Clusterix) требует дополнительно динамической сегментации промежуточных и временных отношений. В отличие от СУБД Clusterix и более совершенной мультикластерной СУБД Clusterix-M для управления базами данных больших объемов предложены гибридные технологии (проекты Clusterix-N и Clusterix-G) с разделением кластера на две части, что позволяет исключить динамическую сегментацию. Одна из них выполняет селектирование и проецирование над хешированной по узлам базой данных (блок IO). Другая – соединение по схеме «ядро на запрос» (блок JOIN). Отличительной особенностью СУБД Clusterix-G с GPU-акселераторами является работа со сжатыми базами данных, что позволяет увеличить их объем при ограниченных объемах оперативной памяти узлов. Функции графических ускорителей в разных частях своеобразны. В блоке IO они выполняют функции разжатия-селектирования исходных отношений и сжатия получаемых промежуточных отношений. В блоке JOIN – функцию разжатия поступивших промежуточных отношений. Проведенный теоретический анализ показал, что предложенные технологий значительно более эффективны в сравнении с Clusterix-M, а по производительности СУБД Clusterix-G должна в разы превышать Clusterix-N для интерконнекта среднего быстродействия.
Для справки:
Развитие информационных технологий требует обработки все большего объема информации. Направление «BigData» актуально как никогда. Создано великое множество инструментов и СУБД для работы с большими данными. Примерами СУБД могут служить: MS SQL Server, Oracle Database, SciDB, VoltDB, PostgreSQL XL, Clusterix и т.д. Большинство систем BigData – это закрытые коммерческие продукты с очень высокой стоимостью. Открытые системы существенно уступают коммерческим по надежности и, в гораздо меньшей мере, по производительности. Большинство систем класса BigData требуют наличия серьезных вычислительных мощностей для обеспечения приемлемой производительности. Идея создания отечественной СУБД, способной работать на сравнительно недорогих вычислительных кластерах, эффективно использовать их ресурсы и обрабатывать большие массивы данных, вылилась в создание параллельной СУБД консервативного типа Clusterix-N.
ВИДЕО ДОКЛАДА: