РАЗРАБОТКА И ИССЛЕДОВАНИЕ КОНСЕРВАТИВНОЙ СУБД Clusterix-N
КЛАССА «Big Data» НА ПЛАТФОРМЕ GPU-КЛАСТЕРА
Р.К. Классен (КНИТУ-КАИ)
Аннотация доклада
В условиях работы с базами данных большого объема не всегда возможно выполнять их обработку за приемлемое время на одном выделенном сервере. Использование вычислительных кластеров и распределение работ по нескольким узлам позволяет исправить сложившуюся ситуацию. В настоящее время имеется немалое число разработок таких СУБД на платформе вычислительных кластеров. Большинство из них осуществляет поддержку работы internet-сервисов, выполняющих сравнительно простые операций типа select и insert над динамически изменяемыми базами данных. Как правило, такие СУБД используют репликацию данных между узлами и имеют в своем распоряжении балансировщик нагрузки. Но для аналитической обработки с высоким удельным весом операций join такой подход не пригоден в силу ограниченных вычислительных мощностей одного сервера. Здесь требуется принципиально иной подход к реализации СУБД. В докладе рассматриваются вопросы обработки сложных аналитических запросов к базам данных консервативного типа большого объема на платформе GPU кластера КНИТУ-КАИ. Предлагается архитектура параллельной СУБД Clusterix-N. Она сравнивается с оригинальными архитектурами Clusterix и PerformSys. Сравниваются результаты экспериментов на ограниченном тесте TPC-H (без операций записи) с VБД=60 GB и VБД=120 GB для Clusterix-N и PerformSys.
Заключение по проделанной работе
При VБД = 60 ГБ вся БД помещается в ОП узлов, что исключает использование дисковой подсистемы и позволяет системе PerformSys работать с максимальной скоростью. Однако, при VБД = 120 ГБ PerformSys начинает активно использовать диск, что выливает в существенное снижение производительности. В Clusterix-N БД распределена по узлам уровня IO и по-прежнему умещается в ОП. Результаты эксперимента показали практически линейный рос времени выполнения ПТ, которое составило 19.7 часа против 50 часов у PerformSys при VБД = 120 ГБ. Узким местом в работе Clusterix-N по данным эксперимента можно обозначить сеть. Ее замена на 10GigabitEthernet позволит ускорить работу и более равномерно загрузить вычислительные узлы кластера
Для справки:
Развитие информационных технологий требует обработки все большего объема информации. Направление «BigData» актуально как никогда. Создано великое множество инструментов и СУБД для работы с большими данными. Примерами СУБД могут служить: MS SQL Server, Oracle Database, SciDB, VoltDB, PostgreSQL XL, Clusterix и т.д. Большинство систем BigData – это закрытые коммерческие продукты с очень высокой стоимостью. Открытые системы существенно уступают коммерческим по надежности и, в гораздо меньшей мере, по производительности. Большинство систем класса BigData требуют наличия серьезных вычислительных мощностей для обеспечения приемлемой производительности. Идея создания отечественной СУБД, способной работать на сравнительно недорогих вычислительных кластерах, эффективно использовать их ресурсы и обрабатывать большие массивы данных, вылилась в создание параллельной СУБД консервативного типа Clusterix-N.
ВИДЕО ДОКЛАДА: