учебники, программирование, основы, введение в,

 

Кластеры и массивно-параллельные системы различных производителей. Современные суперкомпьютеры: Hitachi SR8000, Серия Fujitsu VPP5000, Cray T3E-1200, ASCI White

Серия Hitachi SR8000
Серия SR8000, или Супертехнический сервер, была разработана для численного моделирования сложных научно-технических задач (структурный анализ, динамика жидкости, предсказание погоды и т.п.). Серия объединяет возможности как векторного суперкомпьютера S-3000, так и параллельного компьютера SR2201.
Высокопроизводительный 64-разрядный RISC-микропроцессор разработан и создан Hitachi с использованием CMOS-технологии 0,14 микрометровой длины логических элементов. Для максимальной эффективности микропроцессоров на крупномасштабных задачах используются возможности псевдовекторной обработки. Это позволяет данным выбираться из оперативной памяти конвейерным способом без задержки сменяемых процессов. В результате данные подаются из памяти в арифметические устройства также эффективно, как в суперкомпьютере векторного типа.
Выпускаются модели SR8000 и SR8000 E1/F1/G1.


Таблица 16.1. Конфигурация узла

Модель

SR8000

SR8000 E1

SR8000 F1

SR8000 G1

Пиковая прозв-ть, Гфлоп

8

9,6

12

14,4

Память

2/4/8

2/4/8/16

2/4/8/16

2/4/8/16

Для 144-узловой конфигурации модели G1 (450 МГц) при решении полной системы линейных уравнений размерностью 141000 была достигнута скорость в 1709 Гфлоп/ (теоретически возможная - 2074 Гфлоп/с), что дало эффективность 63%. На 112-узловой модели F1 (375 МГц) достигнута скорость в 1035 Гфлоп/с из 1344 Гфлоп/с (эффективность - 77%). На отдельном узле при решении полной линейной системы и симметричной задачи на собственные значения (порядок 5000) процессорные скорости были выше 6,2 и 4,1 Гфлоп/с, соответственно.


Таблица 16.2. Конфигурация системы

Число узлов

4

8

16

32

64

128

256

512

Произв-ть, Гфлоп

SR8000

32

64

128

256

512

1024

-

-

SR8000 E1

38,4

76,8

153,6

307,2

614,4

1228,8

2457,6

4915,2

SR8000 F1

48

96

192

384

768

1536

3072

6144

SR8000 G1

57,6

115,2

230,4

460,8

921,6

1843,2

3686,4

7372,8

Максимальный объем общей памяти, Гбайт

SR8000 E1/F1/G1

64

128

256

512

1024

2048

4096

8192

Внешний интерфейс

Ultra SCSI, Ethernet/Fast Ethernet, Gigabit Ethernet, ATM, HIPPI, Fibre Channel

Серия Fujitsu VPP5000
Серия VPP5000 является преемником прежних систем VPP700/VPP700E (последняя система имеет тактовый цикл 6,6 нс вместо 7 нс). Глобальные изменения в архитектуре относительно серий VPP700 малы. Тактовый цикл был уменьшен наполовину. Архитектура узлов VPP5000 почти идентична узлам VPP700. Каждый узел в системе, называемый процессорным элементом (ПЭ), является мощным векторным процессором (9,6 Гфлоп/с пиковой скорости и тактовый цикл 3,3 нс). Векторный процессор дополнен RISC-скалярным процессором с пиковой скоростью 1,2 Гфлоп/с. Формат скалярных команд имеет 64 разряда и может выполнять до 4 операций параллельно. Каждый ПЭ имеет память до 16 Гбайт и каждый ПЭ непосредственно соединяется с другими ПЭ со скоростью передачи 1,6 Гбайт/с.
VPP5000U - это однопроцессорная машина без сети и расширений передачи данных, которые требуются для VPP5000.
Скалярное устройство поддерживает RISC-архитектуру <очень длинного командного слова> (VLIW - Very Long Instruction Word), одновременно выполняя до 4 команд за один тактовый цикл. Высокая скалярная производительность достигается посредством как первого и второго кэшей, так и асинхронного выполнения обращения к памяти, команд с плавающей запятой и векторных команд.
Векторное устройство состоит из 4 конвейеров, векторного регистра и регистра маски (mask register) со скоростью векторных операций до 9,6 Гфлоп/ПЭ. Конвейер квадратного корня увеличивает производительность в операциях, включая квадратные корни. Векторные операции выполняются со скоростью 2,4 Гфлоп.
Все ПЭ соединяются через высокоскоростную сеть с поперечной коммутацией. Особое устройство связи между ПЭ, называемое DTU (Data transfer unit), делает возможным одновременное выполнение соединений между процессорами и вычисления. Это позволяет выполнять передачу и прием данных со скоростью 615 Мбайт/с в каждом направлении, в то время как ПЭ выполняют вычисления.
Система VPP5000 имеет дополнительные возможности для операций с плавающей запятой расширенной точности и непрямого доступа к памяти, возникающего в различных вычислительных алгоритмах.
Компоненты ПЭ являются высокопроизводительными энергосберегающими CMOS (complementary metal oxide semiconductor) LSI-микросхемами, произведенными по 0,22 мк технологии и содержащими до 33 миллионов транзисторов каждая, со временем вентильной задержки (gate delay time) в 24 пикосекунды. Для оперативной памяти используется 128-разрядная SDRAM (synchronous dynamic RAM) со временем произвольного доступа в 45 наносекунд.
Проведенные тесты показали, что для системы из 32-х процессоров при решении полной линейной системы порядка 170 880 скорость составила 296,1 Гфлоп/с (эффективность - 96%). Для отдельного процессора скорость в 6,04 Гфлоп/с была достигнута при решении системы порядка 2 000. При вычислении многочлена 10-го порядка была определена скорость в 8,68 Гфлоп/с (эффективность - более 90%).
Основные технические характеристики:

  • год выпуска - ноябрь 1999;
  • 9,6 Гфлоп векторной производительности на ПЭ;
  • 1,2 Гфлоп скалярной производительности;
  • масштабируется от 1 до 128 ПЭ (512 ПЭ для особого размещения) и достигает пиковой производительности 1,228 Тфлоп;
  • 4, 8 или 16 Гбайт оперативной памяти SDRAM на ПЭ (максимум 2 Tбайта на систему);
  • 76,8 Гбайт/с пропускная способность памяти (memory transfer bandwidth) на ПЭ;
  • 64-разрядная архитектура;
  • операционная система UXP/V Unix System V Release 4.

Спецификации системы VPP5000U:

  • число процессоров - 1;
  • теоретическая пиковая производительность - 9,6 Гфлоп.;
  • оперативная память - 4-16 Гбайт;

Спецификации системы VPP5000:

  • число процессоров - от 4 до 128 (512 ПЭ для особого размещения);
  • теоретическая пиковая производительность - от 38,4 Гфлоп до 1,229 Тфлоп (4,915 Тфлоп для 512 ПЭ);
  • оперативная память - от 16 Гбайт до 2 048 Тбайт (8 192 Тбайт для 512 ПЭ);
  • пропускная способность шины - 1,6 Гбайт/с/ПЭ.

 

Современные суперкомпьютеры - Cray T3E-1200

Системы Cray T3E - это масштабируемые параллельные системы, которые используют DECchip 21164 (DEC Alpha EV5) RISK-процессоры с пиковой производительностью 600 Мфлоп и 21164А для машин Cray T3E-900 и Cray T3E-1200. Каждый процессорный элемент (ПЭ) Cray T3E имеет свою собственную DRAM-память объемом от 64 Мбайт до 2 Гбайт. В отличие от системы CRAY T3D, в которой исполняемая задача запрашивает фиксированное количество процессоров на все время выполнения, в CRAY T3E свободные процессоры могут использоваться другими задачами. Модели T3E, T3E-900, T3E-1200, Т3Е-1350.
Каждый узел в системе содержит один процессорный элемент (ПЭ), включающий процессор, память и средство коммутации, которое осуществляет связь между ПЭ. Система конфигурируется до 2048 процессоров. Пиковая производительность составляет 2,4 Тфлоп. Разделяемая, высокопроизводительная, глобально адресуемая подсистема памяти делает возможным обращение к локальной памяти каждого ПЭ в Cray T3E. Процессорные элементы в системе Cray T3E связаны в трехмерный тор двунаправленной высокоскоростной сетью с малым временем задержки, которая в шесть раз превосходит по скорости аналогичную сеть в Cray T3D. Также добавлена адаптивная маршрутизация, при которой возможен обход участков с высокой эффективностью передачи.
Системы Cray T3E выполняют операции ввода/вывода через многочисленные порты на один или более каналов GigaRing. Каналы ввода/вывода интегрированы в трехмерную межузловую сеть и пропорциональны размеру системы. При этом при добавлении ПЭ пропускная способность каналов ввода/вывода увеличивается, и масштабируемые приложения могут выполняться на системах с большим числом процессоров так же эффективно, как на системах с меньшим числом процессоров.
Для Cray T3E была создана масштабируемая версия операционной системы ОС UNICOS - ОС UNICOS/mk. Операционная система UNICOS/mk разделена на программы-серверы, распределенные среди процессоров Cray T3E. Это позволяет управлять набором ресурсов системы как единым целым. Локальные серверы обрабатывают запросы ОС, специфичные для каждого ПЭ. Глобальные серверы обеспечивают общесистемные возможности, такие как управление процессами и файловые операции.
В добавлении к пользовательским ПЭ, которые выполняют приложения и команды, системы Cray T3E включают специальные системные ПЭ, которые выполняют глобальные серверы UNICOS/mk. Так как глобальные серверы расположены на системных ПЭ и не дублируются по всей системе, UNICOS/mk эффективно масштабируема, полнофункциональна и обслуживает от десятков до тысячи ПЭ с минимальной перегрузкой.
UNICOS/mk обеспечивает следующие программные функции:

  • распределение серверов управления файлами. Функции файлового сервера распределяются, используя локальные файловые программы-сервера, для обеспечения максимальной производительности и эффективности;
  • ПЭ может генерировать не только последовательную, но и параллельную передачу данных, используя некоторые или даже все ПЭ данной программы;
  • множество глобальных файловых серверов: система управления файлами распределена на множество системных ПЭ, которые позволяют полностью использовать параллельные дисковые каналы, поддерживаемые на Cray T3E.

Система T3E-1200

Быстродействие серии Cray T3E-1200 в два раза превышает производительность систем Cray T3E при уменьшенной вдвое стоимости за Мфлоп. Конфигурации в воздушно-жидкостном охлаждении имеют от 6 процессоров, а в жидкостном - от 32 процессоров. Каждый процессор имеет производительность в 1,2 Гфлоп; для всей системы пиковая производительность меняется от 7,2 Гфлоп до 2,5 Тфлоп. Масштабируется до тысяч процессоров. Серия выпущена в 1997 г.
Система предназначена для наиболее важных научных и технических задач в аэрокосмической, автомобильной, финансовой, химико-фармацевтической, нефтяной и т.д. отраслях промышленности, а также в широких областях прикладных исследований, включая химию, гидродинамику, предсказание погоды и сейсмические процессы.
Для поддержки масштабируемости используется оперативная система UNICOS/mk -масштабируемая версия UNICOSR. Системы T3E-1200 поддерживают как явное распараллеливание распределенной памяти посредством CF90 и C/C++ с передачей сообщений (MPI, MPI-2 и PVM) и передачу данных, так и неявное распараллеливание посредством возможностей HPF и Cray CRAFT.
На системах Т3Е каждый интерфейс GigaRing имеет максимальную пропускную способность в 500 Мбайт/с.
В дополнение к высокой производительности и пропускной способности процессорных элементов и высокой масштабируемости, системы Cray T3E-1200 имеют две уникальные особенности: STREAMS и E-Регистры. STREAMS доводят до максимума пропускную способность локальной памяти, позволяя микропроцессору запускать при полной скорости для ссылки на вектороподобные данные. Е-Регистры предоставляют операции gather/scatter (соединение/вразброс) для ссылок на локальную и удаленную память и используют полную пропускную способность внутреннего соединения для удаленного чтения и записи отдельного слова.
Оценка производительности вычислительной системы производилась при решении плотной линейной системы уравнений порядка 148800 на машине Т3Е-1200 с 1200 процессорами. Была достигнута скорость в 1,127 Тфлоп/с, что составляет 63% эффективности.


Таблица 16.3. Оценка производительности

Число процессоров

6 - 128 32 - 2048

Тактовая частота процессора, МГц

600

Пиковая производительность, Тфлоп

2,4+

Размер памяти на процессор, Гбайт

0,256 - 2

Топология внутреннего соединения

3D двухнаправленный тор

Максимальная двоичная пропускная способность, Гбайт/с

122

Максимальное число каналов GIGARING

128

Пиковая пропускная способность ввода/вывода, Гбайт

128

ASCI White
Проект ASCI (Accelerated Strategic Computing Initiative - ускоренная стратегическая вычислительная инициатива) инициирован оборонными программами Министерства энергетики США в сотрудничестве с лабораториями Lawrence Livermore и Los Alamos (США) для перехода от ядерных испытаний к методам, основанным на численном моделировании создания ядерного оружия, оценки его производительности и т.п. Инициатива ASCI является ключевым элементом программы обслуживания арсеналов Stockpile Stewardship, направленной на обеспечение безопасности и надежности ядерных арсеналов страны при отсутствии испытаний ядерного оружия.
В конце июня 2000 г. компания IBM сообщила, что она построила самый быстрый суперкомпьютер в мире (на тот момент), выполняющий до 12 триллионов вычислений в секунду, что в тысячу раз быстрее, чем производительность <Deep Blue>. Суперкомпьютер RS/6000 SP, известный как ASCI White, занимающий площадь размером в два баскетбольных поля, используется Министерством энергетики США в программе по обеспечению безопасности и надежности запасов ядерного оружия без проведения натурных испытаний.
Система ASCI White является третьим шагом в плане Министерства энергетики США, согласно которому производительность суперкомпьютерной системы в 2004 г. должна составлять 100 Топер/с. В рамках ASCI-проекта в течение нескольких лет предполагается создать серию суперкомпьютеров производительностью в 1, 3, 10, 30 и 100 Тфлоп.
При проверке возможностей суперкомпьютера ASCI White показал вычислительную производительность в 12,28 Тфлоп, превысив требования контракта в этом пункте на 23%. Система инсталлирована в калифорнийской национальной Ливерморской лаборатории.
Система состоит из 8 192 микропроцессоров, имеет оперативную память объемом в 6 Тбайт и дисковую память в 160 Тбайт, что достаточно для шестикратного хранения всех книг библиотеки Конгресса США.
Аппаратное окружение ASCI White включает в себя систему IBM RS/6000 SP с 512 симметричными мультипроцессорными машинами (SMP-узлами). Каждый узел имеет 16 процессоров, а для системы в целом - 8192 процессора, обеспечиваемая пиковая производительность составляет не менее 12 Топер/с. Система имеет общую память 4 Тбайт и дисковую память 150 Тбайт.
Дополнительно система IBM SP оснащена внешней дисковой памятью, параллельной файловой системой GPFS, архивной памятью и средствами визуализации. Специализированная высокоскоростная сеть образует магистраль и соединяет все компоненты системы ASCI White.
Система IBM SP, которая формирует ядро ASCI White, образована из многих пакетов, в большинстве своем содержащих четыре узла. Все узлы являются симметричными мультипроцессорами IBM RS/6000 POWER3 с 64-разрядной архитектурой. Каждый узел является автономной машиной, обладающей собственной памятью, операционной системой, локальным диском и 16 процессорами. IBM производит несколько разновидностей узлов POWER3. Узлы ASCI White известны как узлы Nighthawk-2 (NH-2).
Процессоры POWER3 являются суперскалярными (одновременное выполнение многих команд) 64-разрядными чипами конвейерной организации с двумя устройствами по обработке команд с плавающей запятой и тремя устройствами по обработке целочисленных команд. Они способны выполнять до восьми команд за тактовый цикл и до четырех операций с плавающей запятой за такт. Все узлы соединены внутренней коммутационной сетью SP.
Общая параллельная файловая система IBM GPFS (General Parallel File System) обеспечивает обслуживание файловой системы для параллельных и последовательных приложений, запускаемых в окружении RS/6000 SP. GPFS разработана аналогично файловой системе UNIX: почти все приложения запускаются под GPFS так же, как они запускаются в других файловых системах. Это означает, что пользователи могут продолжать применять обычные команды UNIX для простых операций над файлами.
GPFS предоставляет совместный доступ к файлам, который может охватывать много дисководов на многих узлах SP. Отдельные файлы хранятся как ряд <блоков>, распределенных через диски на различных узлах памяти. Также поддерживается одновременное чтение и запись различных файлов.
Для защиты вычислительных средств (Secure Computing Facility - SCF) используется архивная система хранения данных HPSS (High Performance Storage System).
Система ASCI White построена таким образом, чтобы поддерживать смешанные моды программирования кластерной распределенной памяти с SMP общей памяти. MPI обычно используется для соединения распределенной памяти от узла к узлу.
Операционная система, как и на машине ASCI Blue-Pacific, представляет собой версию UNIX IBM AIX. AIX поддерживает как 32-разрядные, так и 64-разрядные системы RS/6000. Номер текущей версии - AIX 4.3.
Поддержка параллельного кода на ASCI White включает параллельные библиотеки, отладчики, профилировщики, утилиты IBM и сервисные программы, которые производят анализ эффективности выполнения. Поддерживаются MPI, OpenMP, потоки POSIX и транслятор директив IBM. Доступны: параллельный отладчик IBM, средства профилирования и TotalView.

 

 
На главную | Содержание | < Назад....Вперёд >
С вопросами и предложениями можно обращаться по nicivas@bk.ru. 2013 г.Яндекс.Метрика