올해 프론티어 배치를 앞두고 과학을 섬기는 1.5 캐비닛 '크러셔'
By 티파니 트레이더
2022년 3월 28일
Frontier 슈퍼컴퓨터는 2021년 에너지부 오크리지 국립연구소에 설치되었으며, 최종 캐비닛은 10월에 설치되었습니다. 전체 2엑사플롭스 피크 시스템의 개편이 계속되는 동안(상호 연결 기술 관련 문제에 대해 비기록적으로 들었습니다) Frontier 프로젝트는 동일한 코어 설계의 더 작은 테스트베드 시스템으로 실행되고 있습니다.
약 40페타플롭스의 최고 배정밀도를 자랑하는 "Crusher"는 Cray EX Frontier 슈퍼컴퓨터의 1.5캐비닛 반복 버전입니다. Crusher는 전체 74개 캐비닛 Frontier 시스템의 통합 및 테스트가 계속되는 동안 초기 과학 사용자에게 서비스를 제공할 것입니다. Oak Ridge National Laboratory에 따르면 Frontier 시스템은 올해 미국 최초의 엑사스케일 시스템이 될 예정이며 2023년 1월 1일에 전체 사용자 운영에 들어갈 예정입니다.
Crusher는 192개의 HPE Cray EX 노드로 구성됩니다. 각 노드에는 AMD "Trento" 7A53 Epyc CPU 1개와 AMD Instinct MI250X GPU 4개(총 768개의 GPU)가 있습니다. Trento는 Milan과 동일한 Zen-3 코어를 사용하여 더 나은 메모리 효율성을 위해 최적화되었습니다. 노드는 HPE의 Slingshot-11 상호 연결로 연결됩니다. 각 노드는 CPU에 512GiB DDR4 메모리를 탑재하고 노드 전체에 일관된 메모리를 갖춘 512GiB HMB2e(GPU당 128GiB)를 자랑합니다.
이와 대조적으로 풀사이즈 Frontier는 29MW 전력 범위 내의 74개 캐비닛에서 2엑사플롭의 최고 배정밀도 성능을 제공할 예정입니다. OLCF(Oak Ridge Leadership Computing Facility)에서 372m2의 공간을 차지하는 Frontier는 9.2페타바이트의 메모리(4.6페타바이트의 DDR4 및 4.6페타바이트의 HBM2e)를 통합하는 9,408개의 노드에 걸쳐 있습니다. 총 GPU 수: 37,632. 37페타바이트의 노드 로컬 스토리지가 있고 716페타바이트의 센터 전체 스토리지에 액세스할 수 있습니다.
Frontier 아키텍처에 사용되는 HPE Olympus 랙은 DIMM 및 NIC를 포함하여 완전히 수냉식입니다. 각 캐비닛(건조 상태)의 무게는 3,630kg입니다. 전체 Frontier 시스템에는 총 81,000개의 케이블이 있습니다.
Oak Ridge는 Crusher가 과학을 "파괴"할 준비가 되어 있다고 말했습니다. 하지만 우리는 이 이름이 TV 시리즈 Star Trek: The Next Generation의 최고 의료 책임자에게 고개를 끄덕이는 것일 수도 있다고 생각합니다. 확장하면 전체 구성은 "최종 프론티어"가 됩니다.
4개의 프로젝트는 이미 Crusher와 Frontier에 맞게 코드를 성공적으로 최적화했습니다. 그것은 CANcer 분산 학습 환경(CANDLE) 프로젝트입니다. |(병렬) 아키텍처 또는 Cholla 프로젝트의 전산 유체 역학; 국부적으로 일관된 다중 산란(LSMS) 프로젝트; 및 Nuclear Coupled-Cluster Oak Ridge 또는 NuCCOR 프로젝트. 이러한 코드 중 일부는 OLCF의 첫 번째 하이브리드 아키텍처 시스템인 CPU+GPU 노드를 사용하고 2012년에 출시된 폐기된 27페타플롭 Cray XK7 Titan 슈퍼컴퓨터로 거슬러 올라갑니다.
초기 결과의 하이라이트:
ORNL의 OLCF 과학 이사인 Bronson Messer는 "Crusher는 OLCF 플랫폼의 초기 사용자를 위해 배포한 다양한 테스트 및 개발 시스템 중 최신 제품이며 지금까지 제공한 시스템 중 가장 강력합니다"라고 말했습니다. "우리가 Frontier를 통해 엑사스케일 시대의 시작을 바라보고 있는 가운데 이 코드 팀이 기계에서 실현하고 있는 결과는 매우 고무적입니다."
"바닥 공간이 44평방피트에 불과한 Crusher는 이전 Titan 슈퍼컴퓨터 크기의 1/100이지만 전체 4,352평방피트 시스템보다 빠르며 작은 크기에 비해 엄청난 컴퓨팅 성능을 제공합니다."라고 추가로 보고했습니다. 오크리지 발표.
Frontier는 원래 2021년 하반기에 배포될 예정이었고 2022년에 승인될 예정이었습니다. 이러한 범위와 규모의 슈퍼컴퓨팅 시스템에서는 어떤 종류의 지연이 일반적이며 Frontier는 AMD A+A 아키텍처의 첫 번째 구현입니다. 세계 최초의 엑사스케일 머신 중 하나가 되는 것입니다. Frontier가 널리 예상되었던 대로(2021년 11월 목록이 발표되기 전에 시스템이 완전히 설치되었다는 점을 감안할 때) Top500 목록에 맞춰 5월 말(올해 6월이 아님)에 맞춰 준비될지는 아직 알 수 없습니다. Oak Ridge는 Frontier의 배포 및 수용에 대한 정확한 일정을 제공하지 않았으나 2022년에 이루어질 것이며 2023년 1월 1일에 전체 운영이 시작될 것이라고 밝혔습니다.