팝업레이어 알림

팝업레이어 알림이 없습니다.

엔비디아, 최신 MLperf AI 벤치마크 테스트서 16개 부문 AI 성능 기록 경신

  • 페이스북으로 보내기
  • 트위터로 보내기
  • 구글플러스로 보내기
  • 카카오톡으로 보내기
  • 아이콘
  • 아이콘
이원경기자 작성일시20-07-30 11:47 기사승인20-07-30 11:51 조회1,449댓글0

뉴스 본문

AI 컴퓨팅 기술 분야의 선두주자인 엔비디아(CEO 젠슨 황)는 최근 발표된 MLPerf AI 벤치마크 테스트 결과에서 전세계 상용 제품 중 가장 빠른 AI 훈련 성능을 기록했다고 밝혔다.



<2,000개 이상의 엔비디아 A100 GPU를 탑재한 엔비디아의 새로운 DGX 슈퍼POD는 한 달 안에 구축됐으며, MLperf 벤치마크의 대규모 성능기준에서 상용 제품 중 최고 순위를 차지했다(렌더링 이미지)>


A100 텐서 코어(Tensor Core) GPU는 8개의 모든 MLPerf 벤치마크에서 가속기 중 가장 빠른 성능을 보여줬다. 또한, HDR 인피니밴드(InfiniBand)로 상호 연결된 DGX A100 시스템의 대규모 클러스터인 DGX 슈퍼POD(DGX SuperPOD) 시스템은 가장 빠른 시간 기록을 달성하며, 8개의 새로운 기록을 세웠다. 고객들은 AI를 통해 보다 저렴한 비용과 빠른 속도로 사업을 추진하기 위해 해당 제품들을 도입하고 있다.


엔비디아는 2018년 5월 설립된 MLperf의 훈련 테스트에서 3회 연속으로 가장 강력한 성과를 거뒀다. 엔비디아는 2018년 12월, 첫 번째 MLperf 훈련 벤치마크에서 처음으로 6개의 기록을 세우고, 2019년 7월에는 8개의 기록을 경신했다.


엔비디아는 고객들이 가장 중요시하는 상용 제품 부문에서 기록을 세웠다. 이번 테스트는 새로운 엔비디아 암페어(Ampere) 아키텍처와 볼타(Volta) 아키텍처를 대상으로 진행됐다.



<엔비디아 DGX 슈퍼POD 시스템은 대규모 AI 훈련 분야에서 새로운 이정표를 세웠다.>


엔비디아는 MLperf 테스트 참여 기업 중 모든 테스트에 상용 제품을 제출한 유일한 회사였다. 타제품의 경우, 향후 몇 개월간 혹은 한동안 상용화 되지 않을 것으로 예상될 때는 각각 프리뷰 부문과 연구 부문으로 참여했다.


기록을 경신한 엔비디아 암페어


최초의 엔비디아 암페어 아키텍처 기반 프로세서인 A100은 기록을 경신했을뿐 아니라 기존 엔비디아 GPU 대비 단기간 내에 출시됐다. 또한, 출시 당시 엔비디아의 3세대 DGX 시스템을 구동하고, 불과 6주 후에 구글 클라우드 서비스에 적용됐다.


아마존웹서비스(AWS), 바이두 클라우드(Baidu Cloud), 마이크로소프트 애저(Microsoft Azure), 텐센트 클라우드(Tencent Cloud) 등 글로벌 클라우드 기업들을 비롯해 델 테크놀로지스(Dell Technologies), 휴렛패커드 엔터프라이즈(Hewlett Packard Enterprise), 인스퍼(Inspur), 슈퍼마이크로(Supermicro) 등 수십 개의 주요 서버 제조업체들도 A100를 적극 도입하고 있다.


전세계에서 AI, 데이터 사이언스, 과학 컴퓨팅 분야의 가장 복잡한 과제들을 해결하기 위해 A100을 사용하고 있다. 일사용자들은 새로운 추천 시스템과 대화형 AI 애플리케이션 구축, 코로나19 치료제 연구 등 8세대 엔비디아 GPU 중 가장 큰 성능 도약을 이뤄낸 A100을 널리 사용하고 있다.



<엔비디아 암페어 아키텍처는 상용 가속기 부문의 8개 테스트에서 가장 뛰어난 성능을 기록했다.>


18개월만에 4배 향상된 성능


이번 결과는 엔비디아가 프로세서, 네트워킹, 소프트웨어, 시스템이 결합된 AI 플랫폼을 지속적으로 개발하는데 주력해왔다는 사실을 보여준다. DGX A100 시스템은 V100 GPU기반 시스템 대상으로 진행됐던 1차 MLperf 테스트 대비 최대 4배 높은 성능을 제공한다는 것을 볼 수 있다. 또한 소프트웨어 최적화 덕분에 엔비디아 V100 기반 DGX-1 시스템 성능은 최대 2배 향상됐다.


AI 플랫폼의 전반적인 혁신으로 2년 미만의 시간 동안 이러한 성능 향상을 이뤄냈다. 엔비디아 A100 GPU는 쿠다-X(CUDA-X) 라이브러리 소프트웨어 업데이트와 함께 멜라녹스(Mellanox) HDR 200Gb/s 인피니밴드 네트워크를 통해 확장되고 있는 클러스터를 구동하고 있다. HDR 인피니밴드는 매우 낮은 지연시간(레이턴시)과 높은 수준의 데이터 처리량을 제공하는 동시에 샤프(SHARP) 기술을 통한 스마트 딥 러닝 컴퓨팅 가속 엔진을 제공한다.



<엔비디아는 새로운 GPU, 소프트웨어 업그레이드, 시스템 설계 확대를 통해 AI 성능을 지속적으로 개선하고 있다.>


추천 시스템, 대화형 AI, 강화 학습 부문에서 경이로운 성과를 기록한 엔비디아


MLperf 벤치마크는 아마존, 바이두, 페이스북(Facebook), 구글, 하버드대(Harvard), 인텔(Intel), 마이크로소프트, 스탠포드대(Stanford) 등의 지원으로 AI 기술의 진보에 맞춰 지속적으로 발전하고 있다.


이번 벤치마크는 엔비디아는 뛰어난 성능을 기록한 두 가지 새로운 테스트와 대대적인 수정을 거친 한 가지 테스트로 구성됐다. 첫 번째는 지속적인 인기를 얻고 있는 AI 과제인 추천 시스템 관련 테스트이며, 두 번째는 가장 복잡한 신경망 모델 중 하나인 버트(BERT)를 이용한 대화형 AI 테스트였다. 또한, 19x19 풀사이즈 바둑판이 사용된 미니 바둑을 기반으로 한 강화 학습 테스트가 진행돼 게임 플레이부터 훈련까지 다양한 운영방식을 이용한 최고 난이도의 테스트가 진행됐다.



<대화형 AI와 추천 시스템에 엔비디아 AI를 사용 중인 고객들>


이미 많은 기업들이 AI를 자사 서비스에 전략적으로 적용해 효과를 보고 있다. 세계적인 전자상거래 기업 알리바바(Alibaba)는 엔비디아 GPU를 사용해 CPU 대비 초당 100배 이상의 쿼리를 추천 시스템에 제공하며 11월 중국 광군제에 380억 달러의 매출을 기록했다. 대화형 AI 역시 큰 화제를 모으며, 금융에서 헬스케어 분야에 이르는 수많은 기업들의 매출을 높이는데 기여하고 있다. 이처럼 엔비디아는 고도의 성능이 요구되는 작업에 그에 맞는 기술력과 편의성을 모두 제공하고 있다.


전략적인 AI 기술 사용을 지원하는 엔비디아 소프트웨어


지난 5월, 엔비디아는 대화형 AI를 위한 자비스(Jarvis)와 추천 시스템을 위한 멀린(Merlin)이라는 두 가지 애플리케이션 프레임워크를 발표했다. 멀린에는 이번 MLperf 테스트 결과에 기여한 훈련용 프레임워크 휴즈CTR(HugeCTR)이 포함돼 있다.


자비스와 멀린은 자동차(엔비디아 드라이브(NVIDIA DRIVE)), 헬스케어(클라라(Clara)), 로봇(아이작(Issac)), 리테일/스마트 시티(메트로폴리스(Metropolis)) 등 다양한 산업분야에 적용되며 점점 증가하고 있는 산업용 애플리케이션 프레임워크 제품군 중 하나다.



<엔비디아 애플리케이션 프레임워크는 엔터프라이즈 AI가 개발단계에서 실제 구축되는 과정을 단순화한다.>


고속 구축이 가능한 DGX 슈퍼POD 아키텍처


엔비디아는 단 몇 주 만에 구축이 가능한 대규모 GPU 클러스트용 퍼블릭 레퍼런스 아키텍처인 DGX 슈퍼POD 기반 내부 클러스터인 셀린(Selene) 시스템으로 MLperf 테스트를 진행했다. 이 아키텍처에는 DGX POD에 사용된 설계 원칙과 우수 사례가 동일하게 적용되어 현존하는 AI 과제 중 가장 어려운 문제들을 해결하는데 사용되고 있다.


셀린은 1엑사플롭 이상의 AI 성능을 선보이며 최근 전세계 상위 500대 슈퍼컴퓨터를 선정하는 톱500(TOP500)에 이름을 올렸다. 또한 셀린은 세계에서 가장 높은 전력 효율성을 갖춘 슈퍼컴퓨터를 선정하는 그린500(Green500) 리스트에서 2위를 차지했다.


이미 엔비디아의 고객은 이러한 레퍼런스 아키텍처를 기반으로 자체 DGX POD와 DGX 슈퍼POD를 구축하고 있다. 일례로 미 플로리다대는 미국 내 학계 최고 속도의 AI 슈퍼컴퓨터인 하이퍼게이터(HiPerGator)을 통해 다양한 전공분야를 망라해 진행 중인 AI 이니셔티브에 활용할 계획이다. 최고의 슈퍼컴퓨팅 센터인 미 에너지국(DOE) 산하 아르곤국립연구소(Argonne National Laboratory)는 DGX A100을 사용해 코로나19 퇴치 방안을 연구하고 있다. 아르곤연구소는 고성능컴퓨팅(HPC) 센터 중 가장 먼저 A100 GPU를 채택한 기관이다.



<세계적으로 각광받고 있는 엔비디아 DGX POD>


DGX 슈퍼POD는 이미 자동차 산업에서는 콘티넨탈(Continental), 항공우주 분야에서는 록히드마틴(Lockheed Martin), 클라우드 컴퓨팅 서비스 분야에서는 마이크로소프트와 같은 글로벌 대기업들의 매출을 높이는데 주도적인 역할을 하고 있다. 이런 시스템들은 일정 부분 엔비디아 GPU와 DGX 시스템을 지원하는 대규모 생태계를 통해 성공적으로 구동되고 있다.


MLperf 결과를 제출한 9곳의 기업 중 클라우드 서비스 공급업체인 알리바바 클라우드, 구글 클라우드, 텐센트 클라우드와 서버 제조업체인 델, 후지쯔(Fujitsu), 인스퍼(Inspur) 등이 엔비디아 GPU를 사용했다.



<엔비디아 AI 플랫폼을 사용하는 파트너사들이 MLperf 테스트에 제출한 서비스>


파트너 중 다수는 엔비디아 소프트웨어 허브인 NGC 컨테이너와 공개 프레임워크를 사용했다. 이들은 엔비디아 A100 GPU를 사용하는 온라인 인스턴스, 서버, PCIe 카드용 제품이나 사업 계획을 갖고 있는 약 20여 곳의 클라우드 서비스 공급업체와 OEM으로 구성된 생태계를 구축하고 있다.


NGC에서 엔비디아와 엔비디아 파트너사들이 최근 진행된 ML퍼프 벤치마크에서 사용했던 동일한 소프트웨어 중 상당수를 사용할 수 있다. NGC는 여러 GPU에 최적화된 컨테이너, 소프트웨어 스크립트, 사전 훈련된 모델과 SDK를 제공한다. 데이터 사이언티스트와 개발자들이 이를 통해 텐서플로우(TensorFlow)나 파이토치(PyTorch) 같은 인기 프레임워크의 AI 워크플로우를 가속화하고 있다.

추천 0 비추천 0

댓글(0)

등록된 댓글이 없습니다.