AI 운영 (2) 썸네일형 리스트형 [NVIDIA] AI 인프라 및 운영 - ③ AI 운영 13. AI 데이터 센터 관리 및 모니터링13.1 Key Messages클러스터 관리 (Cluster Management)인프라 프로비저닝 (Infrastructure Provisioning)자원 관리 (Resource Management)작업 관리 (Workload Management)프로비저닝 (Provisioning Tools) : 프로비저닝은 하드웨어에 소프트웨어와 드라이버를 설치하는 과정모니터링 도구 (Monitoring Tools) : 모니터링은 AI 인프라 및 해당 소프트웨어, 서비스, 실행 중인 작업(job)의 상태와 매트릭을 확인하는 과정을 포함작업 관리 (Workload Management) : 자원할당, 작업 스케줄링 (Scheduling Jobs), 자원 사용량 모니터링 (Monit.. [NVIDIA] AI 인프라 및 운영 - ② AI 인프라 7. 데이터센터 플랫폼7.1 Key messageNVIDIA 플랫폼 (NVIDIA Platform) : 현대 데이터 센터에서 가속 컴퓨팅을 위한 풀 스택 플랫폼 제공데이터 센터 GPU (Data Center GPUs) : 블랙웰(Blackwell), 호퍼(Hopper), 에이다 러브레이스(Ada Lovelace) 아키텍처를 기반으로 한 B200, H100, L40S와 같은 다양한 데이터 센터 GPU를 제공멀티 GPU 시스템 (Multi-GPU Systems) : NVLink 및 NVSwitch를 통한 고대역폭 GPU간 통신을 지원하는 DGX100 및 DGX B200과 같은 멀티 GPU 시스템을 제공BlueField 플랫폼 및 DOCA (BlueField Platform and DOCA) : BlueFie.. 이전 1 다음