NeMo Evaluator로 LLM 평가하기: 표준 벤치마크부터 커스텀까지 엔드투엔드 가이드
이번 가이드는 PAASUP DIP 환경에서 NVIDIA NeMo Evaluator를 활용해 OpenAI 호환 엔드포인트(NIM Proxy) 에 연결하고, 표준 벤치마크(LM Evaluation Harness)와 커스텀 데이터로 LLM을 일관된 절차로 평가하는 방법을 다룹니다. 설정 → 타깃 등록 → 실행 → 결과 해석까지 엔드투엔드 흐름을 실습 중심으로 정리했습니다.