용어사전 목록으로
AI 기본 · 중급
벤치마크
AI 모델 성능을 표준 시험으로 측정한 점수.
한 줄 정의
AI 모델의 능력 (추론·코딩·언어 등) 을 비교 가능하게 측정하기 위한 표준 평가. 예: MMLU, GPQA, HumanEval.
초등학생도 이해할 비유
수능 같은 거예요. 다른 학생을 비교하려면 같은 시험을 봐야 하듯, AI 도 같은 벤치마크로 비교.
뉴스에서 어떻게 쓰이나요
“GPT-5 가 MMLU 92% 로 최고 점수” — 표준 시험에서 GPT-5 성능이 가장 좋다는 뜻.
내 생활·투자·업무와 연결
도구 선택 시 참고 지표. 다만 벤치마크 = 실제 사용 만족도 와 항상 일치하진 않음.
자주 헷갈리는 개념
- Eval 와의 차이
Eval = 모델 평가 일반. 벤치마크 = 표준화된 평가 세트의 한 종류.
관련 용어
자주 묻는 질문
Q. 벤치마크 점수 = 실제 성능?▾
참고만 하세요. 본인 작업으로 직접 5회 비교가 가장 정확.