실시간

용어사전 목록으로

AI 기본 · 중급

벤치마크

AI 모델 성능을 표준 시험으로 측정한 점수.

한 줄 정의

AI 모델의 능력 (추론·코딩·언어 등) 을 비교 가능하게 측정하기 위한 표준 평가. 예: MMLU, GPQA, HumanEval.

초등학생도 이해할 비유

수능 같은 거예요. 다른 학생을 비교하려면 같은 시험을 봐야 하듯, AI 도 같은 벤치마크로 비교.

뉴스에서 어떻게 쓰이나요

“GPT-5 가 MMLU 92% 로 최고 점수” — 표준 시험에서 GPT-5 성능이 가장 좋다는 뜻.

내 생활·투자·업무와 연결

도구 선택 시 참고 지표. 다만 벤치마크 = 실제 사용 만족도 와 항상 일치하진 않음.

자주 헷갈리는 개념

Eval 와의 차이
Eval = 모델 평가 일반. 벤치마크 = 표준화된 평가 세트의 한 종류.

관련 용어

자주 묻는 질문

Q. 벤치마크 점수 = 실제 성능?▾

참고만 하세요. 본인 작업으로 직접 5회 비교가 가장 정확.

다른 용어 보기