본문 바로가기

인류 마지막 시험

(1)

인류 마지막 시험(HLE) 최첨단 LLM이 기존 벤치마크를 너무 쉽게 통과(포화)하자, 전문가 수준의 “닫힌형(정답이 명확한) 초고난도 시험”으로 다시 측정하려고 만든 벤치마크임.Center for AI Safety(CAIS)와 Scale AI가 주도했고, 전 세계 전문가들이 문제를 기여한 형태.총 2,500문항, 수학·자연과학·인문학 등 수십~100여 개 세부분야, 객관식+단답형(정답 일치 채점) 혼합.멀티모달(그림/도표 포함) 문항이 존재(약 14% 수준 언급).“학문형, 정답형 벤치마크”가 계속 포화되는 상황에서 더 이상 ‘시험 문제’로 성능을 가르기 어려워지기 전에 한 번 더 상한선을 만들겠다는 취지(“final closed-ended academic benchmark” 성격).문항 난이도 보증 방식(설계 포인트)출제 단계..

이전 1 다음

티스토리툴바