최첨단 LLM이 기존 벤치마크를 너무 쉽게 통과(포화)하자, 전문가 수준의 “닫힌형(정답이 명확한) 초고난도 시험”으로 다시 측정하려고 만든 벤치마크임.
- Center for AI Safety(CAIS)와 Scale AI가 주도했고, 전 세계 전문가들이 문제를 기여한 형태.
- 총 2,500문항, 수학·자연과학·인문학 등 수십~100여 개 세부분야, 객관식+단답형(정답 일치 채점) 혼합.
- 멀티모달(그림/도표 포함) 문항이 존재(약 14% 수준 언급).
- “학문형, 정답형 벤치마크”가 계속 포화되는 상황에서 더 이상 ‘시험 문제’로 성능을 가르기 어려워지기 전에 한 번 더 상한선을 만들겠다는 취지(“final closed-ended academic benchmark” 성격).
- 문항 난이도 보증 방식(설계 포인트)
- 출제 단계에서 최신 모델로 먼저 풀려보고, AI가 맞히는 문제는 탈락시키는 방식으로 난이도 바(Bar)를 세움.
- 다단계 리뷰(대학원급 리뷰어 → 전문가/조직위원 승인) 및 공개 피드백(버그바운티 포함)로 오류/검색가능 문항을 정리. (Nature)
- 핵심 결과(“AI가 쩔쩔맨”의 근거)
- Nature 논문과 공식 페이지/리더보드 요지는“프런티어 모델 정확도가 낮게 유지”되어 현 수준 AI와 전문가 수준 사이 격차가 크다는 것.
- 특히 확신(Confidence)을 높게 말하면서 오답을 내는 ‘과신/미보정(calibration error)’ 문제가 크다고 지적.
- 데이터 공개/재현성
- 데이터셋은 공개 배포(예: Hugging Face) 및 코드/리포지토리로 관리되어 연구 커뮤니티가 재현 가능하도록 설계.
- 오염/치팅(벤치마크 해킹) 대응
- 공개 테스트의 한계를 줄이기 위해 비공개(held-out) 세트를 별도로 유지해 과적합/오염을 점검하겠다는 방침을 명시.

[1]: https://www.nature.com/articles/s41586-025-09962-4 "A benchmark of expert-level academic questions to assess AI capabilities | Nature"
[2]: https://agi.safe.ai/ "Humanity's Last Exam"
[3]: https://scale.com/leaderboard/humanitys_last_exam "Humanity's Last Exam"
[4]: https://huggingface.co/datasets/cais/hle "cais/hle · Datasets at Hugging Face"
[5]: https://www.donga.com/news/Economy/article/all/20260129/133261091/2 "AI도 쩔쩔맨 ‘인류 마지막 시험’ 공개… 한국인도 출제|동아일보"
[6]: https://v.daum.net/v/20260130003255411 "AI도 쩔쩔맨 ‘인류 마지막 시험’ 공개… 한국인도 출제"
[7]: https://ar5iv.org/abs/2501.14249 "[2501.14249] Humanity’s Last Exam"
[8]: https://www.reuters.com/technology/artificial-intelligence/ai-experts-ready-humanitys-last-exam-stump-powerful-tech-2024-09-16/ "AI experts ready 'Humanity's Last Exam' to stump powerful tech | Reuters"
[9]: https://github.com/centerforaisafety/hle "GitHub - centerforaisafety/hle: Humanity's Last Exam"
[10]: https://en.wikipedia.org/wiki/Humanity%27s_Last_Exam "Humanity's Last Exam"
[11]: https://www.chosun.com/economy/science/2026/01/29/GL5EUBSOFRBDDDTIUQX2LVQKOY/ "AI도 못 푸는 '초고난도 시험' 등장…한국인도 같이 문제 냈다"
'인공지능 관련 뉴스@기사' 카테고리의 다른 글
| 오늘의 뉴스 (26. 02. 03.) (0) | 2026.02.03 |
|---|---|
| 머스크, 스페이스X·xAI 합병 추진 (0) | 2026.01.30 |
| ChatGPT for Kakao, 대화창에서 일정·금융·쇼핑·여행 등 업무 실행 까지 (1) | 2026.01.30 |
| 오늘의 뉴스 (26. 01. 30.) (0) | 2026.01.30 |
| 오늘의 뉴스 (26. 01. 29.) (0) | 2026.01.29 |