본문 바로가기

인류

(3)

인류 마지막 시험(HLE) 최첨단 LLM이 기존 벤치마크를 너무 쉽게 통과(포화)하자, 전문가 수준의 “닫힌형(정답이 명확한) 초고난도 시험”으로 다시 측정하려고 만든 벤치마크임.Center for AI Safety(CAIS)와 Scale AI가 주도했고, 전 세계 전문가들이 문제를 기여한 형태.총 2,500문항, 수학·자연과학·인문학 등 수십~100여 개 세부분야, 객관식+단답형(정답 일치 채점) 혼합.멀티모달(그림/도표 포함) 문항이 존재(약 14% 수준 언급).“학문형, 정답형 벤치마크”가 계속 포화되는 상황에서 더 이상 ‘시험 문제’로 성능을 가르기 어려워지기 전에 한 번 더 상한선을 만들겠다는 취지(“final closed-ended academic benchmark” 성격).문항 난이도 보증 방식(설계 포인트)출제 단계..

사회보장 영역 인공지능 기술 적용의 순기능 및 위험성에 대한 검토 : 논문 자료 https://www.kihasa.re.kr/api/kihasa/file/download?seq=31241이 문서는 한국보건사회연구원(2025.09) 발간 「보건복지포럼」 제347호에 실린〈사회보장 영역 인공지능 기술 적용의 순기능 및 위험성에 대한 검토〉(김기태 연구위원) 논문으로,사회보장 행정에서 AI 활용 현황, 기대효과, 위험요소, 정책 과제를 종합적으로 다룬 보고서입니다.** 주요내용 요약🧠 1. 개요• 인공지능은 사회보장제도(복지 행정) 전반에 빠르게 확산 중.• AI의 순기능과 위험성이 공존하며, 균형 잡힌 정책과 거버넌스 구축이 시급함.• 국내 사회보장 분야의 AI 활용은 아직 초보 단계이며, 해외도 유사한 수준.• 보고서는 국내외 사례를 비교하며 9대 적용 영역·7대 순기능·7대 위험성..

美 민주당 상원, 로봇세 도입 제안 https://news.google.com/rss/articles/CBMibEFVX3lxTE53eUtLSG81cFJMRHN1ekVfUDZoZHU2czVKVmV5MjNTTk55eXJqYmRKXzFveWxValUtNjl3STRGREtCS3JaSGk5VzBXeXpCSDBqR1piVVhQd2YwTWN0SWg1b2x2S2IwV25USW9rOQ?oc=5&hl=ko&gl=KR&ceid=KR:ko Google 뉴스Google 뉴스가 전세계 매체로부터 종합한 최신 뉴스news.google.com

이전 1 다음

티스토리툴바