본문 바로가기

대형언어모델

(1)

Gemini 3 Pro: 69%, GPT-5: 62%, 사실성(팩추얼리티) 평가 결과.... 구글이 개발한 FACTS Benchmark Suite에서 AI 챗봇들의 사실성(정확성) 점수를 측정했다. (머니컨트롤)Gemini 3 Pro가 약 69%로 가장 높은 점수를 기록했다. (머니컨트롤) “69점(%)”의 의미모델이 답변을 사실에 맞게 제공했는가?를 종합 점수로 환산한 것으로, 최상위 모델조차 10번 중 3번가량은 사실 오류(또는 불완전한 근거)를 낼 수 있다는 문제의식을 드러냅니다. (Business Insider)ZDNet Korea 보도 기준 상위권 예시는 다음과 같이 소개됩니다:Gemini 3 Pro: 69%Gemini 2.5 Pro: 62%, GPT-5: 62%Grok 4: 54%, GPT o3: 52%, Claude 4.5 Opus: 51%, GPT-4.1: 51% 지디넷 코리아벤..

이전 1 다음

티스토리툴바