구글이 개발한 FACTS Benchmark Suite에서 AI 챗봇들의 사실성(정확성) 점수를 측정했다. (머니컨트롤)
Gemini 3 Pro가 약 69%로 가장 높은 점수를 기록했다. (머니컨트롤)

“69점(%)”의 의미
- 모델이 답변을 사실에 맞게 제공했는가?를 종합 점수로 환산한 것으로, 최상위 모델조차 10번 중 3번가량은 사실 오류(또는 불완전한 근거)를 낼 수 있다는 문제의식을 드러냅니다. (Business Insider)
- ZDNet Korea 보도 기준 상위권 예시는 다음과 같이 소개됩니다:
- Gemini 3 Pro: 69%
- Gemini 2.5 Pro: 62%, GPT-5: 62%
- Grok 4: 54%, GPT o3: 52%, Claude 4.5 Opus: 51%, GPT-4.1: 51% 지디넷 코리아
벤치마크는 4개 영역으로 구성됬다.
- 내부 지식 기반 응답(훈련 지식만으로 대응)
- 웹 검색 활용능력
- 문서 기반 답변 정확성
- 멀티모달(차트·이미지) 이해 능력 (머니컨트롤)
특히 멀티모달/이미지·차트 해석 부문이 정확도가 매우 낮음이 지적됨. (지디넷 코리아)
- 보도에 따르면 FACTS 벤치마크는 여러 상황에서의 사실 정확성을 점검하는 구조(예: 모델 내부지식 기반 답변, 검색 기반 답변, 긴 문서 근거 기반 답변, 이미지/차트 해석 등)로 설계됐습니다. (Business Insider)
- 특히 ZDNet Korea는 차트·이미지 등 멀티모달(시각 정보) 해석 영역이 낮은 점수를 보였다고 전합니다. (지디넷 코리아)
- 해당 수치는 “모델이 답변을 사실에 맞게 제공했는가”를 종합 점수로 환산한 것으로, 최상위 모델조차 10번 중 3번가량은 사실 오류(또는 불완전한 근거)를 낼 수 있다는 문제의식을 드러냅니다. (Business Insider)
- 이번 결과의 핵심 메시지는 “모델 간 서열”이라기보다, 현 세대 LLM이 ‘사실성’에서 아직 임계 수준에 못 미친다는 점입니다. (Business Insider)
- 특히 저널리즘, 법률, 금융, 의료처럼 근거가 필수인 분야에서는, AI 답변을 “최종 결과물”로 쓰기보다 원문 근거 확인(출처 링크/원문 인용/문서 근거)과 사람 검증을 전제해야 한다는 경고로 읽힙니다. Business Insider
[1]: https://www.moneycontrol.com/technology/google-s-own-benchmark-shows-ai-chatbots-still-get-one-in-three-answers-wrong-article-13729762.html "Google's own benchmark shows AI chatbots still get one in ..."
[2]: https://zdnet.co.kr/view/?no=20251216143228 "\"구글 제미나이 정확도 69점…챗GPT·그록·클로드는 더 낮아\""
[3]: https://ca.news.yahoo.com/google-finds-ai-chatbots-only-204858598.html "Google finds AI chatbots are only 69% accurate… at best"
[4]: https://en.wikipedia.org/wiki/Gemini_%28language_model%29 "Gemini (language model)"
[5]: https://www.linkedin.com/posts/alistairbarr_googles-new-facts-benchmark-suite-just-delivered-activity-7406467153366962176-yS56 "Google's new FACTS Benchmark Suite just delivered a ..."
[6]: https://www.businessinsider.com/google-researchers-find-best-ai-model-69-right-2025-12 "Google researchers find the best AI model is 69% right"