본문 바로가기

LLM

(5)
KT, ‘믿:음 K 2.0’ 모델 신뢰성 인증 획득 KT가 자체 개발한 초거대 언어모델(LLM)인 ‘믿:음 K 2.0 Base’가 한국정보통신기술협회(TTA)로부터 인공지능 신뢰성 인증 2.0(CAT 2.0)을 국내 최초로 획득했다. (미래를 보는 창 - 전자신문)인공지능 신뢰성 인증은 과학기술정보통신부와 TTA가 운영하는 민간 자율 인증 제도로, 인증 기준은 국제 표준(ISO/IEC 23894, AI 위험관리 프레임워크 등)을 기반으로 고도화된 CAT 2.0 체계다. (뉴시스)기존 문서, 절차 중심 평가를 넘어 운영 환경 기능과 성능을 포함해 검증한다. (미래를 보는 창 - 전자신문) ‘믿:음 K 2.0 Base’ 모델 특징구조 : 약 11.5B(115억) 파라미터 규모의 오픈소스 언어모델. (뉴시스)기능 : 텍스트 분류, 질의응답, 요약, 생성, 변환..
Gemini 3 Pro: 69%, GPT-5: 62%, 사실성(팩추얼리티) 평가 결과.... 구글이 개발한 FACTS Benchmark Suite에서 AI 챗봇들의 사실성(정확성) 점수를 측정했다. (머니컨트롤)Gemini 3 Pro가 약 69%로 가장 높은 점수를 기록했다. (머니컨트롤) “69점(%)”의 의미모델이 답변을 사실에 맞게 제공했는가?를 종합 점수로 환산한 것으로, 최상위 모델조차 10번 중 3번가량은 사실 오류(또는 불완전한 근거)를 낼 수 있다는 문제의식을 드러냅니다. (Business Insider)ZDNet Korea 보도 기준 상위권 예시는 다음과 같이 소개됩니다:Gemini 3 Pro: 69%Gemini 2.5 Pro: 62%, GPT-5: 62%Grok 4: 54%, GPT o3: 52%, Claude 4.5 Opus: 51%, GPT-4.1: 51% 지디넷 코리아벤..
AI가 잘 이해·표현하는 언어는? 지표별 측정 방법번역·표현력(표현 정확도) 지표 : WMT 2024 일반 번역 과제(인간/자동 평가, LLM 포함) 결과. Claude 3.5 Sonnet, Unbabel-Tower70B 등이 여러 언어쌍에서 상위권을 차지했고, 언어쌍별 격차가 큽니다. (www2.statmt.org)언어 범위·저자원 영향 : Meta NLLB/FLORES-200(+ FLORES+), 200개 이상 언어 방향에서 번역 품질을 인류/자동으로 측정, 저자원 언어 난이도 확인., 2024 Nature 논문 및 WMT 확장판 자료 포함. (Nature)범용 이해·추론(비번역) 지표 : Google XTREME(40개 언어, XNLI/UDPOS/MLQA 등 복수 과제)와 후속 연구들. 고자원→중자원→저자원으로 갈수록 성능 하락 경..
“문장 하나 추가하면 LLM 창의력 2배 늘어”...AI 다양성 향상법 등장 “문장 하나 추가하면 LLM 창의력 2배 늘어”...AI 다양성 향상법 등장 “문장 하나 추가하면 LLM 창의력 2배 늘어”...AI 다양성 향상법 등장 - AI타임스생성 인공지능(AI)이 내놓는 답변이 비슷하거나 반복되는 '모드 붕괴(mode collapse)' 문제를 해결하기 위한 새로운 접근법이 등장했다. AI에 다양한www.aitimes.com
인공지능의 새 불평등... 누가 ‘생성형 AI 시대’의 주인공이 되었는가 https://www.dginclusion.com/news/articleView.html?idxno=1151 인공지능의 새 불평등... 누가 ‘생성형 AI 시대’의 주인공이 되었는가 - 디지털포용뉴스◇ 기술의 빛, 그러나 그늘은 깊어지고 있다2022년 ChatGPT의 등장 이후 전 세계는 인공지능의 이름으로 다시 한 번 혁명의 소용돌이 속에 들어섰다. 텍스트www.dginclusion.com