지표별 측정 방법
- 번역·표현력(표현 정확도) 지표 : WMT 2024 일반 번역 과제(인간/자동 평가, LLM 포함) 결과. Claude 3.5 Sonnet, Unbabel-Tower70B 등이 여러 언어쌍에서 상위권을 차지했고, 언어쌍별 격차가 큽니다. (www2.statmt.org)
- 언어 범위·저자원 영향 : Meta NLLB/FLORES-200(+ FLORES+), 200개 이상 언어 방향에서 번역 품질을 인류/자동으로 측정, 저자원 언어 난이도 확인., 2024 Nature 논문 및 WMT 확장판 자료 포함. (Nature)
- 범용 이해·추론(비번역) 지표 : Google XTREME(40개 언어, XNLI/UDPOS/MLQA 등 복수 과제)와 후속 연구들. 고자원→중자원→저자원으로 갈수록 성능 하락 경향. (GitHub)
- 사용자 선호/다언어 실제 사용 : LMSYS Chatbot Arena(60+ 언어 투표 기반) 다언어 선호 데이터., 고자원 유럽/아시아 주요어가 상대적으로 안정적. (LMSYS)
해석 방법
- 티어(A–E) = 위 근거들을 합쳐 본 예상 정확도 대역입니다.
- A 매우 높음(상용 작업에 바로 사용 권장)
- B 높음(약간의 검수 권장)
- C 보통(전문 작업 전 필수 검수)
- D 낮음(참고용, 사람 검수 전제)
- E 매우 낮음/불안정(데이터/도구 한계 큼)
- 순위는 번역/요약/질의응답 전반의 평균적 체감 성능을 기준으로 했고, 모델·도메인·언어쌍에 따라 달라질 수 있습니다(특히 저자원어). 근거 문헌의 상세 수치/언어쌍별 표는 상기 원문을 확인하세요. (www2.statmt.org)

인사이트
- 한자·한글·가나·라틴 스크립트 기반 고자원어가 전반적으로 상위(A/B)를 차지합니다. 이는 WMT/FLORES·XTREME 전반에서 공통 경향입니다. (www2.statmt.org)
- 저자원·다양 스크립트·강한 형태론(예: 북미·오세아니아·안데스권 소수언어)은 여전히 D권으로 분포., FLORES+의 커버리지가 늘었지만 품질 변동성이 큽니다. (www2.statmt.org)
- 인도·아프리카 거대 사용자군 언어(힌디어, 벵골어, 스와힐리 등)는 최근 상승세가 뚜렷합니다(데이터·툴링 확대, LLM 내장 학습 증가). (www2.statmt.org)
- 실사용 체감(Arena 사용자 투표)은 벤치마크와 대체로 일치하나, 프롬프트 스타일/주제 영향으로 언어별 선호가 달라질 수 있습니다. (LMSYS)
[1]: https://www2.statmt.org/wmt24/pdf/2024.wmt-1.1.pdf "Findings of the WMT24 General Machine Translation ..."
[2]: https://www.nature.com/articles/s41586-024-07335-x "Scaling neural machine translation to 200 languages"
[3]: https://github.com/google-research/xtreme "google-research/xtreme"
[4]: https://lmsys.org/blog/2024-06-27-multimodal/ "The Multimodal Arena is Here!"
[5]: https://aclanthology.org/events/wmt-2024/ "WMT - Conference on Machine Translation (2024)"
[6]: https://www2.statmt.org/wmt24/pdf/2024.wmt-1.41.pdf "Expanding the FLORES+ Multilingual Benchmark with ..."
[7]: https://aclanthology.org/2024.wmt-1.49.pdf "FLORES+ translation and machine ..."
[8]: https://www2.statmt.org/wmt24/pdf/2024.wmt-1.54.pdf "Findings of WMT 2024 Shared Task on Low-Resource ..."
[9]: https://aclanthology.org/2024.wmt-1.1/ "The LLM Era Is Here but MT Is Not Solved Yet"
'인공지능 비즈니스 Insight' 카테고리의 다른 글
| 휴머노이드, 나라별 출시 및 출시 임박한 휴머노이드 뭐가 있을까? (0) | 2025.11.05 |
|---|---|
| 인공지능 시대의 지식 재산권 ; 인공지능을 발명자로 인정할 수 있나? (0) | 2025.11.05 |
| OECD-KLI(한국노동연구원) 공동 보고서 ; 대한민국 AI일자리 대체 아직은 일러… (0) | 2025.11.03 |
| 나라별로 많이 사용하는 AI ; 2025, October (0) | 2025.11.03 |
| 나라별 인공지능 활용 특징 및 연령층 활용 경향 ; 2025, October (0) | 2025.11.03 |