August 21, 2025

대한민국, 대형 언어 모델 혁신의 중심에 서다

1 min read

대한민국이 대형 언어 모델(LLM) 분야에서 빠르게 혁신을 이루고 있다. 정부의 전략적 투자, 기업의 연구, 그리고 오픈 소스 협력을 통해 한국어 처리 및 국내 응용 프로그램에 특화된 모델을 개발하고 있다. 이러한 노력은 외국 AI 기술 의존성을 줄이고, 데이터 프라이버시를 강화하며, 의료, 교육, 통신과 같은 다양한 분야를 지원한다.

2025년, 과학기술정보통신부는 240억 원 규모의 프로그램을 시작하며 네이버 클라우드, SK텔레콤, 업스테이지, LG AI 리서치, NC AI가 이끄는 5개 컨소시엄을 선정하여 지역 인프라에서 운영 가능한 주권 LLM을 개발하도록 했다.

규제 진전도 이루어졌다. 식품의약품안전처는 2025년 초 세계 최초로 텍스트 생성 의료 AI 승인에 대한 지침을 발표했다.

기업과 학계에서도 혁신이 활발히 진행되고 있다. SK텔레콤은 한국어에 강한 7억 개 파라미터 규모의 AX 3.1 Lite 모델을 처음부터 학습시키며 1.65조 개의 다국어 토큰 데이터를 사용해 훈련했다. 이 모델은 KMMLU2에서 한국어 언어 추론에 대해 약 96% 성능을 보여주고, CLIcK3에서 문화적 이해에 대해 102%의 성과를 나타냈다. AX 3.1 Lite는 모바일 및 온디바이스 애플리케이션을 위해 Hugging Face에서 오픈 소스로 제공된다.

네이버는 각종 한국어 검색과 대화 능력을 향상시킨 HyperClova X Think를 출시했다. 업스테이지의 Solar Pro 2는 프론티어 LM 인텔리전스 리더보드에 대해 유일한 한국 모델로, 국제 모델과의 성능 격차를 최소화하는 효율성을 보여주고 있다.

LG AI 리서치는 300억 개 파라미터의 Exaone 4.0을 출시했으며, 이는 글로벌 벤치마크에서 경쟁력을 가지는 성능을 발휘하고 있다. 서울대학교병원은 3,800만 개의 비식별 임상 기록으로 훈련된 한국 최초의 의료 LLM을 개발하였으며, 이 모델은 한국 의사 면허 시험에서 86.2%를 기록해 평균 79.7%인 인간 성적을 초과했다.

Mathpresso와 업스테이지는 협력하여 MATH GPT라는 130억 개 파라미터의 소형 LLM을 개발하였고, 이 모델은 수학적 벤치마크에서 0.488의 정확도로 GPT-4의 0.425를 초과했다. 오픈 소스 이니셔티브로는 Polyglot-Ko가 있으며, 이 모델은 한국어 데이터셋들을 지속적으로 사전 훈련하여 코드 스위칭과 같은 언어적 미세 장치를 처리한다.

기술 트렌드로는 한국 개발자들이 효율성에 중점을 두어 Chinchilla 스케일링 아이디어에 영감을 받아 70억에서 300억 개 파라미터 모델을 최적화하고 있다. 특정 도메인에 대한 적응이 나타나며, 서울대학교병원의 의료 LLM과 수학을 위한 MATH GPT와 같은 모델에서 우수한 성과가 확인된다.

한국 LLM 시장은 2024년에 1억 8240만 달러에서 2030년까지 12억 7830만 달러로 성장할 것으로 예상되며, 이는 연평균 39.4%의 성장률을 반영한다. 이 시장은 주로 챗봇, 가상 비서 및 감정 분석 도구에 의해 주도되고 있으며, 통신 기업들이 엣지 컴퓨팅 LLM을 통합하여 지연 시간을 줄이고 데이터 보안을 강화하는 AI 인프라 슈퍼하이웨이와 같은 이니셔티브가 지원하고 있다.

이러한 발전들은 대한민국이 문화적으로 적합한 효율적인 AI 모델을 창출하고 있다는 것을 보여주며, 글로벌 기술 분야에서의 입지를 강화하고 있다.

이미지 출처:marktechpost