멀티모달 AI '엑사원 4.5' 공개…텍스트·이미지 동시 이해
GPT·클로드·큐웬 넘는 성능…13개 지표서 경쟁력 입증
계약서·도면까지 읽는다…'산업 현장형 AI'로 진화

LG가 텍스트를 넘어 '이미지까지 이해하는 AI' 경쟁에 본격 뛰어들었다. 산업 현장에서 활용 가능한 멀티모달 AI를 앞세워 글로벌 빅테크와 정면 승부에 나선 모습이다.
LG AI연구원은 9일 텍스트와 이미지를 동시 이해하고 추론하는 멀티모달 인공지능 모델 '엑사원(EXAONE) 4.5'를 공개했다. 지난 2021년 '엑사원 1.0' 이후 축적한 기술을 바탕으로 자체 비전 인코더 및 거대언어모델(LLM)을 통합한 비전-언어 모델(VLM)이다.
이번 모델은 단순한 성능 개선을 넘어 LG의 AI 전략 전환을 보여주는 분기점에 가깝다. 텍스트 중심에서 벗어나 이미지·문서·도면 등 복합 데이터를 이해하는 멀티모달 AI로 확장하고, 나아가 물리 환경까지 인식하는 '피지컬 인텔리전스'로 이어지기 위한 전 단계라는 설명이다.
성능 지표에서도 경쟁력이 드러났다. 엑사원 4.5는 과학·기술·공학·수학(STEM) 관련 5개 평가 지표에서 평균 77.3점을 기록했다. △GPT-5 mini(73.5점) △Claude Sonnet 4.5(74.6점) △Qwen3 235B(77.0점) 등을 모두 웃도는 수준이다.
이미지와 텍스트를 결합한 복합 평가를 포함한 13개 지표 평균에서도 경쟁 모델을 앞섰다. 코드 생성 능력을 평가하는 라이브코드벤치에서는 81.4점을 기록해 Gemma 4(80.0점)를 넘어섰다. 차트 해석 능력을 평가하는 ChartQA Pro에서도 62.2점을 기록하며 경쟁력을 입증했다.
시각 능력 평가 지표에서 높은 점수를 기록했다는 것은 단순 인식을 넘어선 단계다. 문서 속 글자나 비정형 데이터를 읽는 데 그치지 않고, 맥락을 이해하고 질문에 답할 수 있는 수준의 추론 능력을 갖췄다는 평가다.
멀티모달 넘어 '피지컬 AI'로…LG 다음 승부수
LG AI연구원은 특히 '현장 적용성'을 강점으로 내세웠다. 계약서·기술 도면·재무제표·스캔 문서 등 실제 업무에서 다루는 복합 문서를 읽고 맥락까지 이해하는 데 특화됐다는 설명이다. 단순 인식을 넘어 이해와 추론 단계로 확장됐다는 의미다.
효율성도 개선됐다. 엑사원 4.5는 330억개 파라미터 규모로 기존 대비 약 7분의 1 수준이지만 텍스트 이해와 추론 성능을 동등하게 유지했다. 하이브리드 어텐션 구조와 멀티 토큰 예측 기반 추론 기술을 적용한 결과다. 지원 언어도 한국어와 영어를 넘어 스페인어, 독일어, 일본어, 베트남어로 확대했다.
LG는 이번 모델을 오픈 웨이트 형태로 공개하며 생태계 확장에 나선다. 글로벌 오픈소스 플랫폼 허깅페이스를 통해 연구·교육용으로 공개, 개발자와 연구자 참여를 유도한다는 전략이다. 앞서 엑사원 3.0 역시 국내 최초 오픈 웨이트 모델로 공개된 바 있다.
LG가 그리는 다음 그림도 뚜렷하다. 텍스트와 이미지를 넘어 음성·영상·물리 환경까지 이해하는 AI로 확장해 산업 현장에서 판단하고 행동하는 AI를 구현하겠다는 구상이다.
동시에 역사와 문화 맥락까지 이해하는 '한국형 AI' 고도화에도 속도를 낸다. 올해 1월 동북아역사재단으로부터 데이터를 제공받아 학습을 진행 중이며 고품질 데이터를 보유한 국내 다른 기관들과의 협업도 확대할 계획이다.
김명신 LG AI연구원 신뢰안전사무국 총괄은 "한국어 능력을 갖춘 AI가 늘고 있지만 역사와 문화적 민감성까지 깊이 이해하는 것은 차원이 다른 문제"라며 "엑사원은 자체 설계한 AI 위험 분류체계(K-AUT)를 기반으로 표현력과 신뢰성을 동시에 확보한 AI로 진화해 나갈 것"이라고 말했다.
