네이버가 생성형 인공지능(AI) 기반의 답변과 서비스 실행 기능까지 제공하는 차세대 검색 서비스 'AI탭'의 핵심 기술을 공개했다. 네이버가 제공하는 쇼핑·검색·플레이스 등 다양한 서비스와 결합해 이용자의 일상에 실질적으로 도움을 줄 수 있는 생태계를 구축하는 데 초점을 맞췄다.
이기창 네이버클라우드 이사는 지난 2일 서울 강남구 네이버 D2SF에서 진행된 네이버 'AI검색 테크 딥톡'에 참석해 "AI탭에는 대화 맥락을 끊김 없이 이어가고 상황에 맞는 도구를 선택해 원하는 과업을 끝까지 완수하는 데 최적화된 차세대 대규모언어모델(LLM) 모델 '프로덕트 네이티브'가 도입됐다"며 "사용자가 검색하고 무언가 구매하고 예약하는 실제 서비스 순간에 가장 잘 작동하는 경량화 모델"이라고 설명했다.
네이버가 지난달 26일 출시한 AI탭은 기존 검색에 생성형 AI 기반의 답변과 서비스 실행 기능을 결합한 서비스다. 예를 들어 "이용자가 부모님과 갈만한 광화문 식당을 찾아줘"라고 질문하면 자사 데이터와 사용자의 취향을 기반으로 적절한 장소를 추천하고 예약 가능 여부까지 제시한다.
AI탭에 적용된 프로덕트 네이티브는 대규모 서비스 환경에 최적화된 'MoE(Mixture of Experts)' 구조를 도입해 효율성을 극대화한 게 특징이다. 이를 통해 기존 '하이퍼클로바X' 대비 응답 속도를 높이고 대량의 데이터를 빠르게 처리할 수 있는 성능을 확보했다. 이용자의 질문에 답변하는 속도도 대폭 단축했다.
특히 네이버는 정확한 답변을 제공하기 위해 '강화학습' 기술을 고도화했다. 강화학습에 투입되는 컴퓨팅 자원을 하이파클로바X 대비 2배 이상 늘렸다. AI가 사용자의 모호한 요청을 임의로 해석해 잘못된 답변을 내놓지 않도록 추가 질문을 통해 의도를 명확히 확인하는 방식을 적용해 할루시네이션(환각 현상)도 개선했다.
예를 들어 이용자가 "그 드라마 주인공이 누구야?"라고 모호하게 질문했을 때, AI가 임의로 추측해 "홍길동입니다"라고 그럴듯하지만 부적절한 답변을 내놓으면 감점을 부여한다. 반면 "어떤 드라마를 말씀하시는 건가요?"라며 사용자에게 되물어 의도를 구체화하면 보상을 주는 방식으로 모델을 훈련시켰다.
이 이사는 "이번 차세대 모델은 AA-Omniscience 벤치마크 기준으로 기존 하이퍼클로바X 대비 할루시네이션 비율을 최대 30%포인트 낮췄다"며 "불완전한 질문을 성급하게 추측하기보다 필요한 정보를 되물어 더욱 신뢰할 수 있는 AI 경험을 제공할 것으로 기대한다"고 말했다.
일머리 심어주는 '하네스 엔지니어링'
네이버는 AI 검색 서비스를 구현하는 과정에서 '하네스 엔지니어링'을 도입했다. 하네스 엔지니어링은 LLM이 안정적이고 신뢰도 높은 답변을 생성할 수 있게 하는 기술이다. 이른바 AI 모델에 '일머리'를 심어주는 격이다. 네이버는 복잡한 AI 검색 과정을 단계별로 쪼개고, 각 단계에 최적화된 모델을 적용하는 방식으로 이를 구현했다.
이와 함께 응답 속도와 비용 효율성을 개선했다. 하나의 답변을 제공하기 위해서는 여러 단계를 거쳐야 하는데, 네이버는 해당 과정을 네 가지 단계로 나누고 각 과정마다 최적화된 경량 모델을 적용해 효율성을 높였다.
예를 들어 이용자가 "부모님과 주말에 저녁 먹기 좋은 식당을 찾아줘"라고 질문하면, AI가 먼저 사용자의 취향과 위치 등을 파악한다. 이후 질문 유형을 분류하고, 플레이스 정보를 활용해 리뷰·위치·영업시간 등 데이터를 수집한다. 확보한 정보를 바탕으로 답변을 구성해 제공하고, 예약이나 길찾기처럼 바로 실행할 수 있는 기능을 제시한다.
한승균 네이버 AI 검색 서비스 리더는 "모든 작업을 다 잘하는 하나의 거대 모델을 만드는 것은 사실상 불가능하다"며 "각 단계와 컴포턴트별로 요구되는 작업을 잘 수행하는 작은 모델들을 개발했다"고 설명했다.
이어 "하나의 모델로 모든 과정을 처리하면 응답 속도와 비용 측면에서 비효율적"이라며 "최적화된 작은 모델을 활용하면 성능은 동등하거나 더 우수하게 유지하면서도 서비스 비용을 최대 3배까지 줄일 수 있다"고 덧붙였다
텍스트 넘어 이미지까지
네이버 AI탭의 다음 단계는 텍스트를 넘어 이미지와 영상까지 이해하는 '멀티모달 AI 에이전트'다. 윤상두 네이버 퓨처 AI 리더는 "사람들은 AI에 더이상 텍스트만 입력하지 않는다"며 "사진과 영상을 보여주며 비슷한 상품을 찾아달라고 하거나 예약까지 요청하는 등 이해와 실행을 한번에 요구한다"고 말했다.
이같은 기능을 제대로 수행하기 위해서는 텍스트와 이미지를 같은 의미로 해석하는 '멀티모달 임베딩 기술'이 필요하다. 윤 리더는 "텍스트와 이미지를 같은 선상에 두고 동일한 의미로 해석하는 것이 멀티모달 임베딩 기술"이라며 "이를 잘 만드는 것이 멀티모달 AI 에이전트의 '좋은 눈'을 만드는 시작점"이라고 말했다.
네이버는 지난 2017년 스마트렌즈 출시 이후 10년 가까이 시각적 검색 역량을 축적해왔으며, 자체적으로 3500만 규모의 멀티모달 데이터셋도 구축했다. 최근에는 글로벌 최고 권위 컴퓨터 비전 학회 'CVPR'에서 대화형 멀티모달 기술 '뮤코(MuCo)'의 성과를 인정받았다.
윤 리더는 "AI는 보고 이해하고 실행하는 방향으로 진화하고 있다"며 "10년 동안 축적해 온 스마트 렌즈 기반의 시각 검색기술과 선행 연구를 통해 네이버의 서비스를 더 고도화하고 차별화된 검색 환경을 만들어 나갈 것"이라고 밝혔다.





















