▲코난테크놀로지 임원진이 17일 서울 여의도 콘레드서울호텔에서 열린 대규모 언어모델 ‘코난(Konan) LLM’ 공개 기자간담회에서 질문에 답하고 있다. / 사진=코난테크놀로지
코난테크놀로지가 자체개발 대규모 언어모델 ‘코난(Konan) LLM’을 공개했다. 코난 LLM은 철저하게 기업 사용자(B2B)를 대상으로 차별화된 AI 서비스를 제공하겠다는 생각이다.
인공지능(AI) 소프트웨어(SW) 전문기업 코난테크놀로지(대표 김영섬)는 17일 서울 여의도 콘래드서울호텔에서 기자간담회를 갖고 코난 LLM을 선보였다.
이 회사는 1999년 설립 이후 자연어 심층 처리 분야에서 국내 최고 수준의 입지를 다지고 AI 원천기술을 축적해왔다.
회사 측은 코난 LLM이 보안 우려와 비용 부담을 덜고 답변 신뢰성은 높일 수 있는 최적화된 모델이라며, ▲국내 최다 학습 토큰 ▲20억 건에 달하는 양질의 문서 기반 데이터 ▲벡터검색 기술을 차별화 요소로 내세웠다. 또 한국어 특성에 기반한 구조로 답변 성능이 매우 뛰어나고 보고서 초안 생성에 특화된 B2B·B2G향 LLM을 표방한다고 강조했다.
코난 LLM은 보안를 강점으로 내세운다. 기업 전용 LLM을 온프레미스(사내 설치형)로 제공해 기업 내부 데이터 유출을 막겠다는 것이다. 보안을 중시하는 기업과 기관에게 매력적인 방식이라는 게 코난테크놀로지의 생각이다.
또 벡터 검색 엔진 구동으로 잘못된 정보를 내놓는 할루시네이션(Hallucination)을 줄인다. 벡터 검색 기반의 ‘코난 서치(Konan Search)’가 연동돼 답변과 함께 명확한 근거 및 출처가 참고문서 형태로 제시된다.
▲‘코난(Konan) LLM’은 채팅방식을 통해 문서생성 중에도 대화형으로 문서첨삭이 이뤄지고(왼쪽), 답변 근거로 참고자료가 제공돼 신뢰성을 높인다. / 사진=코난테크놀로지
회사 측은 또 거대언어모델의 고비용 이슈를 해결하기 위해 학습 토큰은 많이, 파라미터(매개변수) 크기는 줄이는 방식을 택하며 비용 효율성을 달성했다고 설명했다. 적절한 파라미터로 고객의 운영부담은 낮추고, 토큰은 늘려 LLM의 품질을 향상시킬 방침이다.
이번에 공개된 코난 LLM(13.1B)은 전체 토큰 4920억 개, 한국어 토큰 2840억 개를 학습했다. 11월께 내놓을 모델(41B)에는 전체 학습 토큰이 7000억 개, 한국어 토큰은 3220억 개가 쓰인다.
회사 측은 코난 LLM의 토큰 규모는 국내 최대 수준이며, 오픈소스 기반의 ‘LLAMA2’보다 한국어를 270배 많이 학습했다고 설명했다.
코난테크놀로지는 2007년부터 국내외 데이터를 실시간 수집·분석해 온 온라인 미디어 심화 분석 서비스 ‘펄스케이(PulseK)’를 통해 205억 개 문서를 자체 확보했다. 이 중 트위터나 뉴스 댓글 등 단문을 제외한 20억 건을 학습에 사용했다.
코난 LLM은 문서를 다루는 모든 기업의 ▲문서 초안 생성 ▲문서 요약 ▲질의응답을 지원한다.
문서 초안 생성에 집중해 파인 튜닝 함에 따라 각종 문서, 보고서, 보도자료 등의 초안을 빠르고 손쉽게 생성해주는 데 최적화됐다. 간단한 프롬프트 만으로 4000자 분량의 문서를 만들고, 문서 생성 중 추가적인 질의, 첨삭 및 참고자료 생성도 동시에 수행한다. 따라서 문서 작성에 할애되는 시간과 비용을 줄이고 작업 생산성을 크게 향상시킨다는 게 회사 측 설명이다.
코난 LLM은 온프레미스로 고객에게 제공되며, 라이선스 또는 연간 구독모델로 판매된다. 또 ‘코난 챗봇(Konan Chatbot)’과 AICC(AI for Contact Center) 비즈니스를 지원하는 ‘코난 보이스봇(Konan VoiceBot)’과 같은 자사의 서비스에도 코난 LLM을 도입해 여러 비즈니스 수요에 대응할 계획이다.
김영섬 코난테크놀로지 대표는 “생성형 AI 시장에 빠르게 대응하고자 기술개발과 장비 투자를 이어 왔고, 오늘 이 자리에서 노력의 결실을 공개하게 돼 기쁘다”며 “앞으로도 기술 고도화에 매진하겠다”고 말했다.
강동식 기자 lavita@datanews.co.kr
[ⓒ데이터저널리즘의 중심 데이터뉴스 - 무단전재 & 재배포 금지]