[과학]KISTI, 국산 생성형 언어모델 '고니' 선보여…중소기업·공공기관 LLM 수요 대응

생성형 언어 모델 고니(KONI : KISTI Open Natural Intelligence) 심볼
생성형 언어 모델 고니(KONI : KISTI Open Natural Intelligence) 심볼

한국과학기술정보연구원(KISTi·원장 김재수)이 국산 생성형 거대 언어모델(LLM)을 선보인다.

KISTI는 과학기술데이터에 특화되고, 정부출연연구기관(출연연) 및 공공기관 등에 쉽게 활용가능한 LLM '고니(KONI:KISTI Open Natural Intelligence) 13b'를 개발했다고 20일 밝혔다.

챗GPT와 같은 LLM은 사용자 질의에 풍부한 답변을 할 수 있어 많은 관심을 받고 있다. 국내에서도 대기업 중심으로 여러 LLM들이 개발됐다. 하지만 정보 보안 등 문제를 중요시하는 출연연 및 공공기관, 비용 문제로 도입을 망설이는 중소기업은 활용하기 어려웠다.

이에 KISTI는 정보 유출에 안전하면서 다양한 과학기술·산업 분야에 특화되고, 기존 LLM의 할루시네이션(환각현상)까지 최소화한 고니를 개발했다.

기관 내 자체 설치해 활용하면 되기에 보안 문제에서 자유롭다. 또 PEFT(Parameteric Efficient Fine Tuning) 기법을 도입해 파인튜닝(데이터 추가 훈련으로 LLM 능력을 높이는 것) 전산비용을 줄이면서, 다양한 분야 수요에 대응할 수 있도록 분야별 어댑터 형식의 파인튜닝을 적용했다.

환각현상은 검색 증강생성기술(RAG) 적용이 쉽도록 개발, 최소화할 수 있었다.

KISTI는 현재 130억개 수준인 파라미터를 더 늘리고, 학습 데이터 또한 추가 확보해 성능을 지속 향상시킬 계획이다.

김재수 원장은 “출연연, 공공기관, 중소기업을 포함한 다양한 과학기술·산업 분야 LLM 수요에 대응하는 한편, 외부 협력 체계 구축에 따른 학습 데이터 확보 및 사용자 피드백을 반영으로 모델 성능을 지속적 개선할 예정”이라며 “KISTI의 국가과학기술데이터 서비스 분야에서도 고니를 통해 과학기술정보 유통·분석 체계를 획기적으로 개선해 일반 대중과 전문과학자 모두 활용할 수 있는 공학박사 수준 AI 정보 서비스 체계를 구축해 나갈 것”이라고 밝혔다.

한편, KISTI는 과학기술·산업 분야 초거대 AI를 구축·활용할 수 있도록 산·학·연·관·군 생태계를 구축하고 확산 노력을 강화할 예정이다.

김영준 기자 kyj85@etnews.com