= 구글 누리집
= 구글 누리집

[이코리아] 구글이 현지시간 21일 오픈소스 AI 모델 '젬마 (Gemma)'를 공개했다. 구글은 블로그를 통해 “구글은 오랫동안 오픈 커뮤니티에 트랜스포머, 텐서플로우, 버트, JAX, 알파폴드, 알파코드와 같은 혁신 기술을 공유해왔다.”라며 “책임감 있게 AI를 이용하는 개발자와 연구진들을 지원하기 위해 새로운 세대의 오픈 모델을 공개한다.”라고 밝혔다.

구글에 따르면 젬마는 구글의 차세대 LLM인 ‘제미나이’의 개발의 핵심 기술과 연구를 기반으로 제작된 최첨단 경량 오픈 모델로, ‘보석’을 뜻하는 라틴어 ‘gemma’에서 영감을 받은 이름이다. 전 세계에서 이용 가능하며 누구나 상업적 사용 및 배포 가능하다.

구글은 젬마가 구글의 초거대 언어모델 제미나이를 기반으로 구축되어 높은 성능을 보여준다고 강조했다. 젬마 2B 모델과 젬마 7B 모델은 주요 벤치마크에서 더 큰 규모의 모델보다 더 뛰어난 성능을 보여주었으며,  동급 규모의 다른 오픈 모델들과 비교했을 때 역시 최고 성능을 보여준다고 주장했다. 또 상대적으로 경량이라 개발자들이 노트북으로도 구동할 수 있다고도 강조했다.

한편 그동안 폐쇄형 AI 진영의 대표 주자였던 구글이 오픈소스 AI 모델을 공개한 배경에도 관심이 쏠린다. 생성형 AI에 대한 두 가지 접근 방식으로는 ‘폐쇄형’과 ‘개방형’이 있는데 그동안 구글, 오픈 AI 등 AI 산업을 선도하는 기업들은 AI 모델의 학습 과정과 핵심 데이터를 비공개로 독점하며 수익을 추구하고 위험을 방지하도록 하는 폐쇄형 그룹으로 분류되어 왔다.

폐쇄형 그룹은 AI로 인해 발생할 수 있는 딥페이크나 가짜 정보 등의 부작용을 경계하며 책임 있는 AI를 강조하고 있다. 또 AI 기술을 완전히 공개하게 되면 누구나 AI를 악용할 수 있게 되는 우려가 생기기 때문에 AI를 통제된 환경 속에서 개발하며 남용을 방지해야 한다고 주장한다. 지난해 7월에는 구글, 마이크로소프트, 오픈 AI, 앤트로픽 등 폐쇄형 AI를 추구하는 기업들이 모여 ‘프론티어 모델 포럼’을 출범하기도 했다. 

= 메타 누리집
= 메타 누리집

반대로 개방형 그룹에는 메타, 허깅페이스, 미스트랄 등 AI 후발주자 기업과 다수의 민간 연구소, 연구자가 포함되어 있다. 이들은 AI의 소스 코드와 훈련용 데이터 세트를 모두 논문으로 투명하게 공개하는 개방적인 AI 개발을 추구한다. 이 중 메타는 자사의 거대언어모델 ‘라마2’를 오픈소스로 완전히 공개하는 등 대표적인 개방형 AI를 추구하는 기업으로 알려져 있다.

지난 12월에는 메타의 주도로 IBM을 비롯해 50여 개의 AI 관련 기업과 정부 기관, 대학이 모여 ‘AI 동맹(AI Alliance)’을 결성하기도 했다. 다리오 길 IBM 수석 부사장은 개방형 AI 동맹에 대해 “AI의 미래는 근본적으로 오픈소스(open source) 및 오픈 기술을 포함한 개방적인 과학적 아이디어 교환과 개방형 혁신을 기반으로 구축될 것임을 명확히 하기 위해 모였다.”라고 주장하며 AI 모델의 훈련과 검증, 배포 등 AI 개발의 모든 부분을 투명하게 공개하고 서로 자유롭게 교환해야 한다고 주장했다.

외신들도 구글의 이번 행보가 의외라고 평가하고 있다. 포브스는 그동안 폐쇄형 AI 개발을 추구하던 구글의 젬마 출시를 두고 “그동안 AI에 대한 폐쇄적 접근 방식으로 인해 비판을 받아온 거대 기술 기업으로서는 다소 이례적인 사례다.”라고 평가했으며, 포춘지는 “구글이 그동안 폐쇄형 진영에 확고히 자리해 있었지만, 이번 발표를 통해 오픈 소스가 어느 정도 승리할 수 있다는 점을 인정하게 되었다.”라고 짚었다.

그렇다고 구글이 완전히 개방형 진형으로 돌아선 것은 아니다. 구글이 공개한 기술 문서에 따르면 구글은 젬마와 같은 개방형 모델 출시의 "돌이킬 수 없는 특성" 때문에 안전을 최우선한다고 밝혔다. 또 AI 커뮤니티가 단순한 '개방형 대 폐쇄형' 논쟁에 매달리는 것을 넘어서야 하며, 양 진영의 위험과 이점에 대한 협력적 접근이 필수적이기 때문에 AI의 잠재적 피해를 과장하거나 최소화하지 말아야 한다고 촉구했다.

구글은 젬마를 오픈소스로 출시하면서도 남용을 막기 위한 각종 안전장치 마련에 총력을 다했다. 우선 젬마는 구글의 AI 원칙을 우선시하도록 설계되어 특정 개인 정보 및 기타 민감한 데이터를 학습 세트에서 자동으로 필터링하는 기술들을 적용하는 등 안전하고 신뢰할 수 있는 사전 학습 모델로 만들기 위한 기술이 적용되어 있다. 

제닌 뱅크스 구글 부사장은 프로그래머가 부정한 목적으로 젬마를 사용하는 것을 금지하는 광범위한 라이선스 약관을 마련했으며, 이는 기존의 사용 제한이 없는 ‘오픈 소스’와 구별되는 ‘오픈 모델’이라고 설명했다. 오픈 모델이란 모델의 가중치나 사전 훈련된 매개변수는 사용할 수 있으면서도, 실제 소스 코드나 훈련 데이터는 사용할 수 없는 모델을 의미한다.

저작권자 © 이코리아 무단전재 및 재배포 금지