Internet

구글 제미니: 새로운 생성형 AI 플랫폼에 대해 알아야 할 모든 것

마시스북유럽 Sunday, May 26 2024

구글은 플래그십 제품군인 제미니(Gemini)를 통해 파장을 일으키려고 노력하고 있습니다. 이것이 무엇인가요? 어떻게 사용할 수 있나요? 그리고 경쟁 상황은 어떨까요?

최신 제미니 개발 동향을 쉽게 파악하도록 도와주기 위해 우리는 이 간편한 안내서를 제작했으며, 새로운 제미니 모델, 기능 및 구글의 제미니에 대한 계획과 관련된 새로운 소식이 발표될 때마다 업데이트할 것입니다.

제미니란 무엇인가요?

제미니는 구글의 AI 연구소인 딥마인드(DeepMind)와 구글 연구소가 개발한 차세대 GenAI 모델 패밀리입니다. 세 가지 유형으로 나눠집니다.

최고 성능의 제미니 모델인 제미니 울트라.
'라이트' 제미니 모델인 제미니 프로.
Pixel 8 Pro와 같은 모바일 기기에서 실행되는 더 작고 '순수한' 모델인 제미니 나노.

모든 제미니 모델은 '원래 다중 모달(natively multimodal)'로 훈련되었습니다. 다른 말로 하면, 단어 이상의 더 많은 것들과 작동하고 사용할 수 있는 능력을 갖췄다는 뜻입니다. 이 모델들은 다양한 오디오, 이미지 및 비디오, 다양한 코드베이스 및 여러 언어의 텍스트로 사전 훈련 및 세밀 조정되었습니다.

이는 텍스트 데이터만으로 훈련된 구글의 람다(LaMDA)와 구글의 제미니 모델과의 차이를 만듭니다. LaMDA는 텍스트 이외의 것 (예: 에세이, 이메일 초안)을 이해하거나 생성할 수 없지만, 제미니 모델의 경우 해당되지 않습니다.

제미니 앱과 제미니 모델의 차이점은 무엇인가요?

구글은 브랜딩 감각이 없는 것으로 다시 한번 입증했습니다. 처음부터 명확하게 제미니가 웹 및 모바일의 제미니 앱과 다르다는 점을 알리지 않았습니다. 제미니 앱은 특정 제미니 모델에 액세스할 수 있는 인터페이스에 불과합니다. 이것은 구글의 GenAI용 클라이언트라고 생각하면 됩니다.

또한, 제미니 앱과 모델은 일부 Google 개발 도구 및 환경에 있는 Google의 텍스트 대 이미지 모델 인 이미지언 2와 완전히 독립적입니다.

제미니는 무엇을 할 수 있나요?

제미니 모델들은 다중 모달이기 때문에 이론적으로 다양한 다중 모달 작업을 수행할 수 있습니다. 음성을 전사하거나 이미지 및 비디오에 캡션을 달거나 작품을 생성하는 등의 작업을 수행할 수 있습니다. 이러한 능력 중 일부는 제품 단계에 도달했지만(나중에 자세히 다루겠습니다) 구글은 가까운 미래에 이 모든 능력을 약속하고 있습니다.

물론, 회사의 말을 믿는 것은 조금 어려운 일입니다.

구글은 초기 Bard 런칭에서 심각한 실망을 안겨주었으며 최근에는 제미니의 능력을 보여주는 비디오가 여러 부분을 변조하거나 마음대로 포장된 것으로 밝혀져 논란이 되었습니다.

그럼에도 불구하고, 구글이 자신의 주장이 거의 진실된 것으로 가정한다면, 제미니의 각 단계가 그들의 모든 잠재 능력에 도달했을 때 무엇을 할 수 있는지 여기에 나와 있습니다.

제미니 울트라

구글은 제미니 울트라가 다중 모달 덕분에 물리학 숙제를 해결하고 문제를 한두 문제씩 워크시트에 설명하고 이미 기입된 답의 가능한 오류를 지적하는 데 사용될 수 있다고 말합니다.

구글은 또한 해당 문제와 관련된 과학 교재를 식별하고, 해당 교재에서 정보를 추출하고 보다 최신 데이터를 사용하여 차트를 재작성할 수 있게 필요한 수식을 생성함으로써 해당 문제에 제미니 울트라를 적용할 수 있다고 합니다.

제미니 울트라는 이미지 생성을 기술적으로 지원합니다. 그러나 이 기능은 아직 제품화된 모델에 통합되지 않았습니다. 아마도 ChatGPT가 이미지를 생성하는 방법보다 메커니즘이 더 복잡하기 때문일 것입니다. ChatGPT의 경우와 같이 이미지 생성기에 프롬프트를 제공하는 대신(예: ChatGPT의 DALL-E 3의 경우), 제미니는 중간 단계 없이 중간자 없이 이미지를 '원시적'으로 출력합니다.

제미니 울트라는 Vertex AI 및 AI Studio를 통해 API로 제공됩니다. 뿐만 아니라 제미니 앱을 구동하게 됩니다. 그러나 무료로는 이용할 수 없습니다. 구글이 제공하는 제미니 첨단(Gemini Advanced)에 대한 액세스에 대해 $20/월의 Google One AI 프리미엄 요금제를 구독해야합니다.

AI 프리미엄 요금제는 제미니를 귀하의 넓은 구글 워크스페이스 계정에 연결합니다. 예를 들어, Gamil의 이메일, 어플리케이션의 문서, 시트의 프레젠테이션 및 Google Meet 녹화물을 요약하거나 Gemini을 사용하여 비디오 통화 중에 노트를 캡처할 수 있습니다.

제미니 프로

구글은 제미니 프로가 추론, 계획 및 이해 능력에서 람다(LaMDA)보다 뛰어나다고 말합니다.

카네기 멜론 대학과 BerriAI 연구원들의 독립적인 연구에 따르면 초창기 제미니 프로 버전이 현재 OpenAI의 GPT-3.5보다 길고 복잡한 추론 체인을 다루는 데에서 실제로 더 나은 결과를 보였습니다. 그러나 연구는 이 버전의 제미니 프로가 여러 자릿수를 포함하는 수학 문제에서 특히 어려움을 겪고, 사용자가 잘못된 추론과 명백한 실수를 발견했다고 밝혔습니다.

그러나 구글은 개선책을 약속하였고, 첫 번째 개선책은 제미니 1.5 프로로 나타났습니다.

제미니 1.5 프로는 이전 버전에 비해 여러 면에서 개선된 것으로, 아마도 가장 중요한 것은 처리할 수 있는 데이터 양입니다. 제미니 1.5 프로는 대략 700,000 단어 또는 대략 30,000 줄의 코드를 처리할 수 있습니다. 제미니 1.5 프로는 텍스트에 한정되지 않으며, 다양한 언어의 1시간의 오디오 또는 비디오를 분석할 수 있습니다. 단, (예: 1시간 비디오에서 장면을 찾는 데 30초에서 1분 정도의 처리시간이 소요됩니다).

제미니 1.5 프로는 4월에 Vertex AI에서 공개 미리보기에 들어갔습니다.

또 다른 엔드포인트인 제미니 프로 비전은 텍스트와 이미지를 처리할 수 있으며, OpenAI의 GPT-4 with Vision 모델과 유사한 결과를 출력할 수 있습니다.

Vertex AI에서 개발자는 마이크로조정 또는 '그라운딩' 과정을 통해 제미니 프로를 특정 맥락과 사용 사례에 맞게 사용자 정의할 수 있습니다. 또한 제미니 프로를 외부 제3자 API에 연결하여 특정 작업을 수행할 수 있습니다.

AI Studio에서 개발자는 제미니 프로를 사용하여 구조화된 채팅 프롬프트를 작성하는 워크플로우가 있습니다. 개발자는 제미니 프로와 제미니 프로 비전 엔드포인트에 모두 액세스할 수 있으며, 출력의 창조적 범위를 제어하고 톤 및 스타일 지침을 제공하고 안전 설정을 조절하기 위해 모델 온도를 조정할 수 있습니다.

제미니 나노

제미니 나노는 제미니 프로와 울트라 모델의 훨씬 작은 버전으로, 일부 휴대폰에서 직접 실행할 수 있는 효율적인 모델입니다. 현재 Pixel 8 Pro, Pixel 8 및 Samsung Galaxy S24에서 몇 가지 기능을 구동하고 있으며, Recorder의 요약과 Gboard의 스마트 리플라이 기능을 포함합니다.

사용자는 노 신호 또는 Wi-Fi 연결이 없어도 이러한 요약을 받을 수 있으며, 사생활을 존중하여 해당 기간 동안 휴대전화로 데이터가 전송되지 않습니다.

제미니 나노는 또한 구글의 키보드 앱인 Gboard에도 적용되어 있습니다. 거기서 메시지 앱에서 대화를 할 때 다음에 말하고 싶은 것을 제안하는 기능인 스마트 리플라이를 구동합니다. 이 기능은 초기에는 WhatsApp에서만 작동하지만 시간이 지남에 따라 더 많은 앱에 적용될 예정입니다.

지원되는 장치의 Google Messages 앱에서 니안은 Magic Compose를 활성화하여 '흥분한', '공식적인' 및 '래시칼'과 같은 스타일로 메시지를 작성할 수 있습니다.

OpenAI의 GPT-4보다 제미니가 더 나은가요?

구글은 여러 차례 벤치마크에서 제미니의 우위를 내세웠으며, 제미니 울트라가 '최신 언어 모델 연구 및 개발에 사용되는 32개의 적절히 사용된 학술 벤치마크 중 30개에서 현재의 벤치마크 결과보다 우수하다'고 주장합니다. 반면, 제미니 1.5 프로는 요약 내용 작성, 아이디어를 내놓기 및 글쓰기 등의 작업에서 어느 경우에는 제미니 울트라보다 더 뛰어난 능력을 갖추고 있다고 합니다. 아마 단계별 모델의 출시와 함께 이 부분이 변경될 것으로 예상됩니다.

그러나 벤치마크가 진정으로 더 나은 모델을 나타내는지에 대한 문제를 떠나, 구글이 가리키는 점수들은 OpenAI의 대응 모델에 비해 미미하게 더 낫다는 것으로 보입니다. 그리고 - 앞에서 언급했듯이 - 일부 초기 인상은, 사용자 및 학계가, 이전 버전의 제미니 프로가 기본적인 사실을 오해하고 번역에 어려움을 겪고 부정확한 코딩 제안이라는 문제점을 지적했습니다.

제미니 비용은 얼마인가요?

제미니 1.5 프로는 제미니 앱 및 현재 AI Studio 및 Vertex AI에서 무료로 사용할 수 있습니다.

그러나 제미니 1.5 프로가 Vertex에서 프리뷰에서 제외되면, 모델은 문자 당 0.0025 달러가 들고 출력 당 0.00005 달러가 들게될 것입니다. Vertex 고객은 1,000 문자(약 140~250 단어)당 지불하며, 이 경우 제미니 프로 비전과 같은 모델의 경우 이미지당(0.0025 달러)합니다.

500 단어 길이의 기사가 2,000 문자를 포함한다고 가정하면 그 기사를 제미니 1.5 프로로 요약하는 데 필요한 비용은 5달러가 될 것입니다. 그와 유사한 길이의 기사를 생성하는 데 드는 비용은 0.1달러입니다.

울트라 요금은 아직 발표되지 않았습니다.