Internet

Google video clip 생성기 출시

북미타임즈 Wednesday, May 29 2024

이미지 생성 AI에 대해 Google은 가장 우수한 성적표를 보여주지 않습니다.

2월에 Google의 AI 기반 챗봇 Gemini에 내장된 이미지 생성기가 인종 및 성별 다양성을 랜덤하게 주입하여 인종 다양성의 나치 등의 모순된 이미지를 생성한다는 사실이 밝혀졌습니다.

Google은 생성기를 제거하고 개선한 후에 다시 출시할 것을 약속했습니다. 그 동안 기다리는 동안 Google은 기업 지향의 향상된 이미지 생성 도구인 Imagen 2를 내놓고 있습니다.

Imagen 2는 실제로 2023년 5월 Google I/O 컨퍼런스에서 미리보기된 후 지난 12월 출시된 모델군으로, OpenAI의 DALL-E와 Midjourney와 같이 텍스트 프롬프트를 통해 이미지를 생성하고 편집할 수 있습니다. 기업 관계자들에게 흥미로운 것은 Imagen 2가 여러 언어로 텍스트, 엠블럼 및 로고를 렌더링하고 이러한 요소들을 기존 이미지에 겹쳐 넣을 수 있다는 점입니다. 예를 들어, 명함, 의류 및 제품에 이러한 요소를 겹쳐 넣을 수 있습니다.

Google이 텍스트와 로고 생성 기능을 갖춘 Imagen 2를 출시

미리보기로 먼저 출시된 Imagen 2의 이미지 편집 기능은 Vertex AI에서 이제 일반적으로 사용 가능하며, inpainting 및 outpainting과 같은 두 가지 새로운 기능도 함께 제공됩니다. DALL-E와 같은 인기있는 이미지 생성기에서 제공된 inpainting 및 outpainting은 이미지의 원치 않는 부분을 제거하거나 새로운 구성 요소를 추가하고 이미지의 테두리를 확장하여 더 넓은 시야를 만들 수 있습니다.

하지만 Imagen 2 업그레이드의 실질적인 부분은 Google이 '텍스트로 실시간 이미지'라고 부르는 것입니다.

Imagen 2는 이제 텍스트 프롬프트를 통해 4초짜리 짧은 비디오를 생성할 수 있습니다. Runway, Pika 및 Irreverent Labs와 같은 AI 기반 클립 생성 도구와 유사하게. Imagen 2의 기업 지향성에 부합하게 Google은 마케터 및 창의인을 위한 도구로 실시간 이미지를 소개하고 있으며, 자연, 음식 및 동물을 보여주는 광고용 GIF 생성기로 사용할 수 있습니다. 이러한 주제는 Imagen 2가 세밀하게 조정된 주제입니다.

Google은 실시간 이미지가 '범위 내에서 일련의 카메라 각도와 움직임을 캡처하면서' 전체 시퀀스에서 '일관성을 지원'할 수 있다고 말합니다. 그러나 현재는 저해상도입니다. 360픽셀 x 640픽셀입니다. Google은 이것이 앞으로 개선될 것이라고 약속하고 있습니다.

Deepfakes를 생성할 수 있는 잠재력에 대한 우려를 완화하거나 적어도 완화하려는 목적으로 Google은 Imagen 2에서 실시간 이미지에 암호화 워터마크를 적용하기 위해 Google DeepMind가 개발한 SynthID를 사용할 것이라고 밝혔습니다. Google은 이웃, 필터 및 색조 조정을 포함한 편집에도 견고한 워터마크를 적용한다고 주장하며 이를 감지하기 위해서는 제3자에게 제공되지 않는 Google 제공 도구가 필요하다고 합니다.

그리고 또 다른 생성 미디어 논란을 피하기 위해 Google은 실시간 이미지 생성을 '안전성을 위해 걸러진' 것이라고 강조하고 있습니다. 대변인은 이메일을 통해 TechCrunch에 다음과 같이 전달했습니다. 'Imagen 2 모델은 Gemini 앱과 같은 문제를 겪지 않았습니다. 우리는 철저히 테스트하고 고객과 협업을 계속하고 있습니다.'

하지만 Google의 워터마킹 기술, 편견 완화 및 필터가 주장하는 대로 효과적인지 가정하더라도 이미 존재하는 비디오 생성 도구와 경쟁력이 있는지 의문입니다.

Runway는 훨씬 더 높은 해상도로 18초 클립을 생성할 수 있습니다. Stability AI의 비디오 클립 도구인 Stable Video Diffusion은 더 큰 사용자 정의 가능성(프레임 속도로)을 제공합니다. 상용으로 제공되지는 않지만 OpenAI의 Sora는 훌륭한 현실성을 달성할 것으로 예상됩니다.

그래서 실시간 이미지의 실질적인 기술적 장점은 무엇인가요? 제게는 정말 잘 모르겠습니다. 그리고 너무 심하게 말하는 것 같지 않다고 생각합니다.

결국 Google은 이미지 생성 기술에서 Imagen 비디오와 Phenaki와 같이 실제로 인상적인 성과를 거두어 왔습니다. Phenaki는 긴 상세한 프롬프트를 2분 이상의 '영화'로 변환하는 Google의 흥미로운 실험 중 하나이지만, 클립은 낮은 해상도이고 낮은 프레임 속도이며 다소 일관성이 없을 수 있습니다.

최근의 보고서에서 제시된 바와 같이, 생성적 AI 혁명이 Google CEO Sundar Pichai를 깜짝 놀라게 했으며 회사가 여전히 경쟁사들과의 속도에 뒤처지고 있다는 것을 감안할 때, 실시간 이미지와 같은 제품이 본선에 오르는 것처럼 보이는 것은 놀랍지 않지만 그럼에도 실망스럽습니다. Google의 백합작업실에 더 인상적인 제품이 숨어 있었을 것 같다는 생각을 참아 볼 수 없습니다.

Imagen과 같은 모델은 일반적으로 인터넷의 공개 사이트 및 데이터 세트에서 가져온 많은 예제로 훈련됩니다. 많은 생성적 AI 공급 업체들은 훈련 데이터를 경쟁 우위로 보기 때문에 이를 볼트로 안전하게 보관하기 위해 엄격히 규정하고 있습니다. 그러나 훈련 데이터 세부 정보는 지적 재산과 관련된 소송 가능성의 원천이기도 하며 이는 많은 생성적 AI 공급 업체들, OpenAI, Stability AI, Adobe를 포함한 경쟁사로 하여금 많은 방법을 시도하도록 만드는 요인 중 하나입니다.

제가 항상 생성적 AI 모델과 관련된 발표에서 묻는 것처럼 업데이트된 Imagen 2를 훈련하는 데 사용된 데이터, 작가의 작업이 모델 훈련 과정에 포함되었을 때 추후 어느 시점에서 이를 선택적으로 거부할 수 있는지에 대해 질문했습니다.

Google은 모델이 '주로' 공개 웹 데이터, 블로그 게시물, 미디어 대본 및 공개 대화 포럼에서 추출한 데이터로 훈련된다고 말했습니다. 어떤 블로그, 대본 및 포럼인지는 누구에게나 알 수 없습니다.

대변인은 구글이 웹 마스터가 회사 웹 사이트로부터 데이터(사진 및 예술 작품 포함) 수집을 방지할 수 있는 구글의 웹 배급자 컨트롤을 가리킨다고 밝혔지만, Google은 작가들이(알지 못하게) 기여한 것에 대해 선택적으로 거부할 수 있는 도구를 발표할 것인지 또는 대신 보상할 것인지 약속하지 않았습니다.

또 하나 언급할 사항은 텍스트로 실시간 이미지가 구글의 생성적 AI 면책 정책의 적용 대상이 아니라는 점입니다. 이는 실시간 이미지가 현재 미리보기 단계에 있기 때문이며, 정책은 일반적으로 이용 가능한 생성적 AI 제품을 대상으로 합니다.

논란, 기술적 문제 또는 그 외의 큰 예기치 않는 결점이 없는 한, 텍스트로 실시간 이미지는 언젠가 본선에 오를 것입니다. 그러나 현재의 실시간 이미지로 Google은 기본적으로 '자기 책임'을 갖고 사용하라고 이야기하고 있습니다.

북미타임즈 3 weeks ago