Contents

OpenAI, 포토리얼한 AI 동영상 생성기 Sora로 미디어 현실을 무너뜨리다

/images/openai-collapses-media-reality-with-sora-a-photorealistic-ai-video-generator.jpg

이 섹션에는 OpenAI의 Sora 기술 기능을 활용하여 만든 몇 가지 시각적 표현이 포함되어 있습니다. 이 스냅샷은 이 혁신적인 도구의 다양한 애플리케이션과 잠재적 사용 범위를 보여주는 세 개의 개별 비디오 녹화에서 파생되었습니다. 이 영상은 높은 수준의 디테일과 정확성을 보여주며 OpenAI의 Sora 플랫폼이 제공하는 고급 기능을 강조합니다.

목요일에 OpenAI는 Sora , 서면 설명에서 60초 길이의 사실적인 HD 동영상을 생성할 수 있는 텍스트-비디오 AI 모델을 발표했습니다. 아직 테스트되지 않은 연구용 프리뷰에 불과하지만, 현재 사용 가능한 어떤 텍스트-비디오 모델보다 더 높은 충실도와 일관성으로 합성 비디오(아직 오디오는 아님)를 생성하는 것으로 알려졌습니다. 또한 사람들을 놀라게 하고 있습니다.

“여러분을 만나서 반가웠습니다. 손주들에게 제 영상과 우리가 실제로 녹화하기 위해 얼마나 노력했는지 이야기해 주세요.” 월스트리트저널 기술 기자 조안나 스턴이 X에 쓴 글. 이 사이트의 톰 워렌이 “이것은 AI의 ‘성스러운’ 순간이 될 수 있습니다.“라고 쓴 글. “이것은 ‘거룩한 똥’의 순간일 수 있습니다.“입니다. YouTube 기술 전문 기자 Marques Brownlee가 트위터에 “이 모든 동영상은 AI로 제작되었으며, 이것이 조금이라도 걱정되지 않는다면 그 어떤 것도 걱정되지 않을 것입니다.“라고 트윗했습니다.

나중에 이런 종류의 공황이 언젠가는 우스꽝스럽게 보일 것이므로 참고로, 사실적인 동영상은 카메라로 만들어져야 한다고 믿고 자란 세대가 있습니다. 할리우드 영화에서처럼 비디오를 조작할 때는 많은 시간과 비용, 노력이 필요했고 그 결과물도 완벽하지 않았습니다. 덕분에 사람들은 원격으로 보고 있는 것이 사실일 가능성이 높거나 적어도 어떤 종류의 근본적인 진실을 대표할 수 있다는 기본적인 수준의 위안을 얻었습니다. 아이 이 용암 위로 뛰어내렸을 때에도 , 적어도 아이와 방이 있었습니다.

앞서 언급한 클립은 서른 살이 된 우주비행사가 되어 털실로 만든 커다란 빨간 모직 오토바이 모자를 쓰고 광활한 우주를 누비는 한 개인의 일탈을 묘사한 영화의 예고편입니다. 시각적 배경은 소금기 가득한 사막의 황량한 지형과 대비되는 푸른 하늘로 이루어져 있습니다. 이 장면은 고전 할리우드 영화를 연상시키는 드라마틱하고 서사적인 방식으로 촬영되었으며, 35mm 셀룰로이드 필름의 중간 포맷을 활용하여 풍부한 색감의 이미지로 경이로움과 설렘을 불러일으킵니다.

소라와 같은 기술은 이러한 미디어의 틀에서 벗어나게 해줍니다.머지않아 온라인에서 볼 수 있는 모든 실사 동영상은 모든 면에서 100% 거짓일 수 있습니다. 또한, 여러분이 보는 모든 과거 동영상도 거짓일 수 있습니다. 사회적으로 이러한 문제에 직면하고 원격 커뮤니케이션에 대한 신뢰를 유지하면서 이를 해결하는 방법은 이 글의 범위를 훨씬 벗어나지만, 지금 우리가 보고 있는 모든 기술이 대부분의 사람들에게 먼 환상처럼 보였던 2020년에 몇 가지 해결책을 제시해 본 적이 있습니다.

이전 작업에서 저는 사실 정보와 허구의 서사가 서로 구분할 수 없을 정도로 얽혀 있는 지점을 설명하기 위해 ‘문화적 특이점’이라는 용어를 만들었습니다. 최근 OpenAI의 발전으로 이러한 현상을 실현하기 위한 접근이 가속화되고 있는 것으로 보입니다.

OpenAI는 트랜스포머 아키텍처를 사용하는 다른 AI 모델과 마찬가지로 Sora 가 사용 가능한 컴퓨팅 로 확장된다는 사실을 발견했습니다. 배후에 훨씬 더 강력한 컴퓨터가 있다면 AI 비디오 충실도는 시간이 지남에 따라 상당히 향상될 수 있습니다. 다시 말해, 지금이 AI가 생성한 동영상 중 ‘최악’의 화질이라는 뜻입니다. 지금은 동기화된 사운드가 없지만 향후 모델에서는 이 문제가 해결될 수 있습니다.

어떻게 (우리가 생각하기에) 이걸 해냈을까

최근 AI 동영상 합성의 발전은 놀랍습니다. 불과 2년 전, 우리는 Meta의 Make-A-Video를 통해 텍스트-비디오 모델의 출현을 목격했습니다. 얼마 지나지 않아 구글은 자체적으로 개발한 Imagen Video를 공개했습니다. 특히, 불과 11개월 전에는 윌 스미스가 스파게티를 즐기는 모습을 AI로 생성한 동영상이 큰 인기를 얻었습니다. 작년 5월에는 2초 간격으로 생성되는 기괴한 생물이 등장하는 기괴한 맥주 광고를 제작하여 런웨이 2세대가 그 능력을 입증했습니다. 그 이전의 초기 동영상 생성 모델에서는 사지가 파스타 조각처럼 합쳐지는 등 현실과 환상을 매끄럽게 넘나드는 모습을 보여주었지만, 물리법칙

소라는 OpenAI가 개발한 인상적인 AI 시스템으로 고해상도(1920x1080), 최대 60초의 시간 범위에서 일관된 내용의 동영상을 생성하는 능력, 텍스트 명령에 대한 놀라운 반응성으로 예상을 뛰어넘는 성능을 보여줬습니다. OpenAI가 어떻게 이러한 탁월한 결과를 달성했는지는 여전히 의문으로 남습니다.

내부 기술 사양을 언론 매체에 공개하는 관행은 OpenAI에게는 흔한 일이 아니기 때문에 가설 수립을 위해 전문가의 추측과 접근 가능한 데이터에 의존해야 합니다.

Open AI에 따르면 Sora는 DALL-E 3 및 Stable Diffusion과 유사한 확산 모델로 작동합니다.무작위 데이터로 시작하여 여러 번의 반복을 통해 이 정보를 점진적으로 개선하여 일련의 시각적 프레임을 생성합니다. 이 모델은 초기 혼돈에서 특정 개체와 아이디어를 인식하고 추출하여 그 과정에서 구조화된 내러티브를 구축합니다.

소라는 텍스트 프롬프트에서 직접 비디오를 생성하거나 기존 영상을 향상시키거나 정적 이미지를 사용하여 비디오 콘텐츠를 제작하는 등 다양한 방식으로 비디오를 생성할 수 있습니다. 이는 여러 프레임에 걸쳐 연속성을 유지할 수 있도록 모델에 ‘시간적 예지력’을 제공함으로써 달성할 수 있습니다. 여기서 해결해야 할 과제는 특정 요소가 순간적으로 프레임을 벗어나더라도 시퀀스 전체에서 일관성을 유지하도록 하는 것입니다.

OpenAI는 동영상을 ‘패치’라는 관리하기 쉬운 단위로 나누어 설명하며, 이는 GPT-4에서 발견되는 ‘토큰’에 비유합니다. 데이터 표현을 표준화함으로써 OpenAI는 다양한 시간대, 해상도, 비율을 아우르는 다양한 형태의 시각 정보에 대해 확산 변환기를 훈련할 수 있는 능력을 확장했습니다.

OpenAI의 중요한 도구 중 하나는 을 곱한 AI 모델을 사용한다는 것입니다. 이전 모델은 더 복잡한 모델을 만드는 데 도움이 됩니다. Sora는 DALL-E 3와 마찬가지로 GPT-4V와 같은 다른 AI 모델에서 생성된 학습 데이터의 장면을 설명하는 합성 캡션을 활용하기 때문에 프롬프트를 잘 따릅니다. 여기서 멈추지 않습니다. OpenAI는 “소라는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반 역할을 합니다.“라며 “이 기능은 AGI를 달성하는 데 중요한 이정표가 될 것으로 믿습니다.“라고 말합니다.

많은 사람이 궁금해하는 질문 중 하나는 OpenAI가 소라를 학습시키는 데 사용한 데이터에 관한 것입니다. 안타깝게도 OpenAI는 구체적인 데이터 세트의 공개를 거부했지만, 소라의 성능이 보여준 결과를 보면 비디오 게임 엔진 내에서 합성적으로 생성된 비디오 데이터와 YouTube와 같은 웹사이트에서 얻은 콘텐츠 또는 스톡 비디오 저장소에서 라이선스를 받은 실제 비디오 영상을 모두 통합한 것으로 보입니다.엔비디아의 합성 데이터를 이용한 인공지능 훈련 전문가인 짐 팬 박사는 X의 공개 포럼 게시물을 통해 “소라가 주로 언리얼 엔진 5를 사용하여 생성된 상당한 양의 합성 데이터로 훈련되었다고 해도 전혀 놀랍지 않을 것"이라며 이 문제에 대한 자신의 생각을 밝혔습니다. 그러나

월드 시뮬레이터로서의 소라

OpenAI는 소라와 함께 “월드 시뮬레이터로서의 비디오 생성 모델"이라는 기술 문서 을 공개했습니다. 이 기술 분석은 여기서는 시간이나 지면상 자세히 다룰 수 없지만, Sora가 내부적으로 세계를 모델링하는 방식에 대해 Fan 박사 같은 컴퓨터 과학자들이 더 깊은 에 대해 추측하고 있습니다. “OpenAI Sora가 DALLE처럼 창의적인 장난감이라고 생각한다면 다시 생각해보십시오. Sora는 데이터 기반 물리 엔진입니다.“라고 에 썼습니다. “현실적이든 환상적이든 다양한 세계를 시뮬레이션합니다. 이 시뮬레이터는 복잡한 렌더링, ‘직관적인’ 물리학, 긴 지평선 추론, 의미론적 근거를 일부 노이즈 제거 및 그라데이션 수학을 통해 학습합니다.”

기술 보고서에서 비디오 모델을 대규모로 학습시키면 몇 가지 흥미로운 새로운 능력이 생겨나는 것을 관찰했습니다. 이러한 능력을 통해 소라는 실재하는 영역의 개인, 생물, 자연 환경의 특정 특성을 모방할 수 있습니다. 특히 이러한 속성은 3차원 또는 사물 인식과 관련된 명시적으로 공식화된 귀납적 편향 없이 자발적으로 발생하며, 이는 오로지 데이터 처리의 엄청난 규모에서 비롯됩니다.

OpenAI는 또한 Sora가 Minecraft 게임 플레이를 어느 정도 시뮬레이션할 수 있다는 사실을 발견하여 비디오 게임에서 “신경 렌더링"이라고 할 수 있는 의 잠재력에 한 걸음 더 가까워졌습니다. 미래의 비디오 게임 콘솔은 아티스트가 수작업으로 수십억 개의 폴리곤을 렌더링하는 대신 확산 기술을 사용하여 실시간으로 인터랙티브 비디오 스트림을 생성할 수 있습니다.

OpenAI가 기술 논문에서 언급한 것처럼 소라의 성능에 불완전함이 없는 것은 아닙니다. 유리를 깨는 것과 같은 특정 물리적 상호작용을 정확하게 시뮬레이션하거나 음식을 먹는 것과 같은 활동 중 물체의 상태 변화를 정확하게 묘사할 때 시스템이 흔들릴 수 있습니다. 또한 장시간 촬영한 샘플에서는 불일치가 발생할 수 있으며, 장면 내에서 물체가 자연스럽게 나타나는 경우도 있었습니다.

다음은 소라의 행동이 예측할 수 없는 특성을 보여주는 유리잔이 표면 위에 놓여 있는 예기치 않은 상황을 보여주는 예시입니다.

소라와 같은 기술이 동영상 제작의 보편적인 해결책이 아닐 수 있다는 회의론도 있습니다.컴퓨터 과학자 Grady Booch , “경제적으로나 창의적으로 흥미로운 사용 사례도 분명히 있겠지만, 노코드/로코드 노력 영역과 유사점이 많다는 생각이 들기 시작했습니다. 이러한 시각적 및 프로그래밍 영역 모두에서 화려한 데모를 제작하는 것은 쉽고 비교적 간단한 작업을 자동화하는 것은 쉽습니다. 하지만 이러한 시스템을 조정하여 원하는 세부 사항을 정확하게 구현하려면 어떻게 해야 할까요? 그건 또 다른 이야기입니다.”

이와 같은 릴리스에는 고려해야 할 여러 차원의 영향이 있으며, 이에 대해서는 향후 기사에서 논의할 예정입니다. 이미 일부에서는 영화 산업 , 훈련 데이터의 출처 , 잘못된 정보 또는 주문형 고해상도 비디오 합성으로 인해 발생할 수 있는 허위 정보에 대한 영향에 대해 우려하고 있습니다.

최근 폭로 이후 OpenAI는 현재 잘못된 정보, 혐오 콘텐츠, 편견 등의 분야에 능숙한 도메인 전문가들의 도움을 받아 소라에 대한 ‘레드팀’으로 알려진 적대적 테스트를 진행하고 있다고 공개했습니다. 소라를 공개하기 전에는 모델의 효율성을 보장하기 위해 엄격한 조치를 취했다고 주장합니다. 그러나 과거의 선례를 고려할 때, 시간이 지남에 따라 더 많은 커뮤니티에서 유사한 기술을 사용할 수 있게 될 것으로 예상할 수 있습니다. 이러한 발전에 비추어 볼 때, 소셜 미디어 플랫폼에서 출처가 불분명한 동영상에 의존하는 것은 점점 더 위험한 전략이라는 결론을 내릴 수 있습니다.