Contents

소라 내부 OpenAI의 놀라운 비디오 생성 모델

OpenAI가 개발한 획기적인 동영상 생성 모델인 Sora는 뛰어난 영화적 품질과 놀라운 사실감으로 소셜 미디어 애호가들을 경탄하게 만들었습니다. 실제로 유명 영화 제작자이자 배우인 타일러 페리는 소라의 잠재력을 확인한 후 8억 달러 규모의 스튜디오 확장 계획을 중단할 정도로 소라의 능력에 깊은 인상을 받았다고 할리우드 리포터는 보도했습니다.

페리는 소라의 뛰어난 역량에 대해 “놀랍다"고 표현하며 놀라움을 표했습니다. 그는 또한 이 기술이 스튜디오에 제공하는 놀라운 기능에 감탄하며 그 영향력이 “충격적"이라고 말했습니다.

이 AI의 기능은 물리적으로 이동할 필요가 없습니다. 눈 덮인 콜로라도나 달의 풍경 등 원하는 장소나 시나리오를 입력하기만 하면 AI가 실제 세트 없이도 사실적인 이미지를 생성합니다. 이 수준의 기술은 놀랍습니다.

혁신적인 방법을 통해 오픈

소라란 무엇인가요?

Sora는 머신러닝 및 인공지능 분야에서 혁신적인 연구로 유명한 OpenAI에서 개발한 인공지능 기반 동영상 생성 모델입니다.

2024년 2월에 처음 출시된 Sora는 기존의 시청각 자료를 활용할 뿐만 아니라 텍스트와 시각적 요소를 모두 통합하여 새로운 영상 콘텐츠를 생성할 수 있는 기능을 갖추고 있습니다.

소라는 무엇을 할 수 있나요?

Sora는 최대 1분 길이의 탁월한 동영상 콘텐츠를 제작할 수 있으며, 뛰어난 품질을 자랑합니다.

Sora의 동영상은 복잡한 장면 디자인과 고급 카메라 움직임을 보여주며, 심지어 그 안에 사람을 넣을 수 있는 기능까지 갖추고 있습니다.

소라는 프롬프트에서 전달되는 특정 요청에 대한 단순한 이해를 넘어 그 안에 존재하는 실체의 실체까지 포괄하는 이해력을 가지고 있습니다.

이 모델은 최대 100만 개의 토큰으로 확장된 텍스트 범위를 가지며, 이 한도 내에서 최대 70만 개의 단어로 구성된 쿼리를 허용합니다.

소라는 어떻게 작동하나요?

모델 작동 방식을 설명하는 기술 문서 에 따르면 Sora는 유연한 샘플링 차원을 가진 확산 트랜스포머입니다.

이 모델의 기능은 다음과 같은 세 가지 구성 요소로 이루어져 있습니다:

/images/inside-sora-openais-amazing-video-generation-model.png

크레딧: OpenAI

1.시공간 압축기는 먼저 원본 영상을 잠재 공간에 매핑합니다.

소라는 처리하기 쉽고 처리 효율을 높이기 위해 영상 크기를 줄여 영상을 생성합니다.

입력 데이터를 ‘패치’라고 하는 작은 단위로 나누면 짧은 시간 내에 피사체의 외형과 동적 움직임에 관한 정보를 효과적으로 추출할 수 있습니다.

2. 그런 다음 비전 트랜스포머(ViT)가 토큰화된 잠상 표현을 처리하고 노이즈 제거된 잠상 표현을 출력합니다

시각 요소를 다듬고 다듬는 작업은 조각과 유사하며 최종 결과물의 가장자리와 윤곽을 다듬어 전반적인 영화적 경험을 향상시킬 수 있습니다.

소라는 일련의 최적화 기술을 통해 압축된 비디오의 품질을 개선하여 처리합니다. 이 시스템은 ViT 모델의 기능을 활용하여 압축된 비디오 데이터를 분석하고 개선 사항을 구현하여 시각적 결과물을 개선합니다.

3. 클립과 유사한 컨디셔닝 메커니즘은 스타일 또는 테마 비디오를 생성하도록 확산 모델을 안내하는 LLM 증강 사용자 지침과 시각적 프롬프트를 수신합니다

이 프로세스에는 생성된 비디오 콘텐츠의 미적 품질을 향상시키기 위한 기초로서 언어적 또는 시각적 단서의 형태로 사용자 입력을 활용하는 것이 포함됩니다. 예를 들어, 해안가의 일몰을 묘사하는 장면을 요청하면 시스템은 이 단계를 통해 색상 팔레트와 구도를 지정된 프롬프트에 맞게 조정합니다.

기본 형태에서 Sora는 추가 처리를 용이하게 하기 위해 비디오를 압축하는 것으로 시작한 다음, 콘텐츠를 정제하고 사용자가 지정한 조정을 통합하여 원하는 마무리 작업을 수행합니다.

/images/inside-sora-openais-amazing-video-generation-model-1.png

기존 확산 모델 아키텍처에서 벗어나기

스테이블 디퓨전과 같은 기존 확산 모델은 가장 핵심적인 특성을 정확하게 포착하고 이해하기 위해 점진적으로 세부적인 측면에 초점을 맞추는 일련의 레이어로 구성된 컨볼루션 U-Net의 사용에 크게 의존하고 있습니다.

U-Net을 백본 네트워크로 활용했던 DALL-E 2와 달리 OpenAI는 Sora에 보다 적응력이 뛰어난 트랜스포머 아키텍처를 사용하기로 결정했습니다. 이러한 결정의 근거는 만족스러운 결과를 달성하는 데 필수적이지 않은 것으로 간주되는 U-Net에 의존하지 않고도 확산 모델의 효율성을 유지할 수 있다는 것이었습니다.

OpenAI의 트랜스포머 기반 확산 모델 활용은 Sora 내에서 구현된 것에서 알 수 있듯이 더 많은 양의 학습 데이터를 처리할 수 있는 용량을 증가시켰으며, 그 결과 파라미터 수가 크게 늘어난 훨씬 더 광범위하고 복잡한 모델을 생성할 수 있게 되었습니다.

U-넷 아키텍처를 활용하던 방식에서 벗어나 복잡한 비디오 콘텐츠를 효과적으로 처리하고 생성할 수 있는 모델을 개발할 수 있게 되었습니다. 이는 훈련 목적으로 사용되는 데이터의 양이 증가하여 모델이 영감을 얻을 수 있는 선례의 확장된 레퍼토리에 액세스할 수 있게 되었기 때문입니다.

유연한 이미지 크기

/images/inside-sora-openais-amazing-video-generation-model-2.png

Credit: OpenAI

Sora는 1920픽셀 1080라인 해상도에서 최대 1080픽셀 1920라인 해상도까지 다양한 차원의 시각 콘텐츠를 제작할 수 있는 기능을 갖추고 있습니다.

OpenAI는 인위적인 구도와 프레임을 만들어내는 정사각형 프레임으로 자르는 대신 네이티브 비디오 치수를 학습에 활용했습니다.

소라의 동영상 생성 기능은 기존의 가로 형식과 함께 소셜 미디어 플랫폼에서 점점 더 인기를 얻고 있는 세로 형식의 동영상을 제작할 수 있다는 점에서 주목할 만한 특징이 있습니다. 중요한 점은 이러한 동영상은 프레임 내에 전체 피사체를 유지하여 잘리거나 가려지는 부분이 없도록 한다는 것입니다.

처음의 비례 관계를 유지함으로써, 소라는 이 출판물의 텍스트에서 전달한 것처럼 보다 유기적이고 연결된 시각적 스토리라인을 만들 수 있습니다.

향상된 명령어 추종

명령어 추종이 가능한 DALL-E 3 이미지 생성 모델에서 입증된 기능을 기반으로 OpenAI는 다양한 맥락에서 적용할 수 있는 귀중한 인사이트를 도출했습니다.

Sora는 DALL-E 3와 유사한 방법론을 사용하며, 가이드라인에 명시된 복잡성과 사양을 꼼꼼하게 준수하는 것을 강조합니다.

OpenAI의 설명적 캡션 모델에서 생성된 출력을 활용하여 광범위한 사용자 쿼리를 이전보다 더 효과적으로 이해할 수 있도록 기능을 강화했습니다.

기술 보고서에 명시된 바와 같이, AI 모델의 지시 사항을 따르는 기능이 향상되어 텍스트 출력을 생성할 때 사람과 유사한 답변을 보다 정확하게 표현할 수 있게 되었습니다.

/images/inside-sora-openais-amazing-video-generation-model-3.png

한계

Sora는 사실적인 이미지와 동영상을 생성하는 데 있어 인상적인 능력을 보여주었지만, 한계가 없는 것은 아닙니다.특히 복잡한 물리적 현상을 시뮬레이션하는 모델의 능력은 특정 시나리오에서 제한될 수 있습니다. 예를 들어, OpenAI의 연구원들은 소라가 까다로운 시각적 맥락에서 미묘한 표정을 정확하게 포착하지 못하는 사례를 보고한 바 있습니다. 하지만 이러한 단점에도 불구하고 Sora는 현실과 매우 유사한 고품질 미디어 콘텐츠를 제작할 수 있는 강력한 도구로 남아 있습니다.

이 모델의 출력은 오류가 발생하기 쉬우며, 한 사람이 오렌지를 깨무는 비디오 클립을 생성했지만 그 이후의 프레임에서는 물린 자국이 분명하지 않은 것과 같은 불일치가 발생할 수 있습니다.

OpenAI는 언어 모델인 Sora가 생성하는 출력에 편향성 문제가 있을 수 있음을 인정했습니다. 이러한 우려를 해결하기 위해 모델에서 생성되는 모든 콘텐츠가 “안전"하고 어떤 형태의 편향된 성향이나 편견이 없음을 보장하기 위해 노력하고 있습니다.

Sora에 액세스하는 방법

현재 Sora는 ChatGPT와 같은 애플리케이션 내에 통합하기 전에 필수 보안 조치를 구현하는 OpenAI로 인해 사용할 수 없습니다.

OpenAI는 사이버 보안 분야의 전문가 그룹인 ‘레드 팀원’을 구성하여 무결성이나 보안에 위협이 될 수 있는 잠재적인 취약점이나 위험을 식별하기 위해 모델을 면밀히 검토하는 임무를 맡기고 있습니다. 이 포괄적인 평가 프로세스는 모델이 최적의 상태로 작동하는지 확인하는 동시에 부정적인 결과나 의도하지 않은 결과를 최소화하는 데 도움이 됩니다.

아티스트, 디자이너, 영화 제작자 등 일부 시각적 크리에이터에게 해당 모델에 대한 인사이트를 제공할 수 있는 권한이 부여되었습니다.