소라를 공개합니다: 텍스트-비디오 생성을 위한 OpenAI의 획기적인 혁신
대규모 언어 모델은 코드, 수학적 표기법, 다양한 언어적 변형 등 광범위한 텍스트 양식을 포괄하는 풍부한 인터넷 데이터에 대한 광범위한 훈련을 통해 인상적인 적응력을 입증했습니다. 이러한 이질적인 요소를 토큰 구조 내에 원활하게 통합할 수 있는 능력은 대규모 생성 모델을 비디오 데이터에 적용할 수 있는 가능성을 탐색하는 연구자들의 관심을 불러일으켰습니다. 그럼에도 불구하고 이 분야에 대한 이전의 노력은 일반적으로 특정 범주의 시각 자료, 제한된 지속 시간 또는 동영상의 고정된 차원에 국한되어 있었습니다.
OpenAI의 가장 최근 기술 간행물에서는 다양한 길이, 종횡비, 화질을 아우르는 다양한 종류의 동영상과 이미지를 생성할 수 있으며 심지어 최대 1분 분량의 고화질 영상까지 생성할 수 있다는 점에서 차별화되는 혁신적인 텍스트-비디오 모델인 Sora를 공개했습니다.
처음에는 이질적인 시각 정보를 광범위한 생성 모델링에 적합한 통합 프레임워크로 합성하는 데 활용되었으며, 이후에는 소라의 잠재력과 한계에 대한 평가 분석이 이루어졌습니다. 모델의 아키텍처 구성 및 실행 세부 사항에 대한 포괄적인 설명은 이번 릴리스에 포함되지 않았습니다.
Sora는 정적 노이즈로 나타나는 프레임으로 시작한 다음 단계별로 노이즈를 점진적으로 제거하는 반복적인 반복을 통해 품질을 개선하는 확산 모델링 원리를 기반으로 합니다. Sora는 DALL-E 및 GPT와 같은 모델의 이전 발전을 기반으로 DALL-E 3의 리캡처링 방법론을 사용하여 시각 훈련 자료에 대한 자세한 설명을 생성합니다. 그 결과 이 모델은 서면 명령을 생성된 비디오 내에서 수행되는 해당 동작으로 효과적으로 번역할 수 있습니다.
원본 비디오 데이터를 입력으로 활용하여 시간 및 공간 압축 기법을 통해 압축된 잠재 표현을 생성하는 Sora. 이 모델은 노이즈가 있는 입력에서 “깨끗한” 이미지 패치를 예측하고 텍스트 기반 프롬프트를 포함한 추가 상황 정보를 통합하여 시각적 콘텐츠를 정확하게 재구성하도록 훈련됩니다.
Sora의 고급 기능은 단순히 텍스트 입력을 기반으로 비디오를 만드는 것 이상으로 확장되어 높은 수준의 정확도로 정지 이미지를 세심하게 애니메이션화할 수 있습니다. 또한 기존 동영상 영상에 디테일을 추가하여 품질을 향상시키거나 새 프레임을 매끄럽게 삽입하여 부족한 부분을 보완하여 더욱 부드럽고 완성도 높은 시각적 콘텐츠를 만들 수 있는 기능도 갖추고 있습니다.
사실상 소라는 현실의 복잡성을 더 깊이 이해하고 복제할 수 있는 능력을 갖춘 인공 지능 개발의 중요한 진전을 의미하며, 이는 인공 일반 지능(AGI)을 달성하는 과정에서 중요한 이정표가 될 것입니다.
월드 시뮬레이터로서의 비디오 생성 모델 기술 보고서 OpenAI 에 있습니다.