Contents

AI 비디오 생성 하드웨어: 1stAI 머신으로 실습하기

이 질문은 이달 초부터 제 머릿속을 맴돌던 많은 질문 중 하나였는데, 많은 투자를 받은 제너레이티브 AI 비디오 스타트업인 Runway ML 의 CEO 크리스토발 발렌수엘라가 자신의 X 계정 에 “1stAI Machine"이라는 이름의 비디오 클립을 게시하는 것을 보고 나서부터였습니다.

발렌수엘라는 이 발명을 “인공지능 기반 비디오 편집 영역의 획기적인 혁신"이라고 언급하며 이 분야의 저명한 인사의 다음과 같은 발언을 인용했습니다:

비디오 기술의 임박한 발전은 사진의 품질과 동등한 수준에 도달할 것으로 예상됩니다. 따라서 개인은 카메라, 조명 장비 또는 연기자 없이도 영화를 제작할 수 있게 될 것입니다. 대신 사용자는 예술적 표현을 자극하도록 설계된 직관적인 사용자 인터페이스를 통해 인공지능 시스템과 협업하여 영화 같은 작품을 제작할 수 있습니다.

비디오 편집을 위해 특별히 설계된 인공지능 기술로 탄생한 실체적인 창작물인 최초의 인공지능 머신이라는 획기적인 혁신을 여러분께 소개해 드립니다.

“우리는 곧 동영상의 품질이 사진의 품질과 비슷해질 것으로 예상합니다. 그 시점이 되면 카메라, 조명, 배우 없이도 누구나 영화를 만들 수 있게 될 것입니다… pic.twitter.com/KP0RW8CBhS

- 크리스토발 발렌수엘라 (@c_valenzuelab) 2023년 11월 3일

이 시연에서는 “최초의 AI 편집 콘솔"을 선보였습니다,“사운드 믹서를 연상시키는 인상적인 각진 무광 은색 장치로, 다양한 입력 방식과 조작을 조절할 수 있는 촉각 노브와 레버가 장착되어 있어 최신 노트북보다 최소 두 배에서 세 배 이상 큰 것으로 보였습니다.

이 기술을 처음 접했을 때, 창의적인 노력과 디지털 콘텐츠 제작을 향상시키는 데 활용되는 인공지능을 전문적으로 취재하는 기자로서 호기심이 발동했습니다. 1세대와 2세대 제품을 통해 웹 기반 애플리케이션의 혁신으로 잘 알려진 런웨이가 하드웨어 개발 영역에 뛰어든다는 점이 흥미로웠습니다.

특정 기계의 비용, 배송 날짜 및 대상 고객에 대해 문의하는 것이 적절합니다. 우려 사항을 정확하게 해결하기 위해 추가 정보를 제공해 주시겠습니까?

인공지능 하드웨어 등장

또 다른 인공지능 하드웨어 기기인 휴매인이라는 전직 애플 디자이너들이 만든 스타트업의 Ai Pin( )은 지난주 선불 가격 699달러와 월 구독료 24달러, 독특한 폼팩터(배터리 팩과 레이저 프로젝터가 내장된 마그네틱 핀으로 옷에 클립으로 끼우는 형태)에 대한 다양한 반응 을 보이며 데뷔했습니다. 이 장치는 OpenAI의 GPT-4 AI 모델로 구동되며 일종의 생활 도우미이자 잠재적인 스마트폰 대체품으로, 이미 타임지 선정 2023년 최고의 발명품 200선에 이름을 올린 바 있습니다.

최초의 AI 머신의 기원은 무엇이며, 어떤 동기로 인해 탄생하게 되었나요?

기계의 배후에 있는 사람

발렌수엘라는 런웨이의 소프트웨어로 구동되는 기계를 만든 것에 대해 X에 올린 게시물에서 “SpecialGuestX for 1stAveMachine"의 공로를 인정했습니다. 지난주 발렌수엘라, 스페셜게스트엑스(SGX), 1stAveMachine에 이메일을 보냈더니 SGX 의 공동 설립자 미구엘 에스파다(Miguel Espada)로부터 “데이터, 자동화 및 인공 지능의 새로운 이야기를 탐구하는 크리에이티브 에이전시"라고 웹사이트에 소개된 답변을 받았습니다.

/images/ai-video-generating-hardware-hands-on-with-the-1stai-machine.jpg

인공 지능 분야의 저명한 인물이자 SGX(Secure Graph eXpression) 플랫폼의 창립자 중 한 명인 미구엘 에스파다가 자신이 개념화한 혁신적인 최초의 AI 머신을 자랑스럽게 들고 있는 모습입니다. 이 이미지는 기술의 미래를 만들어가는 그의 획기적인 업적을 고무적으로 표현한 것입니다.

에스파다는 자신이 고향이라고 부르는 스페인 마드리드에 있는 소규모 팀에서 이 장치를 개발했다고 확인해주었고, 주요 브랜드와 협력하여 광고 및 기타 광고 자료를 제작하는 아티스트, 디자이너, 과학자 및 기타 크리에이터들의 ‘집단’인 1stAveMachine의 브루클린 사무실에서 제 질문에 친절히 답변하고 직접 데모를 시연해 주었습니다.

크리에이티브 에이전시는 마케팅 솔루션을 찾는 고객과 그러한 콘텐츠를 제작할 수 있는 크리에이티브 사이의 중개자 역할을 하는 경우가 많습니다. 인기 드라마 ‘매드 맨’의 가상의 인물인 스털링 쿠퍼 드레이퍼 프라이스(SCDP)의 현대적 버전으로 생각할 수 있지만, 스탠 리조와 같은 최근 캐릭터를 연상시키는 엣지 있고 국제적인 감각을 지니고 있습니다.

에스파다는 디스코 디퓨전 커뮤니티 의 초기 멤버로 활동했으며, 이후 스테이블 디퓨전 이미지 생성 AI 모델로 변모하는 등 예술적 추구를 위한 AI에 오랜 경험을 쌓아왔습니다.이전 고객인 Carvana의 경우, 그의 에이전시는 Stable Diffusion 코드를 사용하고 이를 조정하여 번거로움 없는 자동차 구매 및 배송 서비스를 이용하는 130만 명의 고객 명을 위한 온디맨드 AI 생성 비디오를 제작하여 자동차가 배송되는 상상 속 시점의 비네팅과 자동차가 의인화될 때 느낄 수 있는 모든 흥분을 이메일로 보냈습니다.

살 수 있나요?

실제로 1차 인공지능 기계의 인수와 관련하여 기대치를 관리하는 것이 중요합니다. 에스파다 박사는 문제의 프로토타입이 예외적이고 독특한 아이템임을 인정했습니다.

현재 제품 마케팅에 대한 명확한 계획은 수립되지 않았지만, 최근 만남 전에 이 플랫폼을 통해 전달된 에스파다의 메시지에서 알 수 있듯이 몇 가지 하드웨어 품목이 가까운 시일 내에 출시될 예정이라고 합니다.

에스파다의 첫 번째 AI 머신은 자동차 업계의 한 고객이 런웨이의 혁신적인 소프트웨어인 Gen-2를 활용하여 새로운 차량 디자인의 정적인 스토리보드와 개념도를 제너레이티브 방식을 통해 동적인 동영상으로 변환하고자 했으나 실패한 제안의 잔재에서 그 기원을 찾아볼 수 있습니다. 특히 Gen-2는 디지털 이미지 입력을 처리하여 사실적인(때로는 초현실적인) 움직임을 부여할 수 있습니다.

고객은 자동차 스케치와 스토리보드를 동영상으로 변환하기 위해 AI 기술을 활용한다는 개념을 거부했습니다. 하지만 이 제안은 에스파다와 그의 팀원들의 머릿속에 계속 남아 있었고, 인공지능 기반 비디오 편집 플랫폼을 프로토타입으로 만들어 그 기능을 입증할 수 있는 데모를 독자적으로 개발하도록 동기를 부여했습니다. 이 작업은 런웨이의 외부 지원 없이 이루어졌습니다.

작동 방식

브루클린의 덤보 지구에 위치해 맨해튼 다리 고가 바로 아래에서 이스트강의 인상적인 전망을 감상할 수 있는 사무실에서 저는 ‘1stAI 머신’이라는 애칭으로 불리는 1stAvenueMachine이 개발한 인공지능의 첫 번째 반복을 관찰할 수 있는 권한을 부여받았고, 테이블 위에 신중하게 배치되어 있는 인공지능이 제 시찰을 위해 세심하게 배치되어 있었습니다.

이 기기의 현재 버전은 이전 버전과는 확연히 달라진 세련되고 매끈한 외관을 자랑합니다. 무광 알루미늄 케이스는 매드 맨과 같은 인기 TV 프로그램에 등장한 상징적인 세기 중반 오디오 시스템을 연상시키는 고전적으로 절제되고 대조적인 색상의 컨트롤 요소로 보완됩니다. 이러한 디자인 요소는 오디오 애호가와 수집가 모두에게 큰 인기를 얻고 있습니다.당사의 엔지니어링 팀은 최첨단 3D 모델링 소프트웨어를 사용하여 시각적으로 매력적인 인클로저를 제작하고 각 구성 요소를 세심하게 배열한 후 정렬에 세심한 주의를 기울여 제자리에 단단히 고정함으로써 전문 스튜디오에서 볼 수 있는 프리미엄 품질의 제품과 같은 완벽한 최종 제품을 만들어 냈습니다.

/images/ai-video-generating-hardware-hands-on-with-the-1stai-machine-1.jpg

최초의 인공지능 머신을 묘사한 이미지는 해당 출처에서 제공한 것입니다.

이 비디오 중심 제품의 특징은 여러 개의 스크린으로 구성되어 있다는 점입니다. 실제로 완성된 비디오 출력을 볼 수 있는 풀컬러 LCD 디스플레이와 최종 비디오 구성의 시각적 내러티브를 보여주는 6개의 작은 단색 스크린을 포함하여 8개의 개별 디스플레이가 통합되어 있습니다. 또한 가느다란 스트립은 ‘재생 중’ 또는 ‘처리 중’과 같은 텍스트 표시를 통해 장치의 작동 상태를 시각적으로 전달합니다.

1. 스토리보드라고 하는 시각적 표현 형태의 내러티브 구성, 2. 예술적 처리 또는 디자인 미학, 3. 음악 선곡을 포함한 수반되는 오디오 요소의 선택 및 배열. 마지막 섹션은 청각적 경험을 증폭시키기 위한 목적으로 사운드가 방출되는 오프닝에 불과합니다.

추가

개인은 여러 화면에 표시되는 다양한 옵션 중에서 6개의 스토리보드를 선택하며, 각 선택 항목은 최종 시각적 프레젠테이션 내의 특정 단계를 나타냅니다. 이 특정 방법은 상업적 이용이 아닌 개인적 사용을 목적으로 하는 것이므로, 에스파다 박사와 그의 팀을 포함한 개발자들은 지적 재산권과 관련된 문제는 관련이 없는 것으로 간주했습니다.

이 스토리보드는 런웨이의 2세대 AI 모델이 변환을 적용하는 기반이 될 뿐이며, 변환된 모든 스토리보드를 원본 스토리보드와 유사한 인물과 장면으로 30초 길이의 동영상으로 연결합니다, 즉석에서 제작한 에스파다의 데모 비디오 는 타이타닉 의 상징적인 발코니 장면을 네온 블루 물 위에 끈적끈적한 분홍색 물질 덩어리에서 짧은 금발 머리를 한 두 명의 남성적인 인물이 튀어나오는 환각적인 꿈으로 변형시켰습니다.

/images/ai-video-generating-hardware-hands-on-with-the-1stai-machine-2.jpg

타이타닉의 이야기는 런웨이 2세대 모델의 첨단 인공지능 기능을 통해 예술적으로 재해석되었으며, 혁신적인 1stAI 머신 플랫폼이 이를 가능하게 했습니다. 이 인상적인 업적은 웹사이트가 기여한 덕분입니다.

스타일 조정 모듈 및 음악 선택 도구.

이 인터페이스는 컨트리, 팝, 레게톤, 레이브/EDM, 케이팝 등 다양한 음악 장르에 걸쳐 인공지능(AI)이 생성한 음악 트랙을 선택할 수 있는 슬라이더를 제공합니다. 이 음악은 자동으로 생성된 동영상의 사운드트랙을 구성하며, SunoAI 모델을 활용합니다. 슬라이더를 사용하면 팝과 레게톤이 혼합된 독특한 두 장르의 조합을 만들 수 있습니다. 이 영상에 대사가 없는 것은 많은 AI 생성 영화에서 관찰되는 일반적인 특징과 일치합니다. 그럼에도 불구하고 이 시각적 경험은 전통적인 배우나 카메라맨 대신 풍부한 색상과 복잡한 기계 프로세스를 특징으로 합니다.

/images/ai-video-generating-hardware-hands-on-with-the-1stai-machine-3.jpg

원하는 스타일을 선택한 후 사용자는 Runway Gen-2의 소프트웨어 인터페이스에서 다양한 파라미터를 조작하여 생성된 영상의 시각적 외관을 추가로 커스터마이징할 수 있습니다. 예를 들어, 디테일 레벨 또는 폴리곤 수(폴리카운트)를 조정하여 장면에 묘사된 오브젝트의 복잡도를 높이거나 낮출 수 있습니다. 또한 색 구성표, 조명 효과, 카메라 각도 및 기타 요소를 변경하여 보다 구체적인 예술적 비전을 달성할 수 있습니다. 최종 결과물은 선택한 스타일과 포스트 프로세싱 단계에서 수정한 내용을 모두 반영하는 고도로 개인화되고 시각적으로 눈에 띄는 비디오 클립입니다.

/images/ai-video-generating-hardware-hands-on-with-the-1stai-machine-4.jpg

Espanda와 그 팀은 개발 프로세스 전에 설정된 사전 결정된 디자인 매개변수 세트를 준수하면서 Runway 소프트웨어의 사용자 인터페이스를 가시적인 형태로 성공적으로 변환해냈습니다.

가까운 미래에는 사용자가 자신의 개인화된 스타일 선호도를 제1 인공지능 기계 또는 잠재적으로 제2 인공지능 기계로 알려진 고급 인공지능 시스템에 직접 제출할 수 있을 것으로 상상할 수 있습니다. 이 혁신적인 컨셉은 추가 LCD 디스플레이를 활용하여 시각화할 수 있습니다.

부트스트랩 AI 스타트업 미드저니의 시연에서 에스파다는 최근 혁신적인 이미지 스타일 생성기를 도입해 사용자가 자신의 독특한 스타일을 제어하고 이를 활용할 수 있는 사람을 결정할 수 있게 될 것이라고 말했습니다.

컴퓨터 내부에는 리눅스/우분투 운영 체제를 실행하는 맥 미니 컴퓨터가 있으며, 소프트웨어는 파이썬과 오픈프레임웍스 에서 실행됩니다. 또한 내부에는 완성된 비디오를 무선으로 컴퓨터로 전송할 수 있는 라우터가 있습니다.

위의 콘텐츠는 미구엘 에스파다(Miguel Espada)가 실행한 첨단 인공지능 기술, 특히 1stAI 머신과 런웨이 ML 2세대 플랫폼의 통합을 통해 개발되었습니다. 크리에이티브 결과물은 해당 출처에 귀속됩니다.

1stAI 머신과 AI 하드웨어의 다음 단계는 무엇인가요?

에스파다는 최초의 AI 머신 개발의 주된 의도는 단독 프로토타입을 만드는 것이었지만, 발렌수엘라와 온라인 AI 동영상 편집 커뮤니티의 다른 회원들이 이 프로젝트에 보여준 열정으로 인해 라즈베리 파이 마이크로 컴퓨터 또는 유사한 장치에서 볼 수 있는 것과 같은 최소한의 연산 요구 사항으로 작동할 수 있는 향상된 버전의 잠재력이 있을 수 있다고 믿게 되었다고 언급했습니다.

잠재적인 개선 사항을 통해 사용자는 이 소프트웨어의 향후 반복 작업에서 개인화된 스토리보드 및 시각적 콘텐츠를 제출할 수 있습니다.

에스파다의 미래 비전에서 최초의 인공지능 머신은 음악 페스티벌이나 컨퍼런스와 같은 대규모 모임을 포함한 다양한 환경에서 활용될 것입니다. 참석자들은 기기의 런웨이 소프트웨어를 사용하여 자신만의 인공지능 생성 시각 콘텐츠를 제작할 수 있으며, 이를 테일러 스위프트의 레퓨테이션 스타디움 투어에서 볼 수 있었던 점보트론과 유사한 대형 스크린에 투사할 수 있게 될 것입니다.

Espada는 이러한 혁신적이고 몰입감 넘치는 경험을 광범위한 마케팅 캠페인과 광범위한 도달 범위로 유명한 Coca-Cola 또는 PepsiCo와 같은 유명 브랜드가 후원할 수 있을 것이라고 상상했습니다.

개인 맞춤형 디바이스 시장 진출에 대한 의구심에도 불구하고 그러한 시도에 투자할 의향이 없는 것은 분명합니다.

실습 세션에서 에스파다의 진술에서 알 수 있듯이 하드웨어를 제조하는 과정에는 상당한 시간 투자가 필요합니다. 브랜드와 고객을 위한 내러티브를 제작할 때 인공 지능 및 기타 리소스를 활용하는 데 중점을 둡니다.

발렌수엘라 또는 런웨이의 다른 멤버가 콘셉트를 더 발전시키는 데 관심을 표명하는 경우, 가르시아는 상호 합의된 수수료가 책정된다면 디자인에 대한 통제권을 포기할 의향이 있음을 표시했습니다.

요약하면, 에스판다와 그의 팀은 인공지능 애플리케이션에 특수 하드웨어를 활용하면 사용자가 노트북이나 데스크톱 사용으로 인한 잠재적인 방해 요소를 최소화하면서 인공지능 제작 프로세스에만 집중할 수 있어 특정 상황에서 유리할 수 있다고 주장합니다.

전문적으로 숙련된 시각 예술가, 그래픽 디자이너, 애니메이터 및 음악가들은 기술적으로 일반 컴퓨터를 사용하여 작업을 수행할 수 있음에도 불구하고 믹싱 콘솔이나 스타일러스가 달린 전자 드로잉 태블릿과 같은 특수 장비를 사용하는 경우가 많습니다.

인공지능 기계의 첫 번째 반복을 가까이서 경험하면서, 저는 인공지능 하드웨어가 구현해야 할 모범적인 구현이라는 데 긍정적으로 동의하지 않을 수 없습니다.