OpenAI의 새로운 ChatGPT 이미지 생성기가 사진 위조를 쉽게 만듭니다.

사진술의 약 200년 역사 대부분 동안, 사진을 설득력 있게 수정하려면 어두운 방, 포토샵에 대한 전문 지식, 또는 최소한 가위와 접착제를 능숙하게 다루는 손이 필요했습니다. 화요일, OpenAI는 문장 한 줄을 입력하는 것만으로 이 과정을 줄여주는 도구를 출시 했습니다.
이는 최초의 사례는 아닙니다. OpenAI는 GPT-4o에서부터 회화형 이미지 편집 모델을 개발해 왔지만, Google은 3월에 공개 프로토타입을 출시하며 OpenAI보다 먼저 시장에 진출했고, 이후 Nano Banana 이미지 모델 (및 Nano Banana Pro)이라는 인기 모델로 개선했습니다. AI 커뮤니티의 Google 이미지 편집 모델에 대한 뜨거운 반응이 OpenAI의 관심을 끌었습니다.
OpenAI의 새로운 GPT Image 1.5는 이전 모델보다 최대 네 배 빠른 속도로 이미지를 생성하고 API를 통해 약 20% 더 저렴한 AI 이미지 합성 모델입니다. 이 모델은 화요일에 ChatGPT의 모든 사용자를 대상으로 롤아웃되었으며, 사진과 같은 사실적인 이미지 조작을 특별한 시각적 기술 없이도 누구나 쉽게 할 수 있도록 하는 또 다른 단계로 평가됩니다.

“우주 여왕”이 소파가 있는 방 사진에 GPT Image 1.5를 사용하여 추가되었습니다.
GPT Image 1.5는 “네이티브 멀티모달” 이미지 모델이라는 점에서 주목할 만합니다. 즉, 이미지 생성이 언어 프롬프트를 처리하는 동일한 신경망 내에서 발생합니다. (대조적으로, ChatGPT에 이전 통합되었던 OpenAI의 이전 이미지 생성기인 DALL-E 3는 이미지를 생성하기 위해 확산이라는 다른 기술을 사용했습니다.)
이러한 새로운 유형의 모델은 3월에 자세히 다룬 바와 같이 이미지와 텍스트를 동일한 종류의 것으로 취급합니다. 즉, “토큰”이라고 불리는 데이터 조각을 예측하고 패턴을 완성하기 위한 것입니다. 아버지 사진을 업로드하고 “턱시도를 입고 결혼식에 참석하게 하세요”라고 입력하면 모델은 귀하의 단어와 이미지 픽셀을 통합된 공간에서 처리한 후 문장의 다음 단어를 출력하는 것과 같은 방식으로 새로운 픽셀을 출력합니다.
이 기술을 사용하면 GPT Image 1.5는 이전 AI 이미지 모델보다 시각적 현실을 더 쉽게 변경할 수 있습니다. 사람의 자세나 위치를 바꾸거나 장면을 약간 다른 각도에서 렌더링할 수 있으며, 성공의 정도는 다양합니다. 또한 객체를 제거하거나 시각적 스타일을 변경하거나 의상을 조정하거나 특정 영역을 개선하면서 연속적인 편집에서 얼굴 특징을 보존할 수 있습니다. ChatGPT에서 이메일 초안을 워크샵하는 것과 같은 방식으로 AI 모델과 사진에 대해 대화하며 수정하고 개선할 수 있습니다.