여러 세대의 AI 이미지에 걸쳐 일관된 캐릭터를 생성하는 미드저니 데뷔 기능
인기 있는 AI 이미지 생성 서비스 Midjourney 에서 가장 많이 요청된 기능 중 하나인 새 이미지에서 캐릭터를 일관되게 재현하는 기능을 배포했습니다.
이것은 지금까지 AI 이미지 생성기에게 큰 걸림돌이었습니다. 대부분의 AI 이미지 생성기는 본질적으로 사용자가 입력한 텍스트를 가져와 수백만 개의 인간이 만든 이미지로 구성된 방대한 (그리고 논란이 많은) 학습 데이터 세트에서 유사한 이미지와 텍스트 태그를 통해 학습한 대로 해당 설명과 일치하는 이미지를 픽셀 단위로 조합하는 방식으로 작동하는 Stability AI의 ’ 확산 모델 ’ 도구와 유사하거나 이에 기반한 오픈 소스 이미지 생성 알고리즘에 의존하고 있기 때문이죠.
생성형 인공지능 이미지에서 일관된 문자가 그토록 강력하면서도 이해하기 어려운 이유
OpenAI의 ChatGPT와 Cohere의 Command-R에서 개발한 것과 같은 대규모 언어 모델(LLM)이 이러한 문제를 보이는 것으로 알려져 있지만, 생성형 인공지능 시스템의 문제는 이전에 질문이 제기되었는지 여부에 관계없이 입력된 각 입력에 따라 다양한 출력이 나타나는 경향에 있습니다.
영화, 소설, 그래픽 노블, 만화 등과 같은 시각 미디어를 제작할 때는 다양한 장면과 배경 속에서 움직이는 캐릭터를 다양한 표정을 짓고 여러 소품을 활용하면서 묘사해야 하는 경우가 많습니다. Midjourney와 같은 AI 생성 이미지 제작 도구는 완전히 새로운 이미지를 생성하는 데는 탁월하지만, 이러한 표현 형식의 역동적인 특성을 포착하는 데는 적합하지 않을 수 있습니다.
내러티브의 일관성을 유지하기 위해, 생성 AI 시스템은 역사적으로 캐릭터의 신체적 속성을 정확하게 표현하는 데 어려움을 겪어왔습니다. 하지만 미드저니는 “-cref” 태그를 통해 새로운 접근 방식을 도입하여 이러한 문제를 극복하고자 합니다. 사용자는 Midjourney 디스코드 플랫폼에서 입력한 내용에 이 태그를 추가하여 얼굴 특징, 체격, 복장에 대한 참조를 기반으로 캐릭터를 생성하도록 시스템에 지시할 수 있습니다. Midjourney는 “-cref” 태그 뒤에 제출된 URL을 활용하여 이러한 측면을 정확하게 포착하고 보다 사실적인 스토리텔링 경험에 기여하고자 합니다.
이 기능의 기능이 계속 발전하고 점점 더 정교해짐에 따라 재미있는 참신함이나 아이디어 생성기 역할에서 보다 강력하고 신뢰할 수 있는 전문 리소스로 전환될 가능성이 있습니다.
새로운 미드저니 일관된 캐릭터 기능 사용 방법
이 태그는 기존의 미드저니 이미지와 함께 사용할 때 최적의 성능을 발휘합니다.따라서 일반적인 사용자 프로세스는 처음에 이미 생성된 캐릭터 이미지의 URL을 생성하거나 가져오는 과정을 수반합니다.
근육질에 머리에 털이 없고(대머리), 수염을 기르고 안대를 착용한 속성을 가진 개인을 제안하는 주어진 설명을 활용하여 이 프로세스를 시작할 수 있습니다.
해상도와 선명도를 높여 원하는 이미지를 확대한 후, 미드저니 디스코드 플랫폼 내에서 마우스 오른쪽 버튼을 클릭하여 ‘링크 복사’ 기능을 찾습니다.
실제로 결과가 원본 자료나 초기 제안과 정확히 일치하지는 않지만, 유망한 궤적을 보여줍니다.
사용자는 입력 프롬프트에서 “cw” 매개변수의 값을 지정하여 생성된 이미지와 제공된 참조 이미지 간의 유사성 정도에 영향을 줄 수 있습니다. “-cref [URL]” 명령 뒤에 “-cw “을 추가하면 생성된 이미지와 참조 이미지 간의 유사성 수준을 결정하는 가중치를 1에서 100까지 지정할 수 있습니다. 가중치 값이 낮을수록 두 이미지 간의 차이가 커지고, 가중치 값이 높을수록 참조 이미지에 더 가까운 결과물이 생성됩니다.
실제로 그림에서 볼 수 있듯이 최소값인 “cw 8"을 입력하면 깨끗한 흰색 턱시도를 입은 사람이 원하는 결과물을 얻을 수 있습니다. 유감스럽게도 이렇게 하면 이전에 피사체에 있던 독특한 안대도 사라집니다.
“지역” 설정을 약간만 조정하면 당면한 문제를 해결할 수 있을 것 같지 않나요?
아이패치가 잘못된 안와에 부착된 것은 사실이지만, 이와 관련하여 진전이 이루어지고 있습니다.
각 문자의 고유 URL과 함께 한 쌍의 연속된 “-cref” 마커를 사용하여 여러 문자를 병합할 수도 있습니다.
재능 있는 아티스트와 크리에이터들이 테스트 중인 새로운 기능이 오늘 출시되었음을 알려드리게 되어 기쁘게 생각합니다. ‘미드저니’로 알려진 이 혁신적인 도구는 소유하신 분들만 사용하실 수 있습니다. 직접 사용해 보시고 그 기능에 대해 더 깊이 이해해 보시기 바랍니다.이 주제에 대한 지식을 넓히기 위해 존경하는 창립자 데이비드 홀츠 씨가 이 흥미로운 개발에 관해 제공한 포괄적인 발언을 검토해 주시기 바랍니다.
현재 목적 면에서 ‘스타일 참조’ 기능과 유사한 ‘문자 참조’ 기능과 관련된 실험을 진행 중입니다. 이 기능은 텍스트를 특정 글꼴이나 서식 스타일에 맞추는 대신 사용자가 제공한 지정된 ‘문자 참조’ 이미지와 가장 유사한 문자를 생성하는 기능입니다. 이 혁신적인 도구에 대한 사용 경험에 관한 피드백을 보내주시면 감사하겠습니다.
유형 --cref URL
캐릭터 이미지의 URL을 입력하라는 메시지가 나타난 후 --cw
를 사용하여 참조 ‘강도’를 100에서 0으로 수정할 수 있습니다 강도 100 ( --cw 100
)은 기본값이며 얼굴을 사용합니다, 머리카락, 옷을 사용합니다. 강도 0 ( --cw 0
)에서는 얼굴에만 집중합니다 (의상/머리 등을 변경할 때 좋습니다)
이 기능은 미드 여행 이미지로 만든 캐릭터를 사용할 때 가장 잘 작동합니다. 실제 사람/사진용으로 설계되지 않았으며 일반 이미지 프롬프트처럼 왜곡될 가능성이 있습니다. Cref는 캐릭터의 특징에 ‘초점’을 맞춘다는 점을 제외하면 일반 이미지 프롬프트와 유사하게 작동합니다. 이 기술의 정밀도는 제한적이며 보조개/주근깨/티셔츠 로고를 정확하게 복사하지는 못합니다. --sref
고급 기능
다음과 같이 여러 이미지의 정보/문자를 혼합하기 위해 둘 이상의 URL을 사용할 수 있습니다 --cref URL1 URL2
(여러 이미지 또는 스타일 프롬프트와 유사)
인터넷 영역, 알파 버전에서 어떤 방식으로 작동하나요?
사용자는 이미지를 드래그하거나 붙여넣어 ‘이미지 바’에 업로드할 수 있으며, 이제 세 개의 고유한 아이콘이 표시됩니다. 이러한 아이콘은 업로드된 이미지가 “이미지 프롬프트”, “스타일 참조” 또는 “문자 참조"에 대한 시각적 단서 역할을 하는지 여부를 결정하는 등 각기 다른 기능을 나타냅니다. 동일한 이미지를 여러 용도로 활용하려면 사용 가능한 옵션 중 하나를 클릭한 상태에서 ‘Shift’ 키를 누른 채로 이미지를 선택하면 됩니다.
MindJourney V6는 현재 알파 단계로 개발 중이며, 이 과정에서 특정 기능이 변경될 수 있습니다. 하지만 곧 공식 베타 버전의 V6를 출시할 예정입니다. ‘아이디어 및 기능’ 포럼을 통해 새로운 기능에 관한 피드백이나 아이디어를 보내주시기 바랍니다.이 초기 릴리스를 여러분과 공유하게 되어 기쁘게 생각하며, 내러티브와 가상 환경을 구성하는 데 창의력을 발휘할 수 있기를 바랍니다.