Contents

눈, 귀, 목소리를 모두 갖춘 ChatGPT

OpenAI는 ChatGPT 에 대한 대대적인 개편을 통해 AI 챗봇이 효과적으로 보고, 듣고, 말할 수 있는 새로운 음성 및 이미지 기능을 출시했습니다.

Microsoft의 지원을 받는 이 회사는 새로 도입된 기능이 “점점 더 본능적인 사용자 상호 작용 모드"를 제공한다고 주장했습니다. 향상된 ChatGPT를 통해 이제 개인은 주제에 대한 추가 설명이 필요한 경우 사진과 같은 시각적 요소를 프롬프트로 사용할 수 있습니다. 또한 해당 주제와 관련된 문의를 할 때 묘사된 이미지의 특정 부분을 선택적으로 강조할 수도 있습니다.

에펠탑의 이미지를 캡처하고 스냅샷을 추가 정보를 위한 참조 지점으로 활용하여 사진을 통해 에펠탑을 더 자세히 살펴볼 수 있습니다. 마찬가지로 숙제에서 특정 수학 문제에 어려움을 겪는 경우 관련 페이지의 이미지를 캡처하고 문제가 되는 부분을 강조 표시한 다음 ChatGPT에 도움을 요청하여 설명을 들을 수 있습니다.

ChatGPT 사용자는 이제 음성 커뮤니케이션을 통해 챗봇과 대화할 수 있는 기능이 제공되어, 자신의 목소리를 입력으로 활용하여 요리 제안을 받거나 저녁 이야기를 요청하고 그에 대한 응답을 들을 수 있게 되었습니다.

앞으로 2주 안에 ChatGPT Plus 및 Enterprise 고객에게 음성 및 이미지 기능을 포함한 다양한 새로운 기능을 제공하게 될 것임을 알려드리게 되어 기쁘게 생각합니다. 특히, 음성 기능은 iOS와 안드로이드 기기에서 먼저 사용할 수 있으며, 애플리케이션 내 ‘설정’ 메뉴로 이동하여 활성화할 수 있습니다. 이미지의 경우 곧 지원되는 모든 플랫폼에서 사용할 수 있게 될 예정입니다.

OpenAI는 정확한 일정은 제공되지 않았지만 가까운 시일 내에 개발자에게 음성 및 이미지 기반 기능에 대한 액세스를 제공할 것이라고 발표했습니다.

이미지 이해

인공지능의 획기적인 발전으로 인해 OpenAI의 혁신적인 DALL-E 3 이미지 생성 모델이 개발되었으며, 이 모델은 이제 향상된 커뮤니케이션 기능을 위해 ChatGPT와 호환됩니다.

ChatGPT의 최신 이미징 기능은 시각적으로 매력적인 콘텐츠를 생성하기 위해 멀티모달 접근 방식을 활용하는 고급 GPT-3.5 및 최첨단 GPT-4 모델의 조합에서 파생됩니다.

이미지를 활용하여 시각적 요소를 통합하는 기능은 텍스트 입력과 함께 그래픽 콘텐츠를 통합하고자 하는 사용자에게 제공됩니다.사용자는 서면 설명을 보완하기 위해 여러 이미지를 제공하도록 선택할 수 있으며, ChatGPT 모바일 애플리케이션의 범위 내에서 그리기 도구로 이미지를 둘러싸서 특정 측면을 선택적으로 강조할 수도 있습니다.

이 사례에서는 자전거 시트 조정과 관련하여 ChatGPT에 도움을 요청하는 사이클리스트가 있습니다. AI 플랫폼은 필요한 수정을 할 수 있는 퀵 릴리스 레버 또는 볼트의 위치를 안내합니다.

/images/chatgpt-gets-eyes-ears-and-a-voice.png

실제로 트위터의 시각적 기능은 사용자의 시각적 경험과의 원활한 상호작용을 통해 일상 생활의 다양한 측면을 향상하고 간소화하도록 설계된 언어 모델로서 전체 기능의 필수적인 부분입니다. 이와 관련하여 당사는 사용자의 관점과 함께 시각적 정보를 이해하고 해석하여 최적의 성능을 달성함으로써 보다 개인화되고 효과적인 지원을 제공할 수 있도록 노력하고 있습니다.

음성 사용

이 혁신적인 기능의 도입으로 개인은 ChatGPT와 대화를 수행할 수 있게 되었으며, 이는 Siri, Alexa, Google Home과 같은 소비자 중심의 인기 AI 솔루션이 보여준 현재의 기능을 뛰어넘는 발전된 기능입니다.

텍스트 입력과 간단한 음성 샘플을 활용하여 자연스러운 음성 오디오를 생성할 수 있는 새로운 이름 없는 텍스트 음성 변환 모델이 구현되어 보컬 기능을 용이하게 합니다. 특히 OpenAI는 노련한 성우들의 도움을 받아 시스템의 특징적인 개별 음성을 개발했습니다.

OpenAI가 개발한 최첨단 위스퍼 음성 인식 모델을 활용하여 음성 언어를 해당 문자 형태로 성공적으로 변환할 수 있었습니다.

사용자가 ChatGPT 계정을 통해 음성 대화를 활성화하려면 “설정” 메뉴로 이동하여 “새로운 기능” 탭에서 이 기능을 선택하여 활성화해야 합니다. 또한, 사용자는 사용 가능한 다양한 음성 옵션 중에서 선택할 수 있으며, 총 5가지 음성이 잠재적인 선택 사항으로 제공됩니다.

선도적인 인공지능 연구 기관인 OpenAI가 향후 몇 년 내에 10억 달러 이상의 수익을 창출할 것으로 예상된다는 보도가 나왔습니다. 이 놀라운 성과는 광범위한 사용을 위해 AI 기술을 발전시키기위한 회사의 혁신적인 접근 방식과 헌신의 성공을 반영합니다.

OpenAI는 팟캐스트 콘텐츠의 자동 번역 기술을 활용하여 음성 채팅 기능을 개발하기 위해 유명 오디오 스트리밍 플랫폼인 Spotify와 협력하고 있다고 공개했습니다.

ChatGPT의 새로운 음성 및 이미지 옵션은 사용하기에 안전한가요?

잠재적 위험을 완화하기 위해 OpenAI는 외부 기관과 협력하여 기술과 관련된 적용 범위 및 제약 사항을 파악하고, 시각 미디어 내에서 개인을 검사하기 위한 경계를 설정하고, 모델의 기능 및 제한 사항에 대한 명확성을 높이고, 사용자에게 심각한 위험을 초래하는 활동에 대해 경고하는 등 여러 예방 조치를 시행하고 있습니다.

최근 발표에서 OpenAI는 극단주의 및 사실 오류와 관련된 잠재적 문제를 포함하여 다양한 조건에서 시스템의 성능을 검사하는 전문 ‘레드 팀원’ 패널을 통해 시각적 기능에 대한 일련의 테스트를 수행했다고 밝혔습니다. 이 알파 테스트 단계는 보다 광범위한 사용자층을 대상으로 추가 평가를 위해 제품을 출시하기 전에 제품에 대한 초기 비공개 평가를 나타냅니다.

또한 OpenAI는 챗봇이 “항상 정확한 것은 아니며” 사람들의 프라이버시를 존중해야 하기 때문에 새로운 기능에는 ChatGPT의 사람에 대한 분석 및 직접적인 진술 능력을 “상당히 제한"하는 기술적 조치가 적용되었다고 말했습니다. 지난 6월, 총기 권리 옹호자인 마크 월터스가 자신이 CFO로 있던 비영리단체에서 “자금을 가로채고 횡령했다"고 ChatGPT가 잘못 고발한 후 OpenAI는 호로 건을 고소당했습니다. 한 기자가 ChatGPT에 이 비영리 단체가 워싱턴 주 법무장관 로버트 퍼거슨을 상대로 제기한 소송을 요약해 달라고 요청했습니다. 월터스는 이 소송의 당사자가 아니었습니다.

OpenAI는 특정 언어, 특히 비로만어 스크립트를 사용하는 언어와 상호 작용할 때 ChatGPT가 최적의 성능을 발휘하지 못한다고 지적했습니다.

영어를 모국어로 사용하지 않는 개인에게는 이 특정 애플리케이션에 ChatGPT를 사용하지 않는 것이 좋다고 회사 측에서 권고했습니다.

최신 정보를 받아보세요. 이 사이트 뉴스레터를 구독하세요.