😊
All Things IT @AI
최신 뉴스
주제별 보기
AI?
AI 서비스
OpenAI
마이크로소프트
구글
엔비디아
😊
All Things IT @AI
최신 뉴스
주제별 보기
AI?
AI 서비스
OpenAI
마이크로소프트
구글
엔비디아
Computer Vision
2024
Microsoft 연구원, VASA-1 소개: 오디오 기반 혁신으로 말하는 얼굴 생성의 사실성을 혁신하다
04-20
이미지넷 정확도 87%, 지연 시간 3.8ms: 온디바이스 모바일 비전을 재정의하는 Google의 MobileNetV4
04-19
CLIP의 환경 탐색: 데이터, 아키텍처 및 교육 전략 조사하기
04-19
UNC-채플힐의 연구원들이 CTRL-Adapter를 소개합니다: 모든 확산 모델에 다양한 제어를 적용하기 위한 효율적이고 다재다능한 AI 프레임워크
04-17
북경대학교와 바이트댄스의 AI 백서, 속도와 효율성 측면에서 확산 모델을 능가하는 VAR을 소개합니다.
04-16
옴니퓨전: 멀티모달 아키텍처를 통해 텍스트 및 시각 데이터 통합을 강화하고 뛰어난 VQA 성능을 제공하는 AI 혁신
04-14
내부 네트워크 작업 벡터를 사용하여 컴퓨터 비전 모델의 작업 적응성을 향상시킨 UC 버클리와 텔아비브 대학교의 이 연구
04-13
01/04~07/04 금주의 주요 컴퓨터 비전 관련 논문
04-13
MoMA: 유연한 제로 샷 기능을 자랑하는 개방형 어휘 및 교육용 무료 개인화 이미지 모델
04-12
메타 AI, 장기적인 비디오 이해를 위한 메모리 증강 대규모 멀티모달 모델 'MA-LMM' 발표
04-12
Apple 연구원, 멀티모달 강화 학습을 통해 런타임 성능에 최적화된 새로운 이미지-텍스트 모델 제품군 MobileCLIP 제안
04-12
작을수록 좋습니다: 잠복 확산 모델의 샘플링 효율성 살펴보기
04-11
시그마 시그마: 환경 이해 향상을 위한 샴 맘바 네트워크를 통한 멀티 모달 시맨틱 세분화로 AI 인식의 변화
04-11
'제로 샷' 신기루: 데이터 부족이 멀티모달 AI를 제한하는 방법
04-11
이 AI 백서에서는 비전 언어 모델(VLM)에 대한 새롭고 중요한 도전 과제인 UPD(Unsolvable Problem Detection)를 소개합니다.
04-04
페이스 오프: 머신러닝을 활용한 실용적인 얼굴 바꾸기
04-04
대규모 비전 언어 모델을 평가하는 올바른 길을 가고 있을까요? 중국에서 발행된 이 AI 백서에서 MMStar를 소개합니다: 엘리트 비전 의존형 멀티모달 벤치마크
04-03
컴퓨터 비전 기반 농구 분석
04-03
Sora AI: Sora의 아키텍처를 풀고 직관적으로 작업하세요!
04-02
텐센트, 애니포트레이트를 제안하다: 사실적인 인물 애니메이션의 오디오 기반 합성 기술
04-02
1
2
3
…
30