소개
서울대학교 AIDAS 연구실이 공개한 옴니모달 파운데이션 모델. 텍스트·이미지·영상·음성의 이해와 생성을 마스크드 디퓨전 방식으로 단일 아키텍처에서 처리한다. 자동회귀 대신 병렬 토큰 정제 방식으로 크로스모달 생성의 확장성을 높였다.
주요 기능
텍스트·이미지·영상·음성 통합 처리
마스크드 디퓨전 기반 옴니모달 생성
이미지 생성·편집
ASR 및 TTS
멀티모달 벤치마크 SOTA 수준
업데이트 히스토리
신규 등록
- •텍스트·이미지·영상·음성 통합 옴니모달 모델
- •서울대 AIDAS 연구실 개발 마스크드 디퓨전 기반
- •ASR·TTS·이미지 생성·편집 통합 처리
가격
오픈 연구 모델 (무료)
지원 플랫폼
api

