文章来源:智搜AI导航站 发布时间:2024-11-16
M2UGen是一款融合了音乐理解和多模态音乐生成任务的先进模型。它基于腾讯PCG ARC实验室的研发,结合了MERT等编码器进行音乐理解,ViT进行图像理解,ViViT进行视频理解,并使用MusicGen/AudioLDM2模型作为音乐生成模型(音乐解码器)。这一创新性的框架使得M2UGen能够处理多种模态的输入,包括文本、图像和视频,并生成相应的音乐。
访问官网M2UGen是一款融合了音乐理解和多模态音乐生成任务的先进模型。它基于腾讯PCG ARC实验室的研发,结合了MERT等编码器进行音乐理解,ViT进行图像理解,ViViT进行视频理解,并使用MusicGen/AudioLDM2模型作为音乐生成模型(音乐解码器)。这一创新性的框架使得M2UGen能够处理多种模态的输入,包括文本、图像和视频,并生成相应的音乐。
功能特点
M2UGen的功能特点主要体现在以下几个方面: