你的位置:首页 > 财经 > 正文

谷歌研制出AI编舞师:可根据音乐来10种freestyle,霹雳、爵士、

作者:肖鸥 2021-09-21 15:17  来源:IT之家  
文章摘要
变形金刚又开始了新的工作,——这一次,谷歌用它创建了一个可以根据音乐跳舞的AI 凭借对音乐与舞蹈关系的深刻理解,这款AI击败三款同类车型获...

变形金刚又开始了新的工作,——这一次,谷歌用它创建了一个可以根据音乐跳舞的AI

凭借对音乐与舞蹈关系的深刻理解,这款AI击败三款同类车型获得SOTA,登上ICCV 2021。

此外,除了开源代码,研究团队还发布了一个包含10种3D舞蹈动作的数据集。

心,化妆化妆!

你是怎么获得自由泳的。

我们不是说AI用了Transformer吗。

但是,这里的Transformer不是普通的Transformer,而是基于完全注意机制的跨模态Transformer。

为什么这么复杂。

因为研究人员发现,单纯使用Transformer并不能让AI理解音乐和舞蹈的相关性。

那么,这个FACT是如何工作的呢。

一般来说,FACT模型采用独立运动和音频转换器。

首先,输入一个2秒的种子动作序列和一段音频进行编码。

然后,嵌入被连接并发送到跨模态转换器,以学习两种形式之间的对应关系,并生成n个后续动作序列。

这些序列然后被用于模型的自我监控训练。

其中,三个transformer共同学习,采用不需要预处理和特征提取的端到端学习方法,直接将原始数据抛入其中得到最终结果。

此外,在自回归框架下对模型进行了检验,将期望运动作为下一代的输入。

最后,模型可以逐帧生成舞蹈动作。

下图显示该模型通过相同的种子动作和不同的音乐生成了四个舞蹈作品。

你有什么有见识的评论吗。

为了让AI生成的舞蹈形象生动,与音乐风格保持一致,这个模型设计有三个关键点:

1.模型内部的token可以访问所有输入,因此所有三个transformer都使用了一个完整的注意屏蔽这使得它比传统的因果模型更具表现力

2.该模型不仅预测下一个动作,还预测n个后续动作这有助于模型关注上下文,避免几个生成步骤后动作的不连贯和偏离

3.此外,在训练过程的早期,使用一个12层的跨模态变压器模块来融合两个嵌入研究人员表示,这是训练模型聆听和区分输入音乐的关键

让我们用数据来看看真实的表现。

打败三个SOTA模特。

研究人员根据三个指标评估了:人。

1.动作质量:使用FID计算样本与特征空间中生成结果之间的距离总共使用了模型生成的40个舞蹈序列,每个序列有1200帧

FID的几何特性和动态特性分别表示为FIDg和FIDk。

2.动作多样性:是通过测量特征空间中40组生成动作的平均欧几里德距离获得的。

几何特征空间Distg和动态特征空间k用于测试模型生成各种舞蹈动作的能力。

3.动作与音乐的相关性:没有很好的现有指标,所以他们提出了一个节拍对齐分数来评估输入音乐和输出3D动作之间的相关性。

以下是FACT与三款SOTA车型:的对比结果。

可以看出,FACT在所有三个指数中都获得了上述三个名次。

*由于李等人模型产生的动作是不连续的,其平均动态特征距离异常高,可以忽略。

看完数据,我们再来看一个更直观的:

Emmm,与灵活的FACT相比,另外两个似乎有点不太聪明.

AIST行动数据集。

最后,我们简单介绍一下AIST,他们创建的3D舞蹈动作数据集。

从名字上可以看出,这是基于AIST现有舞蹈数据集的增强版,主要是在原有基础上增加了3D信息。

最终的AIST由5.2小时和1408个3D舞蹈动作序列组成,跨越十种舞蹈类型,包括旧派和新派的霹雳舞,流行舞,洛克舞和瓦克舞,以及中嘻哈,LA风格的嘻哈,豪斯舞,克鲁姆普舞,街头爵士和爵士芭蕾每种舞蹈类型都有85%的基本动作和15%的高级动作

每个动作提供九个相机视角,其中三个如下所示。

可用于支持以下三项任务:多视角人体关键点估计,人体运动预测/生成,人体运动与音乐的跨模态分析。

团队介绍

我是李瑞龙,加州大学伯克利分校一年级博士生,加州大学伯克利分校人工智能实验室成员,脸书现实实验室学生研究员。

研究方向是计算机视觉和计算机图形学的交叉领域,主要研究通过2D图像信息生成和重建三维世界。

在读博士之前,我在南加州大学视觉与图形实验室做了两年的研究助理。

我在清华大学主修物理和数学,获得了计算机科学硕士学位我曾在谷歌研究和字节人工智能实验室实习

合著者杨珊,就职于谷歌研究。

研究兴趣包括:应用机器学习,多模态感知,三维计算机视觉和物理仿真。

他毕业于教堂山的北卡罗来纳大学。

大卫罗斯领导着谷歌研究公司的视觉动力学研究团队。

加拿大多伦多大学机器学习和计算机视觉博士。

安朱金泽博士毕业于马里兰大学,现在是UCB电子工程和计算机科学系的助理教授他领导着BAIR领导下的KAIR实验室,也是谷歌研究的研究员

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

分享到:
Copyright 2014-2020 免责声明 http://www.cshy5.cn 网站首页| 投诉与建议 | 网站地图 | |备案号: 闽ICP备2022005363号-4 认证