MIT-IBM Watson AI Lab开发AI模型Foley Music根据演奏手势还原乐曲原声

MIT联合沃森实验室团队推出最新AI 多种高难度乐器信手拈来

稿源:雷锋网

会玩乐器的人在生活中简直自带光环!不过,学会一门乐器也真的很难,多少人陷入过从入门到放弃的死循环。但是,不会玩乐器,就真的不能演奏出好听的音乐了吗?最近,麻省理工(MIT)联合沃森人工智能实验室(MIT-IBM Watson AI Lab)共同开发出了一款AI模型Foley Music,它可以根据演奏手势完美还原乐曲原声!

而且还是不分乐器的那种,小提琴、钢琴、尤克里里、吉他,统统都可以。

只要拿起乐器,就是一场专业演奏会!如果喜欢不同音调,还可以对音乐风格进行编辑,A调、F调、G调均可。

这项名为《Foley Music:Learning to GenerateMusic from Videos》的技术论文已被ECCV 2020收录。
接下来,我们看看AI模型是如何还原音乐的?
会玩多种乐器的Foley Music
如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样,为乐器演奏者配乐,同样需要知道其手势、动作以及所用乐器。
如果给定一段演奏视频,AI会自动锁定目标对象的身体关键点(Body Keypoints),以及演奏的乐器和声音。

身体关键点:由AI系统中的视觉感知模块(Visual Perception Model)来完成。它会通过身体姿势和手势的两项指标来反馈。一般身体会提取25个关2D点,手指提起21个2D点。
乐器声音提取:采用音频表征模块(Audio Representation Model),该模块研究人员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称MIDI)的音频表征形式。它是Foley Music区别于其他模型的关键。
研究人员介绍,对于一个6秒中的演奏视频,通常会生成大约500个MIDI事件,这些MIDI事件可以轻松导入到标准音乐合成器以生成音乐波形。
在完成信息提取和处理后,接下来,视-听模块(Visual-Audio Model)将整合所有信息并转化,生成最终相匹配的音乐。
我们先来看一下它完整架构图:主要由视觉编码,MIDI解码和MIDI波形图输出三个部分构成。

视觉编码:将视觉信息进行编码化处理,并传递给转换器MIDI解码器。从视频帧中提取关键坐标点,使用GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。

MIDI解码器:通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfomers是基于编解码器的自回归生成模型,主要用于机器翻译。在这里,它可以根据人体特征准确的预测MIDI事件的序列。
MIDI输出:使用标准音频合成器将MIDI事件转换为最终的波形。
实验结果
研究人员证实Foley Music远优于现有其他模型。在对比试验中,他们采用了三种数据集对Foley Music进行了训练,并选择了9中乐器,与其它GAN-based、SampleRNN和WaveNet三种模型进行了对比评估。
其中,数据集分别为AtinPiano、MUSIC及URMP,涵盖了超过11个类别的大约1000个高质量的音乐演奏视频。乐器则为风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为6秒。以下为定量评估结果:
可见,Foley Music模型在贝斯(Bass)乐器演奏的预测性能最高达到了72%,而其他模型最高仅为8%。

另外,从以下四个指标来看,结果更为突出:
正确性:生成的歌曲与视频内容之间的相关性。
噪音:音乐噪音最小。
同步性:歌曲在时间上与视频内容最一致。

黄色为Foley Music模型,它在各项指标上的性能表现远远超过了其他模型,在正确性、噪音和同步性三项指标上最高均超过了0.6,其他最高不足0.4,且9种乐器均是如此。
另外,研究人员还发现,与其他基准系统相比,MIDI事件有助于改善声音质量,语义对齐和时间同步。
说明
GAN模型:它以人体特征为输入,通过鉴别其判定其姿态特征所产生的频谱图是真或是假,经过反复训练后,通过傅立叶逆变换将频谱图转换为音频波形。
SampleRNN:是无条件的端到端的神经音频生成模型,它相较于WaveNet结构更简单,在样本级层面生成语音要更快。
WaveNet:是谷歌Deepmind推出一款语音生成模型,在text-to-speech和语音生成方面表现很好。
另外,该模型的优势还在于它的可扩展性。MIDI表示是完全可解释和透明的,因此可以对预测的MIDI序列进行编辑,以生成AGF调不同风格音乐。 如果使用波形或者频谱图作为音频表示形式的模型,这个功能是不可实现的。

最后研究人员在论文中表明,此项研究通过人体关键点和MIDI表示很好地建立视觉和音乐信号之间的相关性,实现了音乐风格的可拓展性。为当前研究视频和音乐联系拓展出了一种更好的研究路径。

微软上线口语评测功能:基于Azure云构建 帮助语言学习

微软上线口语评测功能:基于Azure云构建 帮助语言学习

近年来,随着人工智能技术的不断成熟,企业数字化转型步伐的加快,AI的触角逐渐深入到各个场景,使人类的生产生活变得更加智慧化。在听觉方面,智能语音技术成为各大科技公司们攻坚的重要领域。一家老牌科技巨头微软,在语音合成技术、语音识别技术上深耕多年,面向全球合作伙伴开放和落地其技术能力,提供多种智能语音解决方案。
5月20日,在2020微软Build开发者大会上,微软上线了语音评测功能,该功能基于Azure语音服务Speech-to-text(语音转文本)构建。用户可以上传跟读文本和音频对发音人的语音从准确度,流利度和完整度进行评测。在教育领域,尤其是口语学习方面,因具有高识别准确率、拟专家打分的高一致性,可以让口语学习的教和学更加高效方便。
近日,微软亚太研发集团智能语音团队接受线上采访,对微软智能语音评测技术的优势和应用场景等内容进行了详细介绍。微软亚太研发集团云计算与人工智能事业部产品总监丁秉公、微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎参与了本次采访。
语音评测的四个维度:专业性、实时性、稳定性、可定制性
微软亚太研发集团云计算与人工智能事业部资深产品经理马莉莎表示,目前语音评测市场需求的考量方向主要有四个维度:
专业性。
实时性。
稳定性。
可定制性。
对于专业性,微软语音评测的每个语言从10万小时以上的母语大数据中学习当地语言纯正口音发音,针对各年龄段多维度精准打分,从文章——句子——词——音素四个环节,层层评估,拟专家团打分一致性高。

马莉莎提到,语音评测的专业性考量对比的是和母语专家评测的一致性。业内通用皮尔森相关系数来反映两个序列线性相关程度的统计量。范围在-1到1之间,1表示完全相关,-1表示完全相反,0表示乱序无关,数值越大表示相关度越高。微软语音评测在一致性上达到了0.75,与母语专家水平接近。

对于实时性,微软语音评测支持音频上传流式处理,也就是边朗读边处理,读完立即反馈评估结果。
对于稳定性,微软语音评测基于NLP模型构建模糊匹配文本,针对垂直领域的特定场景的容错率有良好的包容性,漏读、错读、重复读不影响打分有效性与准确性。
对于可定制性,ASR基础模型与微软在语音领域的全面技术能力,可以实现个性化评分标准,可适配口音、适配噪音环境以及适配年龄层等。
据了解,微软语音评测除了支持英语评测外,还可扩展支持全球 40 多个国家和地区的语言评测,广泛适用于教育领域解决方案的合作伙伴、APP开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。
最大的技术难点在于多点平衡
语音评测能力,在教育领域主要的受众人群包括老师、学生,通常被广泛应用于教师评估、作业练习和语言学习场景中。那么,对于口语学习,教育用户的痛点是什么?语音评测最大的技术难点又是什么?
对此,马莉莎表示,对于学生来说,他们的痛点在于非母语口语学习。学生们在学习新语言的过程中,如何及时准确地给学生的发音进行反馈,让学生随时随地更方便地联系对于提升口语学习的有效性至关重要。
对于学校和教育机构来说,他们的痛点在于老师的资源有限,如何把现有的优质教师资源拓展到一个稳定的教学系统里。因此,老师需要这样一个能力,不仅能模拟母语专家打分,还能够学习到老师们的评测方法,让老师们可以使用评测高效地一对多给学生提供在线和线下的指导和帮助。
教育用户的这些痛点,对语音评测技术提出了更高的要求。马莉莎认为,语音评测最大的技术难点在于语音识别技术本身,首先是多语言的理解和识别,不同的打分场景,包括噪声环境、不同年龄段学生的发音情况等都要进一步优化。
其次就是要达到包容性和鲁棒性(注:robust,技术术语,此处可理解为稳健性或抗变性)的平衡。既要模型做得好、识别好,还要能够动态、实时构建,对大模型达到高实时地调用,而这些需求加起来就是难上加难了。
“在语音评测上我们的基础储备非常坚实,才能把方方面面做到比较好,以一个综合的体现呈现给用户,所以我们不是难在一个点上,而是多点平衡。”
据悉,积极探索数字化转型和新教育模式的好未来,也是微软语音评测功能的客户之一。好未来AI科学家胡翔宇表示:
“如何快速而有效地针对不同学生进行口语评测是我们在线上线下的英语教学中遇到的一大挑战。微软智能语音服务为好未来内部以及我们的合作伙伴提供强大的实时语音评测能力。根据我们的测试,微软语音服务的发音测评功能更好地适配了我们的收音环境,并且具备更高的一致性,更加贴近专家的评估结果。”
基于Azure云构建的一种能力:算法、数据、算力
微软亚太研发集团云计算与人工智能事业部产品总监丁秉公介绍,一般来说,我们看AI技术主要看三个方面:算法、数据、算力。从这三个方面来说,微软的语音评测功能有自己独特的优势。
在算法层面,微软在智能语音领域深耕多年,其语音识别已经达到人类的水平,错误率在5.1%左右,正是有了这个算法基础,所以在语音识别延伸的应用——语音评测方面能够比较有信心。
在数据层面,依靠微软在语音方面的多年积累,通过将近10万多小时母语的数据进行训练,最后学习到当地比较纯正的口音。
在算力层面,语音评测所有的技术都是基于微软Azure云构建的,Azure是全球拥有数据中心最多、覆盖区域最多的云,可支撑用户大规模的计算需求。同时,Azure符合欧盟GDPR(《通用数据保护条例》)标准,保护用户的数据安全性。
实际上,微软语音评测不是一个具体的产品,而是基于Azure云构建的一种能力。即以微软Azure为平台,将微软在人工智能领域30年的研究成果,开放API给合作伙伴、独立软件开发商、系统集成商,为他们提供认知服务之上的能力,从而进一步做出适合各自领域的方案。

“可以打一个比方,如果微软云是平台的话,认知服务就是这个平台上提供给用户智能的部分。就好像一个人有眼睛、耳朵、头脑,认知服务就是赋予想要在微软Azure云上获取这些能力的用户,给他们提供扩展能力”,丁秉公说道。
“所谓授之以鱼不如授之以渔,我们提供这样的能力或者工具之后,便于合作伙伴基于垂直领域里丰富的场景定制或开发相应的解决方案以及产品,他们可以直接调取这样的能力,而不需要从头做任何人工智能方面的研究。”
据了解,目前,微软语音评测的API有丰富的接口和参数,支持高实时率多并发调用。如果第三方想调用API,在前期评测环节是免费的,而进入集成开发阶段,会根据标准的Speech-To-Text(语音转文本)服务的价格,按照评测音频的时长来计费。
另外,丁秉公还提到,微软Azure内部有独立的Microsoft Education团队,专门针对教育领域提供不同的解决方案。除了语音评测外,Azure云在教育领域还有很多已落地的应用。
例如,疫情期间的“停课不停学”,让微软远程协作平台Microsoft Teams被学生用来作为远程学习的工具,在教育领域被广泛使用。
其次,在个性化教育方面,语音评测作为Azure上的服务,提供了个性化的打分能力,使在平台上使用这个功能的用户享受到属于他自己的独特服务。
第三,Azure的语音技术可以帮助合成AI老师,帮助教育机构生成课件,解决教育资源稀缺的问题。
除此之外,语音技术还可以帮助一些视障和听障学生更好地学习。
马莉莎认为,当前全球的教育行业都在进行数字化转型,疫情的到来加速了教育行业的数字化和线上化。通过让AI和云计算进一步赋能教育行业,可以为学生提供多元化个性化的服务,打造一个更加智能的生态环境。
微软在智能语音技术方面深耕多年,曾推出过多款耳熟能详的语音产品,如微软小娜(Cortana)、微软小冰、Skype等,此次上线语音评测功能也是“顺水推舟”之举。语音评测市场,BAT和科大讯飞等科技巨头争相布局,微软这匹“黑马”的加入,势必会让语音评测战场的厮杀更为激烈。

谷歌推出首款基于机器学习的古埃及象形文字翻译工具Fabricius

谷歌推出首款基于机器学习的古埃及象形文字翻译工具Fabricius

谷歌艺术与文化今天推出了全球首个基于机器学习的埃及象形文字的数字翻译工具Fabricius。不管是普通人还是学者都能利用这个工具体验象形文字,或者助力学术 研究。据谷歌介绍,这个工具推出选在今天,是因为今天是罗塞塔石碑(Rosetta Stone)的出土纪念日,罗塞塔石碑的发现首次解开了古埃及象形文字之谜。

使用Fabricius来读懂古埃及象形文字方法非常简单。你可以通过六个简单步骤来“学习”古埃及语言;另外,Fabricius还能将你自己的语言和信息翻译成象形文字,作为“密文”还分享给朋友炫一波。

Fabricius工具通过AI的力量解码古代语言

Google的AutoML如何帮助翻译象形文字

用埃及象形文字写下你的信息并与朋友分享

谷歌介绍,Fabricius中包含了首个基于机器学习解码埃及象形文字的开源数字工具,以此更好的支持和推动古代语言研究领域的发展。具体来说,Fabricius使用谷歌云的AutoML Vision技术创建了一个机器学习模型,使其能够理解什么是象形文字。
现在,Fabricius不仅可以帮用户学习和编写象形文字,还为学术研究提供了新的途径。使用Fabricius后,专家们不需要再在卷帙浩繁的书籍中手动挖掘,来翻译和破解这门古老的语言。