天天看点

【AI视野·今日NLP 自然语言处理论文速览 第十八期】Fri, 2 Jul 2021

AI视野·今日CS.NLP 自然语言处理论文速览

Fri, 2 Jul 2021

Totally 27 papers

👉上期速览✈更多精彩请移步主页

【AI视野·今日NLP 自然语言处理论文速览 第十八期】Fri, 2 Jul 2021

Daily Computation and Language Papers

Multimodal Graph-based Transformer Framework for Biomedical Relation Extraction

Authors Sriram Pingali, Shweta Yadav, Pratik Dutta, Sriparna Saha

最近预训练的变压器模型的进步推动了各种生物医学任务的有效文本挖掘模型的发展。但是,这些模型主要在文本数据上学到,并且通常缺乏实体的域知识,以捕获超出句子之外的上下文。在这项研究中,我们介绍了一种新颖的框架,使模型能够在额外的多模态线圈等额外的多模态线圈等中学习有关实体蛋白的多种Omnics生物信息。朝向这一点,而不是开发模态特定的架构,我们设计了基于概括的和优化的曲线学习机制,利用图形模型来编码文本和分子结构信息,并利用各种方式的底层特征来实现结束到最终学习。我们评估了从生物医学语料库中的蛋白质蛋白相互作用任务的提出方法,其中观察到我们提出的广义方法受到额外域特异性模型的利益。

CLINE: Contrastive Learning with Semantic Negative Examples for Natural Language Understanding

Authors Dong Wang, Ning Ding, Piji Li, Hai Tao Zheng

尽管预先培训的语言模型已被证明有用的学习高质量的语义表示,但这些模型仍然容易受到简单的扰动。最近的作品旨在提高预训练模型的稳健性,主要关注来自类似语义的扰动示例的对抗训练,忽略了不同甚至相反的语义的利用。与图像处理字段不同,文本是离散的,很少的单词替换可能会导致显着的语义变化。为研究小扰动引起的语义的影响,我们开展一系列试点实验,令人惊讶地发现对抗性训练是无用的甚至有害的模型,以检测这些语义改变。为了解决这个问题,我们提出了与语义阴性例子征连的对比学习,该曲线构建了无监测的语义消极例子,以改善在语义上对抗性攻击下的鲁棒性。通过与类似和相反的语义示例进行比较,该模型可以有效地感知由小扰动引起的语义改变。经验结果表明,我们的方法对一系列情绪分析,推理和阅读理解任务产生了重大改进。康兰人还确保在句子级别的不同语义上相同的语义和可分离性的紧凑性。

What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis

Authors Shammur Absar Chowdhury, Nadir Durrani, Ahmed Ali

结束于终端DNN架构已经推动了语音技术的最先进,以及AI的其他领域,领导的研究人员培养更复杂和更深的模型。这些改进以透明成本为付。 DNN天然不透明,难以解释。我们不再了解学习的功能,它们被保留,以及它们如何运作。这种分析对于更好的模型理解,调试和确保道德决策的公平非常重要。在这项工作中,我们分析了在深音模型中训练的陈述,迈向扬声器识别,方言识别和屏蔽信号的重建的任务。我们对讲话者,语言和渠道属性的预磨术语音模型中捕获的话语水平表示进行层次和神经元级别分析。我们学习是在学习的陈述中捕获的信息,它保留了它如何分发,我们可以确定拥有此信息的最小网络子集。使用诊断分类器,我们回答了这些问题。我们的结果显示I频道和性别信息是全部的,并且被冗余分布式II复杂的属性,例如辩证信息仅在面向任务的预磨平网络中编码,并且在上层III中可以提取最小的神经元子集以编码预定义属性IV突出神经元有时在属性之间共享,并且可以突出网络存在偏差。我们的交叉架构比较表明,v预磨模模型捕获扬声器不变信息,VI预先训练的CNNS模型对变压器具有竞争力,用于编码研究的属性的信息。据我们所知,这是第一次研究语音模型上神经元分析的研究。

MultiCite: Modeling realistic citations requires moving beyond the single-sentence single-label setting

Authors Anne Lauscher, Brandon Ko, Bailey Kuhl, Sophie Johnson, David Jurgens, Arman Cohan, Kyle Lo

引文上下文分析CCA是研究如何以及为什么学者讨论彼此的工作的重要任务。尽管已经研究了几十年来,CCA的传统框架在很大程度上依赖于作者引用的过度简单的假设,这忽略了几个重要现象。例如,学术论文通常包含丰富的讨论跨越多个句子的引用工作,并同时表达多个意图。然而,CCA通常接近单句,单个标签分类任务,因此现有数据集无法捕获这种有趣的话语。在我们的工作中,我们通过提出CCA的新框架作为文档水平上下文提取和标签任务来解决这一研究差距。我们从1,200多个计算语言学论文中释放多销料,是12,653个引用语境的新数据集。它不仅是迄今为止最大的专家注释引用语境集合,多销料包含多句子,多句子文本中的多句子。最后,我们演示了我们的数据集如何,虽然仍然可用于培训经典CCA模型,但也支持开发CCA超出固定宽度文本分类的新型模型。我们发布了我们的代码和数据集

Knowledge Distillation for Quality Estimation

Authors Amit Gajbhiye, Marina Fomicheva, Fernando Alva Manchego, Fr d ric Blain, Abiola Obamuyide, Nikolaos Aletras, Lucia Specia

质量估计QE是在没有参考转换的情况下自动预测机器翻译质量的任务,使其在实时设置中适用,例如翻译在线社交媒体对话。 QE最近的成功源于使用多语言预训练的表示,非常大的模型导致令人印象深刻的结果。然而,这种模型的推理时间,磁盘和内存要求不允许在现实世界中进行广泛使用。对于许多使用方案,蒸馏的预训练表演培训的模型仍然非常大。我们建议直接从强大的QE教师模型转移知识,以与不同,较浅的架构进行更小的模型。我们表明这种方法与数据增强相结合,导致重量QE模型,竞争性地执行蒸馏的预训练表示,其中参数较少。

Ensemble Learning-Based Approach for Improving Generalization Capability of Machine Reading Comprehension Systems

Authors Razieh Baradaran, Hossein Amirkhani

机器阅读理解MRC是近年来具有许多成功开发模型的自然语言处理的活跃领域。尽管它们的分配准确性高,但这些模型遭受了两次高训练成本和低分配准确性的问题。尽管已经提出了一些方法来解决泛化问题,但它们具有很高,无法忍受的培训成本。在本文中,我们研究了集合学习方法的效果,提高MRC系统的泛化而不会再培训大型模型。单独培训具有不同数据集的不同结构的基础模型之后,它们使用概率和非概率设置中的加权和堆叠方法整合。研究了三种配置,包括异质,均匀和混合的八个数据集和六个艺术模型的六个状态。我们确定了集合方法有效性的重要因素。此外,我们将集合和微调模型的稳健性与数据分布换档进行比较。实验结果表明了集合方法在改善MRC系统的分配准确性方面的有效性和稳健性,特别是当基础型号的准确性相似时。

Modeling Target-side Inflection in Placeholder Translation

Authors Ryokan Ri, Toshiaki Nakazawa, Yoshimasa Tsuruoka

占位符翻译系统使用户能够指定在输出句中如何在输出句中转换特定短语。该系统培训以输出特殊的占位符令牌,并且用户指定的术语通过占位符令牌的上下文自由更换将输出注入输出。然而,这种方法可能导致不可否认的句子,因为通常需要根据输出的上下文来计算指定的术语,这在翻译前未知。为了解决这个问题,我们提出了一种新的占位符翻译方法,可以根据产出判决的语法建设进行指定的术语。我们将序列扩展到序列架构,其具有具有用户指定术语的引理的字符级解码器,以及从单词级解码器生成的单词以输出引理的正确的变形形式。我们在科学写作域中评估了我们的日语到英语翻译任务,并表明我们的模型可以更成功地将特定术语纳入比其他可比模型更成功。

Multilingual Central Repository: a Cross-lingual Framework for Developing Wordnets

Authors Xavier G mez Guinovart, Itziar Gonzalez Dios, Antoni Oliver, German Rigau

语言资源是语言处理所必需的,但构建它们昂贵,涉及来自不同区域的许多研究,并且需要不断更新。在本文中,我们描述了用于开发多语言中央储存库MCR的Crosslingual框架,包括巴斯克,加泰罗尼亚语,英语,加利西亚语,葡萄牙语,西班牙语和以下本体基础概念,顶级本体,Wordnet域和以下内容的多语言知识库建议的上部合并本体。我们介绍了MCR的故事,其州于2017年和开发的工具。

Combining Feature and Instance Attribution to Detect Artifacts

Authors Pouya Pezeshkpour, Sarthak Jain, Sameer Singh, Byron C. Wallace

培训主导NLP的大深度神经网络需要大型数据集。其中许多是自动收集的或通过众包收集的,并且可能表现出系统的偏差或注释伪影。通过后者,我们的意思是虚假的输入和输出之间的相关性,因为它们不代表它们之间的特征和类模型之间的普遍存在的因果关系,可能看起来可能似乎可以效果很好地执行给定的任务,但失败了数据。在本文中,我们提出了使用新的混合方法来促进识别训练数据工件的方法,该方法结合了显着性图,该方法突出显示了具有实例归因方法的实例归因方法,该方法将检索对给定预测的训练样本。我们表明,这一提出的培训特征归因方法可用于揭示训练数据中的伪像,并使用它来识别几个标准NLP数据集中的先前未报告的伪像。我们执行小型用户学习,以评估这些方法是否对NLP研究人员有用,具有前景的结果。我们为本文提供的所有方法和实验都提供代码。

Zero-pronoun Data Augmentation for Japanese-to-English Translation

Authors Ryokan Ri, Toshiaki Nakazawa, Yoshimasa Tsuruoka

对于日语来说英语翻译,日本的零代词构成挑战,因为模型需要推断并在英语句子的目标方面推断并产生相应的代词。但是,虽然完全解析零代词通常需要话语上下文,但在某些情况下,句子中的本地上下文将线索提供给零代词的推断。在本研究中,我们提出了一种数据增强方法,该方法为翻译模型提供额外的训练信号,以学习本地上下文与零代词之间的相关性。我们表明,该方法显着提高了对话域中的机器翻译实验的零代词转换的准确性。

Interviewer-Candidate Role Play: Towards Developing Real-World NLP Systems

Authors Neeraj Varshney, Swaroop Mishra, Chitta Baral

标准的NLP任务不包含几个常见的现实世界场景,如寻求关于问题的澄清,利用线索,弃权,以避免不正确的答案等。任务制定的这种差异阻碍了在现实世界中的NLP系统中的采用。在这项工作中,我们迈出了弥补这个差距的一步,并提出了一种多阶段任务,模拟了典型的人类提问者响应者互动,例如面试。具体地,该系统在各个阶段提供了质量简化,知识陈述,示例等,以改善其在不够自信时的预测。我们在自然语言推理设置中实例化了拟议的任务,其中系统在域中的域中进行了评估,并从域的输入中进行了评估。我们进行全面的实验,并发现我们的任务的多阶段制定能够在第1期,第3阶段,第3阶段,54.88阶段的阶段,1.91中的展示性能改善和72.02阶段在标准的无规模预测中。但是,我们的任务对NLP研究人员来说,对NLP研究人员来说,在每个阶段进一步提高表现的重大挑战。

Scientia Potentia Est -- On the Role of Knowledge in Computational Argumentation

Authors Anne Lauscher, Henning Wachsmuth, Iryna Gurevych, Goran Glava

尽管过去几年进行了广泛的研究,但论证的计算建模仍然具有挑战性。主要原因在于人类流程的固有复杂性,这通常需要广泛知识的整合远远超出了许多其他自然语言理解任务所需的东西。现有的采矿,评估,推理和争论的工作承认这一问题,呼吁更多研究常识和世界知识的整合到计算模型中。然而,系统努力收集和组织所需的知识类型,妨碍了该领域的目标进展。在这种本质的调查论文中,我们通过1提出了一个问题,提出了计算论证所需的知识类型,2简要讨论了本领域在现场中这些类型的作用和整合的技术,以及概述主要挑战为了将来的工作。

The USTC-NELSLIP Systems for Simultaneous Speech Translation Task at IWSLT 2021

Authors Dan Liu, Mengge Du, Xiaoxi Li, Yuchen Hu, Lirong Dai

本文介绍了USTC NELSLIP S提交给IWSLT2021同时语音翻译任务。我们提出了一种新颖的同步翻译模型,跨关注增强换能器CAAT,其扩展了传统的RNN T序列以序列任务,而没有单调约束,例如同时翻译。与文本S2T和文本文本的演讲进行演讲和文本T2T同声转换任务显示CAAT与Textit Wait K相比,达到更好的质量延迟折衷,以前的最先进的方法之一。基于CAAT架构和数据增强,我们在此评估活动中构建S2T和T2T同步翻译系统。与去年的最优系统相比,我们的S2T同步翻译系统平均提高了所有延迟制度11.3 BLEU,我们的T2T同步翻译系统平均提高了4.6的BLEU。

Capturing Event Argument Interaction via A Bi-Directional Entity-Level Recurrent Decoder

Authors Xiangyu Xi, Wei Ye, Shikun Zhang, Quanxiu Wang, Huixing Jiang, Wei Wu

捕获事件参数之间的交互是朝着强大的事件参数提取EAE的重要步骤。然而,在这方面的现有努力遭受了两个限制1,参数角色实体的参数角色类型信息主要用于训练信号,忽略直接采用它作为语义上丰富的输入特征2的潜在优点2表示参数级顺序语义,这意味着事件中的参数角色的整体分布模式并不具备很好的表征。为了解决上述两个瓶颈,我们第一次将EAE形式形式化为SEQ2SEQ,其中一个具有特定事件触发器的句子映射到一系列事件参数角色。建议通过结合语境实体参数角色预测来生成参数角色的神经架构,与Word文本生成过程相同,从而更准确地区分内隐式参数分布模式。

Word-Free Spoken Language Understanding for Mandarin-Chinese

Authors Zhiyuan Guo, Yuexin Li, Guo Chen, Xingyu Chen, Akshat Gupta

Siri和Alexa等口语对话系统为人们的日常生活提供了极大的便利。但是,目前的口语语言理解综合管道主要依赖于自动语音识别ASR模块,这需要大量的语言培训数据。在本文中,我们提出了一种基于变压器的SLU系统,可直接在手机上工作。该基于声学的SLU系统仅由两个块组成,不需要存在ASR模块。第一块是通用电话识别系统,第二个块是用于电话的变压器语言模型。我们验证系统在普通话中的意图分类数据集中的有效性。

Reinforcement Learning for Abstractive Question Summarization with Question-aware Semantic Rewards

Authors Shweta Yadav, Deepak Gupta, Asma Ben Abacha, Dina Demner Fushman

在线消费者健康问题的增长导致了可靠和准确的问题应答系统的必要性。最近的一项研究表明,消费者健康问题的手册摘要带来了检索相关答案的重大改善。然而,由于缺乏培训数据和相关子信机的复杂性,诸如问题焦点和类型识别,因此长期概括了长的问题是一个具有挑战性的任务。在本文中,我们介绍了一种基于加强学习的抽象问题概括。我们提出了两项​​新的奖励,从我的问题类型识别和II问题焦点认可,以规范问题模型。这些奖励确保了语义上有效的问题,并鼓励将关键医疗实体汇集列入问题摘要。我们在两个基准数据集中评估了我们提出的方法,并实现了更高的艺术模型的性能。对摘要的手动评估表明,所产生的问题更加多样化,并且与基线摘要有更少的事实不一致

Elbert: Fast Albert with Confidence-Window Based Early Exit

Authors Keli Xie, Siyuan Lu, Meiqi Wang, Zhongfeng Wang

尽管在自然语言处理NLP地区取得了巨大成功,但由于大量参数和慢速推理速度,伯特的大型预训练语言模型并不适用于资源受限或实时应用。最近,压缩和加速BERT成为重要的主题。通过结合参数共享策略,Albert大大减少了参数的数量,同时实现了竞争性能。尽管如此,Albert仍然遭受了长期推理的时间。在这项工作中,我们提出了ELBERT,它由于拟议的基于置信窗的早期退出机制而显着提高了与Albert相比的平均推理速度,而不会引入额外的参数或额外的训练开销。实验结果表明,与各种数据集上的Albert相比,ELBERT从2倍变化的自适应推理加速度从2倍变化到10倍。此外,ELBERT比在相同的计算成本下加速硼的现有早期出口方法实现更高的精度。此外,要了解早期退出机制的原理,我们还将其在Elbert中的决策过程中的决策过程。

Controllable Open-ended Question Generation with A New Question Type Ontology

Authors Shuyang Cao, Lu Wang

我们调查较少的探索任务,即发布的开放式问题通常由多个句子回答。我们首先定义一个新的问题类型本体,这些内容会使问题的细节性质不同于广泛使用的问题。具有4,959个问题的新数据集根据新本体标明标记。然后,我们提出了一个新的问题类型意识问题生成框架,由语义图表示增强,共同预测问题重点并产生问题。基于此框架,我们进一步使用两个示例和自动生成模板以提高可控性和多样性。两个新收集的大型数据集的实验表明,我们的模型在基于自动指标的竞争比较方面提高了质量。人类法官还对我们的模型产出提供了高度可取性,范围的覆盖率和整体质量。最后,我们的模型变体与模板可以提高可控性和多样性的问题。

Learning a Reversible Embedding Mapping using Bi-Directional Manifold Alignment

Authors Ashwinkumar Ganesan, Francis Ferraro, Tim Oates

我们提出了一个Bi方向歧管对准BDMA,其通过明确地训练它是基于重点的两个歧管之间的非线性映射。我们通过培训一对语言而不是个人,定向源和目标组合的模型来展示BDMA,减少了模型的数量50。我们展示了在前源中使用BDMA培训的模型可以成功地将反向目标中的单词映射到源方向,产生等效或更好的性能,以翻转源和目标语言的标准单向翻译模型。我们还展示了BDMA如何降低模型的整体大小。

Regressing Location on Text for Probabilistic Geocoding

Authors Benjamin J. Radford

文本数据是社会和政治事件的详细信息的重要来源。自动化系统解析大量文本数据以推断或提取描述演员,操作,日期,次数和位置的结构化信息。这些子任务之一是预测与由给定文本描述的事件或位置相关联的地理坐标的地理编码。我们呈现了用于地理编码文本数据的终端概率模型。此外,我们收集一个新的数据集,用于评估地理编码系统的性能。我们将基于模型的解决方案进行比较,称为电子地图,到最新状态的最新状态,用于用于事件数据的地理编码文本。最后,我们讨论了基于结束模型的地理编码的好处,包括原则性不确定性估计和这些模型利用上下文信息的能力。

Learning to communicate about shared procedural abstractions

Authors William P. McCarthy, Robert D. Hawkins, Haoliang Wang, Cameron Holdaway, Judith E. Fan

许多现实世界任务要求代理商协调其行为以实现共同目标。成功的合作不仅需要采用相同的交际惯例,而且还需要在相同的任务中接地适当的概念抽象。我们调查人类如何利用自然语言如何随时间更有效地解决物理装配问题。人类参与者在在线环境中配对,以重建包含两个街区的场景。一个参与者可以看到目标塔,并向其他参与者发送装配说明来重建。参与者在每对塔上的重复尝试中提供了越来越简明的指令,使用捕获每个场景S层次结构的更高级别的参考表达式。为了解释这些调查结果,我们通过明确的感知学习机制扩展了近期临时会议组的概率模型。这些结果揭示了触感偏差,使智能代理能够协调共享程序抽象。

All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text

Authors Elizabeth Clark, Tal August, Sofia Serrano, Nikita Haduong, Suchin Gururangan, Noah A. Smith

人类评估通常被认为是自然语言生成中的黄金标准,但随着模型流畅性的提高,评估者如何检测和判断机器生成的文本,我们经过一项研究评估非专家能力区分人类和机器撰写文本GPT2和GPT3的学习能力域名故事,新闻文章和食谱。我们发现,没有培训,评估人员在随机机会水平下区分GPT3和人工创作文本。我们探讨了三种方法,即可快速培训评估人员更好地识别GPT3撰写文本详细说明,注释的示例和配对示例,并发现虽然评估者准确性最多55次,但在三个域中没有显着改善。鉴于文本领域的不一致结果和经常矛盾的原因评估者提供了判断,我们会审查未经培训的人类评估在NLG评估中发挥的作用,并为NLG研究人员提供建议,以改善从艺术模式所产生的文本的人类评估。

Zipf's laws of meaning in Catalan

Authors Neus Catal , Jaume Baixeries, Ramon Ferrer Cancho, Llu s Padr , Antoni Hern ndez Fern ndez

在他的开创性研究中,GK Zipf制定了几个关于频率之间的关系的统计法,其中含义分布的含义分布规律及其频率等级的频率以及意义频率法,将单词的频率与其含义相关联。虽然这些法律在一个多个世纪以前制定了超过半个世纪之前的制定了,但他们只是以几种语言进行调查。在这里,我们在加泰罗尼亚州展示了对这些法律的第一次研究。

ESPnet-ST IWSLT 2021 Offline Speech Translation System

Authors Hirofumi Inaguma, Brian Yan, Siddharth Dalmia, Pengcheng Gu, Jiatong Shi, Kevin Duh, Shinji Watanabe

本文介绍了ESPNET ST组S IWSLT 2021在离线语音转换轨道中提交。今年我们在培训数据,架构和音频分割方面做出了各种努力。在数据方面,我们调查了序列级知识蒸馏SEQKD,以结束E2E语音翻译。具体来说,我们使用来自多个教师的多引用SEQKD,这些教师培训了不同数量的BITEXT。在架构方面,我们采用了符合管理器编码器和多解码器架构,该组合器和多解码器架构配备了统一编码器解码器模型中的语音识别和转换任务的专用解码器,并且在推理期间启用在源和目标语言空间中搜索。我们还通过使用pyannote.audio工具包显着改善了音频分割,并合并了长期上下文建模的多个短段。实验评估表明,它们中的每一个都促进了翻译性能的大量改善。我们最好的E2E系统将所有上述技术组合在TST2021和21.2 BLEU和19.3 BLEU的2 ref of TST2021和19.3 BLEU上的模型集合和实现了31.4 BLEU。

StableEmit: Selection Probability Discount for Reducing Emission Latency of Streaming Monotonic Attention ASR

Authors Hirofumi Inaguma, Tatsuya Kawahara

虽然所关注的编码器解码器AED模型已成功扩展到用于流式自动语音识别ASR的在线变体,例如单调散文注意摩卡,因此由于未经控制的结束终端训练目标,模型仍然具有大的标签发射等待时间。以前的作品通过利用对齐信息来控制对齐信息来控制训练期间发出令牌的时机。在这项工作中,我们提出了一种简单的对齐正则化方法,培养Mocha早些时候发出令牌。 StandeMit通过恒定因素对令牌边界检测进行硬单调注意的选择概率,并将其正规化,以恢复训练期间的总注意力。结果,选择概率的比例增加,并且该值可以更早地达到令牌发射的阈值,从而减少发射延迟和删除错误。此外,结构可以与约束对准进一步提高准确度和延迟的方法组合。使用LSTM和符合子编码器的实验评估表明,稳定性显着降低了同时识别误差和发射延迟。我们还表明,在两个度量标准中使用对准信息的使用是互补的。

GlyphCRM: Bidirectional Encoder Representation for Chinese Character with its Glyph

Authors Yunxin Li, Yu Zhao, Baotian Hu, Qingcai Chen, Yang Xiang, Xiaolong Wang, Yuxin Ding, Lin Ma

以前的作品表明,汉字的雕文包含丰富的语义信息,有可能增强汉字的代表。利用字体特征的典型方法是将它们结合到字符嵌入空间中。灵感来自以前的方法,我们创新地提出了一个名为Glyphcrm的中国前训练的代表模型,该模型是基于顺序字符图像的基于ID的字符嵌入方法。我们将每个字符呈现为二进制灰度图像,并为其设计两个通道位置。正式,我们首先设计一个两层残差卷积神经网络,即挂钩生成汉字的初始字形表示,随后采用多个双向编码器变压器块作为上层结构以捕获上下文敏感信息。同时,通过跳过连接方法,我们通过跳过连接方法馈送从每个层中提取的字形特征到底层变压器块中,以充分利用汉字的字形特征。随着阳台模块可以获得足够的字形表示任何汉字,可以有效地解决了从词汇问题的长期。广泛的实验结果表明,凝面基本上优于9个精细调整任务的最先前的BERT基础状态,并且它对专业领域和低资源任务具有强大的可转换性和泛化。我们希望这项工作可能会引发进一步的研究,超越了中国文本良好代表的领域。

An Objective Evaluation Framework for Pathological Speech Synthesis

Authors Bence Mark Halpern, Julian Fritsch, Enno Hermann, Rob van Son, Odette Scharenborg, Mathew Magimai. Doss

缺乏标准化客观评估框架目前阻碍了病理语音系统的发展。在这项工作中,1我们利用现有的检测和分析技术提出了一般框架,以便为合成病理语音的一致评估。该框架评估语音质量和语音的可懂度方面,并显示使用我们的实验进行互补。 2使用我们提出的评估框架,我们使用Cyclegan VC和基于PSOLA的语音修改技术开发和测试Dysartric Voice转换系统VC。我们表明,发达的系统能够用不同级别的语音可懂度综合发育性言论。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

继续阅读