《中国人工智能学会通讯》——1.22 如何评价智能问答系统

2021-11-10 15:06:36

长期以来，人工智能界乃至计算机界梦寐以求，希望让计算机拥有人类的智能，能够像人类一样进行高度自主的认知、学习、推理。这一梦想推动了过去五六十年来人工智能研究和开发的巨大进步。

如何验证计算机已经具有了“人类”的智能？图灵在 1950 年写了一篇论文《计算机器与智能》，提出了如下的判断原则：测试者在与被试（包括人和机器）隔开的情况下，通过键盘等装置向被试随意提问。经过一段时间，如果测试者不能确认所收到的答复来自人还是机器，那么这台机器就通过了测试，并被认为具有人类智能。类似地，美国认知心理学家 G. M.Ulson 认为，判别计算机理解自然语言的四个标准是问答系统、文摘、复述和机器翻译。计算机只要达到以上标准之一，就认为它理解了自然语言。总而言之，问答是衡量人工智能水平的重要手段，问答系统的性能反映了人工智能系统的水平，因此问答技术的研究开发对于人工智能的发展有重要意义。

另一方面，人们自然而然就能想到，如何衡量智能问答的技术水平？哪些测试指标常用来评价问答系统？如今的智能回答能达到怎样的技术水准？接下来，本文将主要从评测和答题两个角度，对智能问答的评价方法加以介绍。需要说明的是，由于篇幅有限，本文所介绍的评价方法和评测手段将既不覆盖聊天机器人、语音助手和社区问答等系统，也不考虑问答的答题策略、人机交互和情感需求，而是聚焦于问题求解能力，要求对于给定的问题，不管来自开放域还是限定域，都能够直接给出问题的准确答案。

《中国人工智能学会通讯》——1.22 如何评价智能问答系统

继续阅读

小i机器人受邀赴韩交流，CFO首尔亚洲金融论坛演讲

吴恩达deeplearning

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

吴恩达机器学习笔记（3）

吴恩达j机器学习之过拟合

吴恩达机器学习(一) 介绍

深度学习模型分析人类复杂疾病的准确性

疾病研究：重症肌无力

人工智能如何有效地运用于自然语言处理

新闻 | Mapbox 牵手阿里，飞猪旅行上线六大城市地图功能

[HTML5]自定义属性 data-* 和 jQuery.data 详解

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

无人机--飞控科普