人工智能人机交互（人工智能发展概况↘）

人机交互技术

1 人机交互概念

人机交互(Human-Computer Interaction，HCI)，是人与计算机之间为完成某项任务所进行的信息交换过程，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户的可见部分，用户通过人机交互界面与系统交流，并进行操作。人机交互技术是计算机用户界面设计中的重要内容之一，与认知学、人机工程学、心理学等学科领域有密切的联系。

目前关于人机交互的定义主要有三种:

一是ACM(Association for Computing Machinery)的观点，它将人机交互定义为:有关交互计算机系统设计、评估、实现以及与之相关现象的学科;

二是伯明翰大学教授 AlanDix 的观点:他认为人机交互是研究人、计算机以及他们之间相互作用方式的学科，学习人机交互的目的是使计算机技术更好地」为人类服务;

三是宾夕法尼亚州立大学 JohnM.Carroll 的观点:他认为人机交互指的是有关可用性的学习和实践，是关于理解和构建用户乐于使用的软件和技术，并能在使用时发现产品有效性的学科。

无论是哪一种定义方式，人机交互所关注的首要问题都是人与计算机之●间的关系问题。

人◤机交互技术的发展与国民经济发展有着直接的联系，它是使信息技术融入社会，深入群体，达到广泛应用的技术门槛。任何一种新交互技术的诞生，都会带来其新的应用人群，新的应用领域，带来巨大的社会经济效益，从企业的角度，改善人机交互能够提高员工的生产效率;学习人机交互能够降低产品的后续支持成本。从个人的角度，可以帮助用户有效地降低错误发生的概率，避免由于错误引发的损失。在现代和々未来的社会里，只要有人利用通信、计算机等信息处理技术进□行社会活动时，人机交互都是永恒的主题，鉴于它对科技发展的重要性，人机交互是现代信息技术、人工智能技术研究的热门方向。

2 人机交互发展历史

人机交互的发展历史，是从人适应计算机到计算机不断地适应人的发展史。交互的信息也由精确的输入输出信◥息变成非精确的输入①输出信息。

2.1 简单人机交互

由于受到制造技术和成本等原因限制，早期的人机交互在设计上较少考虑人的因素，强调输入输出信息的精确性，使用不够自然和高效。

? 早期的手工作业

这个时期交互的特点是由设计者(或本部门同事)来使用计算机，他们采用♀手工操作和依赖机器(二进制机器代码)的方法去适应计算机。

? 作业控制语言及交互命令语言

这一阶段特点是计算机◥的主要使用者—程序员可采用◣批处理作业语言或交互命令语言的方式和计算机打交道，虽然要记忆许多命令和熟练地敲键盘，但已可用较方便的手段来调试程序、了解计算机执行情况。

命令行界面概念模型

? 图形用户界面(GUI)

图形用户界面的主要特点是桌面隐喻、WIMP(Window / Icon / Menu / Pointing Device)技术、直接操纵和“所见即≡所得(WYSIWYG)”。由于 GUI 简明易学、减少了敲键盘、实现了“事实上↓的标准化”。因而使不懂计算机的普通用户也可以熟练地使用，开拓了用户↘人群。它的出现使信息产业得到空前的发展。

? 网络用户界面

以超文本标记语言 HTML 及超文本传输协议 HTTP 为主要基础的网络浏览器是网络用户界面的代表。由它形成的万维〖网(World Wide Web, WWW)已经成为当今 Internet 的支柱。这类人机交互技术的特点是发展快，新的技术不断出现，如搜索引擎、网络加速、多媒》体动画、聊天工具等『。

2.2 自然人机交互

随着网络的普及性发展和无线通讯技术的发展，人机交互领域面临着巨大的挑战和机遇，传统的图形界面交互已经产生了本质的变化，人们的需求不再局限于界面美学形式的创新，用户更多的希望在使用多媒体终端时，有着更便捷、更符合他们使用习惯，同时又有着比较美观⌒　的操作界面。利用人的多种感觉通道和动作通道(如语音、手写、姿势、视线、表情等输入)，以并行、非精确的方式与(可见或不可见的)计算机环境进行交互，使人们从传统的交互方式的束缚解脱出来，使人们进入自然和谐的人机交互时期。这一时期的主要研究内容包括: 多通道交互、情感计算、自然语言理解、虚拟现实、智能用户界☆面等方面。

? 多通道交互

多通道交互(Multi Modal Interaction，MMI)是近年来迅速发展的一种人机交互技术，它既适▼应了“以人为中心”的自然交互准则，也推动了互联网时代信息产业(包括移动计算、移动通信、网络服务器等)的快速发展。

命令行界面概念模型

MMI 是指“使用多种通道与计算机通信的人机交互方式。通道(modality) 涵盖了用户♂表达意图、执行动作或感知反馈信息的各种通信方法，如言语、眼神、脸部表情、唇动、手动、手势、头动、肢体姿势、触觉、嗅觉〗或味觉等”。采用这种方式的计算机用户界面称为“多通道用户界面”。目前，人类最长使用的多通道交互技术包括手写识别、笔式交互、语音识别、语音合成、数字墨水、视线跟踪技术、触觉通道的力反馈装置、生物特征识别技术和人脸表情识别技术等方面。

? 情感人机交互

让计算机具有情感能力首先是♂由美国 MIT 大学 Minsky 教授(人工智能创始人之一)提出的。他在 1985 年的专著“The Society of Mind”中指出，问题不在于智能机器能否有任何情感，而在于机器实现智能时怎么能够没有情感。从此，赋予计算机情感能力并让计算机能够理解◥和表达情感的研究、探讨引起了计算机界许多人士的兴趣。这方面的工作首推美国 MIT 媒体实验室 Picard 教授领导研究小组的工作。情感计算一词也首先由 Picard 教授于 1997 年出版的专著 “Affective Computing(情感计算)”中提出并给出了定义，即情感计算是关于情感、情感产↘生以及影响情感方面的计算。

MIT 对情感计算进行全方位ぷ研究，正在开发研究情感机器人，最终有可能人机融合。其媒体实验室与 HP 公司合作进行情感计算的研究。IBM 公司的“蓝眼计划”，可使计算机知道人想干什么，如当人的眼瞄向电视时，它竟然知道人想打开电视机，它便发出指令打开电视机。此外该公司还研究了情感鼠标，可根据手部的血压及温度等传感器感知用户】的情感。CMU 主要研究可穿戴计算机。日本在对感性信息处理的研究中，有众「多研究单位参与，主要集中在研究所和高校。特别值得一提的∩是，日本欧姆龙公司研制生产的机器玩具曾风行一时，最高价达 4000 美元。随后其它公司也进行机器狗等玩具的生产。情感计算的研究不仅具有重要的科学和学术价值，也存在着巨大的商机，有很好的经济效益。

? 虚拟现实

虚拟现实(Virtual Reality，VR)是以计算机技术为核心，结合相关科学技术，生成与一定范围◤真实环境在视、听、触感等方面高度近似的数字化环境，用户借助必要的装备与数字化环境中的对象进行交互作用、相互影响，可以产生亲临对应真实环境的感受和体验。虚拟现实是人类在探索自然、认识自然过程中创造产生，逐步形成的一种用于认识自然、模拟自然，进而更好地适应和利用自然的科学方法和科学技术。

虚拟■现实技术具有很强的应用性。军事方面，将 VR 技术应用于军事演练，带来军事演练观念和方式的变革，推动了军事演练的发展。如美国的 SIMNET、 ACTDSTOW、WARSIM2000 和虚拟之旗 2006 等一系列分布◣式虚拟战场环境。医学方面，VR 技术已初步应用于虚拟手术训练、远程会诊、手术规划及导航、远程协作手术等方面，某些应用已成为医疗过程不可替代的重要手段和环节。工业领域方面，VR 技术多用于产品论证、设计、装配、人机工效和性能评价等。代表性应用，如模拟训练、虚拟样机技术等已受到许多工业部门的重视。教育文化领域方面，VR 已经成为数字博物馆/科学馆、大型活动开闭幕式彩排仿真、沉浸式互动游戏等应用系统的核心支撑技术。纽约大都会博物馆、大英博物馆、俄罗斯冬宫博物馆和法国卢浮宫等都建立了自己的数字博物馆。

VR 参观卢浮宫概念图

? 智能用户界□　面

智能用户界面(Intelligent User Interface，IUI)是致力于改善人机交互的高效率、有效性和自然性的人机界面。它通过表达、推理，按照用户模△型、领域模型、任务模型、谈话模型和媒体模型来实现人机交互。智能用户界面主要使用人工智能技术去实现人机通信，提高了人机交互的可用性:如知识表示技术支持基于模型的用户界面生成，规划识别和生成支持用户界面的对话管理，而语言、手势和图像理解支持多通道输入的分析，用户建模则实现了对自适应交互的支持等。当然，智能用户界面也离不开认●知心理学、人机工程学的支持。

智能体、代理(Agents)在智能技术中的重要性已“不言而喻”了。Agent 是一个能够感知外界环境并具有自主行︾为能力的以实现其设计目标的自治系统。智能的 Agent 系统可以根据用户的喜好和需要配置具有个性化特点的应用程序。基于此技术，我们可以实现自适应用户系统、用户建模和自适应脑界面。自适应系统方面，如帮助用¤户获得信息，推荐产品，界面自适应，支持协同，接管例行工作，为用户裁剪信息，提供帮助，支持学习和＠管理引导对话等。用户建模方面，目前机器学习是主要的用户建模方法，如神经网络、Bayesian 学习以及在推荐系统中常使用协同过滤算法实现对个体用户的推荐。自适应脑界面方面，如神经分类器通过分析用户的脑电波识别出用户想要执行什么任务(该任务既可以是运动相关的任务如移动手臂，也可以是认◥知活动如做算术题)。

? 自然语言人界交互

在“计算机文化”到来的社会里，语言已不仅是人与人之间的交际工具，而且是人机对话的基础，是最自然的一种人机交互方式。自然语言处理(Natural Language Processing, NLP)是使用自然语言同计算机进行通讯的技术，因为处理自然语言的关键是要让计算机“理解”自然语言，所以自然语言处理又叫做自然语▓言理解(Natural Language Understanding, NLU)。

近年来自然语言理解技术在搜索技术方面得到了广泛的应用，现在，已经有越来越多的搜索引擎宣布支持自然语言搜索特性，自◥然语言人机交互界面在智能短信服务、情报检索、人机对话等方面也具有广阔的发展前景和极高的应用价值，并有一些阶段性成果出现在商业运用中。

3 人才概况

? 全球人才分布

学者地图用于描述特定领域学者的分布情况，对于进行学者调查、分析各地区竞争力现况尤为重要，下图为人机交互领域全球学者分布情况:

人机交互技术全球学者分布

地图根据学者当前就职≡机构地理位置进行绘制，其中颜色越深表示学者越集中。从该地图可以看出，美国的人才数量优势明显且主要分布在其东西海岸;欧洲也有较多的人才分布;亚洲的人才主要集中在日韩地区;其他诸如非洲、南美洲等地区的学者非常稀少;人机交互领域的人才分布与各地区的科技、经济实力情况㊣大体一致。

此外，在性别比例方面，人机交互领域中男性学者占比 84.6%，女性学者占比 15.4%，男性学者占比远高于女性学者。

人机交互领域》学者的 h-index 分布如下图所示，大部分学者的 h-index 分布在中低区域，其中 h-index 在 20-30 区间的人数最多，有 842 人，占比 42.1%， 50-60 区间的人数最少，有 136 人。

人机交互技术学者 h-index 分布

? 中国人才分布

我国专家学者在人机交互领域的分布如下图所示。通过下№图我们可以发现，京津地区在本领域的人才数量最多，其次是长三角和珠三角地区，相比之下，内陆地区的人才较为匮乏，这种分布与区位因素和经济水平情况不无关系。同时，通过观察中国周边国家的学者数量情况，特别是与日韩等地相比，中国在人机交互领域学者数量较少。

人机交互技术中国学者分布

中国与╳其他国家在人机交互领域的合作情况可以根据 AMiner 数据平台分析得到，通过统计论文中作者的单位信息，将作者映射到各〖个国家中，进而统计ξ中国与各国之间合作论文的数量，并按照合作论文发表数量从高到低进行了排序，如下表所示。

人机交互领域中国与各国合作论文情况

从上表数据可以看出，中美合作的论文数、引用数、学者数遥遥领先，表明中美间在人机交互领域合作之密切;此外，中国与欧洲的合作非常广泛，前 10 名合作关系里中欧合作共占 5 席;中国与美国♂，中国与法国合作的论文平均引用数都达到了最高，说明在合作质∑　量上中美、中法合作达到了较高的水平。

4 人机交互进展

最近的十年，是人机交互向自然交互蓬勃发展的十年。毋庸置疑，计算机是世纪最伟大的发明，其作用从科学计算工具迅速发展为信息处理和信★息交互工具，起引领作用的则是人机交互技术的变革，即以鼠标发明为标志的图形用户界面 (GraphicalUserInterface,GUI)的产生，一改规范命令与计算机交互的命令行界面模式(Command Line Interface，CLI)，GUI 提供了普通人与计算机便捷交互的工具和方『法，让计算机从实验室走进办公室、走入家庭，十多年前，触屏技术成为产品技术，GUI 中的鼠标被人的天然指点(pointing)工具——手指所取代，计算机又变身出手机，成为更多人方便使用的随身掌上工具。更少依赖操控工具，发展学习和使用成本更小的自然交互技术，一直是人机交互研究的价值追求，最近十年，随着感知和计算〓技术的进步，自然交互技术创新层出不穷，并能迅速成为新型产品技术，《麻省理工科技评论》总结和评论人机交互领域的突破技术 (breakthroughs)，为人机交互技术、未来终端技术的发展建立了一个高端的技术论坛，影响深远。我把这些突破技术分为 3 大类:支持自然动作的感知技术，面向穿戴的新型终端和基于语音识别的对话交互。

人体∑动作蕴含丰富的语义，动作交互技术一方面需要感知技术的进步，另一方面需要发现或设计有明确交互语义的动作(gesture，姿态，由于人手∏的灵巧性，手势成为主要的交互动作，通常叫做手势)，如今，二维表面上，多指触摸动作在触屏上已普遍可用，三维空间中，嵌入了深度摄像头的手持和固定设备，能比较准确识别人的姿态和动作，做出响应。不同于人脸识别等目标明确的视觉识别任务，动作交互不仅要求视觉识别的准确度，更需要研究基于交互任务的动作表达的←自然性与一致性，难以发现和突破，所以，除了动作语义很直白的动作游戏 (body game)，三维动作交互尚缺少普遍认知和接受的交互动作语义。而无论二维还是三维，手势的不可见性，是动作交互的主要难题。

穿戴(wearable)取代手持(handheld)曾是前几年的一个革命口号，目前看，市场上的确出现了一定规模的新产品，但穿戴仍是补充的●地位。穿戴设备中，手环设备基本只有健康和活动检测功能，智能手表可以算做创新终端，但作为缩小版的手机，由于交互界面的缩小和操作方╲式的限制(通常是小界面上双手参与操作)，其承载功能也较手机缩减很多。VR/AR(虚拟现实/增强现实)的一个理想载体是头戴式设备，最近几年，多款智能眼镜产品面世，较之前笨重的头盔轻便了许多，逼真的虚拟场景和准确的现实对象识别信息都可以清晰呈现在眼前，并在特定领域开拓着增强体验的应用;然而，智能¤眼镜尚缺少与其三维真实显示匹配的准确的自然输〒入技术，以及从眼手绑定在手机上转变到眼手分离的眼镜设备上时，尚未建立起相应的交互模式。

自然语⌒　言对话式交互得益于大数据和智能技术的进步，多语言的自然语音识别技术在用户终端上都达到了很高的可用水平，并且，语音识别超越文本输入方式，成为智能软件助理的使能技术，近两年，更是有基于语音接口的家居产品如雨后春ξ　笋般出现，VU(I VoiceUserInterface，语音用户界面)已经成为交互术语。然而，VUI 的局限也是显而易■见的，相对并行模式的视觉通道，串行模式的语音卐通道的带宽显然窄的多，出声的使用方式在很多场合是不合适的，但作为一种可用的自然交互技术，有效提升了用户体验。

人机交互作为终端产品的引领技术的作用已经是产业界的普遍认识，欣喜看到很多种自然交互技术和新型交互终端面世，但 GUI 仍是交互的主导模式。计算无所不在，交互自然※高效是发展趋势，人机交互的研究和开发空间很大，需要综合地探索自然交互技术的科学原理，建立明确的优化目标，结合智能技术，发展高可用的自然交互技术。

扩展阅读：

人工只能发展概况：机器学习篇

人工智能发展概况：计算机视觉篇

人工智能发展概况：知识工程篇

人工智能发展概况：自然语言处理篇

人工智能发展概况：语卐音识别篇

视频：人工智能时代

资料来源：公开网络

本文标签：

上一篇：大产权房和小产权房指什么（一文看懂大产权房）
下一篇：张紫妍事件后续怎么样了（张紫妍事件内幕曝光）