综合

人工智能 人机交互(人工智能发展概况)

人机交互技术

1 人机交互概念

人机交互(Human-Computer Interaction,HCI),是人与计算机之间为完成某项任务所进行的信息交换过程,是一门研究系统与用户之间的交互关系的学问。 系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户的可见部分,用户通过人机交互界面与系统交流,并进行操作。人机交互技术是计算机用户界面设计中的重要内容之一,与认知学、人机工程学、心理学等学科领域有密切的联系。

目前关于人机交互的定义主要有三种:

一是ACM(Association for Computing Machinery)的观点,它将人机交互定义为:有关交互计算机系统设计、评估、实现以及与之相关现象的学科;

二是伯明翰大学教授 AlanDix 的观点:他认为人机交互是研究人、计算机以及他们之间相互作用方式的学科,学习人机交互的目的是使计算机技术更好地」为人类服务;

三是宾夕法尼亚州立大学 JohnM.Carroll 的观点:他认为人机交互指的是有关可用性的学习和实践,是关于理解和构建用户乐于使用的软件和技术,并能在使用时发现产品有效性的学科。

无论是哪一种定义方式,人机交互所关注的首要问题都是人与计算机之●间的关系问题。

人◤机交互技术的发展与国民经济发展有着直接的联系,它是使信息技术融入社会,深入群体,达到广泛应用的技术门槛。任何一种新交互技术的诞生,都会带来其新的应用人群,新的应用领域,带来巨大的社会经济效益,从企业的角度, 改善人机交互能够提高员工的生产效率;学习人机交互能够降低产品的后续支持成本。从个人的角度,可以帮助用户有效地降低错误发生的概率,避免由于错误引发的损失。在现代和々未来的社会里,只要有人利用通信、计算机等信息处理技术进□行社会活动时,人机交互都是永恒的主题,鉴于它对科技发展的重要性,人 机交互是现代信息技术、人工智能技术研究的热门方向。

2 人机交互发展历史

人机交互的发展历史,是从人适应计算机到计算机不断地适应人的发展史。 交互的信息也由精确的输入输出信◥息变成非精确的输入①输出信息。

2.1 简单人机交互

由于受到制造技术和成本等原因限制,早期的人机交互在设计上较少考虑人的因素,强调输入输出信息的精确性,使用不够自然和高效。

? 早期的手工作业

这个时期交互的特点是由设计者(或本部门同事)来使用计算机,他们采用♀手工操作和依赖机器(二进制机器代码)的方法去适应计算机。

? 作业控制语言及交互命令语言

这一阶段特点是计算机◥的主要使用者—程序员可采用◣批处理作业语言或交互命令语言的方式和计算机打交道,虽然要记忆许多命令和熟练地敲键盘,但已可用较方便的手段来调试程序、了解计算机执行情况。

命令行界面概念模型

? 图形用户界面(GUI)

图形用户界面的主要特点是桌面隐喻、WIMP(Window / Icon / Menu / Pointing Device)技术、直接操纵和“所见即≡所得(WYSIWYG)”。由于 GUI 简明易学、减少了敲键盘、实现了“事实上↓的标准化”。因而使不懂计算机的普 通用户也可以熟练地使用,开拓了用户↘人群。它的出现使信息产业得到空前的发 展。

? 网络用户界面

以超文本标记语言 HTML 及超文本传输协议 HTTP 为主要基础的网络浏览器是网络用户界面的代表。由它形成的万维〖网(World Wide Web, WWW)已经 成为当今 Internet 的支柱。这类人机交互技术的特点是发展快,新的技术不断出 现,如搜索引擎、网络加速、多媒》体动画、聊天工具等『。

2.2 自然人机交互

随着网络的普及性发展和无线通讯技术的发展,人机交互领域面临着巨大的挑战和机遇,传统的图形界面交互已经产生了本质的变化,人们的需求不再局限于界面美学形式的创新,用户更多的希望在使用多媒体终端时,有着更便捷、更符合他们使用习惯,同时又有着比较美观⌒ 的操作界面。利用人的多种感觉通道和 动作通道(如语音、手写、姿势、视线、表情等输入),以并行、非精确的方式与(可见或不可见的)计算机环境进行交互,使人们从传统的交互方式的束缚解脱出来,使人们进入自然和谐的人机交互时期。这一时期的主要研究内容包括: 多通道交互、情感计算、自然语言理解、虚拟现实、智能用户界☆面等方面。

? 多通道交互

多通道交互(Multi Modal Interaction,MMI)是近年来迅速发展的一种人机交互技术,它既适▼应了“以人为中心”的自然交互准则,也推动了互联网时代信息产业(包括移动计算、移动通信、网络服务器等)的快速发展。

命令行界面概念模型

MMI 是指“使用多种通道与计算机通信的人机交互方式。通道(modality) 涵盖了用户♂表达意图、执行动作或感知反馈信息的各种通信方法,如言语、眼神、 脸部表情、唇动、手动、手势、头动、肢体姿势、触觉、嗅觉〗或味觉等”。采用这种方式的计算机用户界面称为“多通道用户界面”。目前,人类最长使用的多通道交互技术包括手写识别、笔式交互、语音识别、语音合成、数字墨水、视线跟踪技术、触觉通道的力反馈装置、生物特征识别技术和人脸表情识别技术等方面。

? 情感人机交互

让计算机具有情感能力首先是♂由美国 MIT 大学 Minsky 教授(人工智能创始 人之一)提出的。他在 1985 年的专著“The Society of Mind”中指出,问题不在于智能机器能否有任何情感,而在于机器实现智能时怎么能够没有情感。从此, 赋予计算机情感能力并让计算机能够理解◥和表达情感的研究、探讨引起了计算机界许多人士的兴趣。这方面的工作首推美国 MIT 媒体实验室 Picard 教授领导研究小组的工作。情感计算一词也首先由 Picard 教授于 1997 年出版的专著 “Affective Computing(情感计算)”中提出并给出了定义,即情感计算是关于情感、情感产↘生以及影响情感方面的计算。

MIT 对情感计算进行全方位ぷ研究,正在开发研究情感机器人,最终有可能人机融合。其媒体实验室与 HP 公司合作进行情感计算的研究。IBM 公司的“蓝眼计划”,可使计算机知道人想干什么,如当人的眼瞄向电视时,它竟然知道人想打开电视机,它便发出指令打开电视机。此外该公司还研究了情感鼠标,可根据手部的血压及温度等传感器感知用户】的情感。CMU 主要研究可穿戴计算机。日本在对感性信息处理的研究中,有众「多研究单位参与,主要集中在研究所和高校。 特别值得一提的∩是,日本欧姆龙公司研制生产的机器玩具曾风行一时,最高价达 4000 美元。随后其它公司也进行机器狗等玩具的生产。情感计算的研究不仅具有重要的科学和学术价值,也存在着巨大的商机,有很好的经济效益。

? 虚拟现实

虚拟现实(Virtual Reality,VR)是以计算机技术为核心,结合相关科学技术,生成与一定范围◤真实环境在视、听、触感等方面高度近似的数字化环境,用户借助必要的装备与数字化环境中的对象进行交互作用、相互影响,可以产生亲临对应真实环境的感受和体验。虚拟现实是人类在探索自然、认识自然过程中创造产生,逐步形成的一种用于认识自然、模拟自然,进而更好地适应和利用自然的科学方法和科学技术。

虚拟■现实技术具有很强的应用性。军事方面,将 VR 技术应用于军事演练, 带来军事演练观念和方式的变革,推动了军事演练的发展。如美国的 SIMNET、 ACTDSTOW、WARSIM2000 和虚拟之旗 2006 等一系列分布◣式虚拟战场环境。 医学方面,VR 技术已初步应用于虚拟手术训练、远程会诊、手术规划及导航、 远程协作手术等方面,某些应用已成为医疗过程不可替代的重要手段和环节。工业领域方面,VR 技术多用于产品论证、设计、装配、人机工效和性能评价等。 代表性应用,如模拟训练、虚拟样机技术等已受到许多工业部门的重视。教育文化领域方面,VR 已经成为数字博物馆/科学馆、大型活动开闭幕式彩排仿真、沉浸式互动游戏等应用系统的核心支撑技术。纽约大都会博物馆、大英博物馆、俄罗斯冬宫博物馆和法国卢浮宫等都建立了自己的数字博物馆。

VR 参观卢浮宫概念图

? 智能用户界□ 面

智能用户界面(Intelligent User Interface,IUI)是致力于改善人机交互的高效率、有效性和自然性的人机界面。它通过表达、推理,按照用户模△型、领域模型、任务模型、谈话模型和媒体模型来实现人机交互。智能用户界面主要使用人工智能技术去实现人机通信,提高了人机交互的可用性:如知识表示技术支持基于模型的用户界面生成,规划识别和生成支持用户界面的对话管理,而语言、手势和图像理解支持多通道输入的分析,用户建模则实现了对自适应交互的支持等。当然,智能用户界面也离不开认●知心理学、人机工程学的支持。

智能体、代理(Agents)在智能技术中的重要性已“不言而喻”了。Agent 是一个能够感知外界环境并具有自主行︾为能力的以实现其设计目标的自治系统。智能的 Agent 系统可以根据用户的喜好和需要配置具有个性化特点的应用程序。基于此技术,我们可以实现自适应用户系统、用户建模和自适应脑界面。自适应系统方面,如帮助用¤户获得信息,推荐产品,界面自适应,支持协同,接管例行工作,为用户裁剪信息,提供帮助,支持学习和@管理引导对话等。用户建模方面, 目前机器学习是主要的用户建模方法,如神经网络、Bayesian 学习以及在推荐系 统中常使用协同过滤算法实现对个体用户的推荐。自适应脑界面方面,如神经分类器通过分析用户的脑电波识别出用户想要执行什么任务(该任务既可以是运动相关的任务如移动手臂,也可以是认◥知活动如做算术题)。

? 自然语言人界交互

在“计算机文化”到来的社会里,语言已不仅是人与人之间的交际工具,而且是人机对话的基础,是最自然的一种人机交互方式。自然语言处理(Natural Language Processing, NLP)是使用自然语言同计算机进行通讯的技术,因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语▓言理解(Natural Language Understanding, NLU)。

近年来自然语言理解技术在搜索技术方面得到了广泛的应用,现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性,自◥然语言人机交互界面在智能 短信服务、情报检索、人机对话等方面也具有广阔的发展前景和极高的应用价值, 并有一些阶段性成果出现在商业运用中。

3 人才概况

? 全球人才分布

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为人机交互领域全球学者分布情况:

人机交互技术全球学者分布

地图根据学者当前就职≡机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;欧洲也有较多的人才分布;亚洲的人才主要集中在日韩地区;其他诸如非洲、南美洲等地区的学者非常稀少;人机交互领域的人才分布与各地区的科技、经济实力情况㊣大体一致。

此外,在性别比例方面,人机交互领域中男性学者占比 84.6%,女性学者占比 15.4%,男性学者占比远高于女性学者。

人机交互领域》学者的 h-index 分布如下图所示,大部分学者的 h-index 分布 在中低区域,其中 h-index 在 20-30 区间的人数最多,有 842 人,占比 42.1%, 50-60 区间的人数最少,有 136 人。

人机交互技术学者 h-index 分布

? 中国人才分布

我国专家学者在人机交互领域的分布如下图所示。通过下№图我们可以发现, 京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时, 通过观察中国周边国家的学者数量情况,特别是与日韩等地相比,中国在人机交互领域学者数量较少。

人机交互技术中国学者分布

中国与╳其他国家在人机交互领域的合作情况可以根据 AMiner 数据平台分析得到,通过统计论文中作者的单位信息,将作者映射到各〖个国家中,进而统计ξ中国与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排序, 如下表所示。

人机交互领域中国与各国合作论文情况

从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在人机交互领域合作之密切;此外,中国与欧洲的合作非常广泛,前 10 名合作关系里中欧合作共占 5 席;中国与美国♂,中国与法国合作的论文平均引用数都达到了最高,说明在合作质∑ 量上中美、中法合作达到了较高的水平。

4 人机交互进展

最近的十年,是人机交互向自然交互蓬勃发展的十年。毋庸置疑,计算机是世纪最伟大的发明,其作用从科学计算工具迅速发展为信息处理和信★息交互工具, 起引领作用的则是人机交互技术的变革,即以鼠标发明为标志的图形用户界面 (GraphicalUserInterface,GUI)的产生,一改规范命令与计算机交互的命令行界 面模式(Command Line Interface,CLI),GUI 提供了普通人与计算机便捷交互的工具和方『法,让计算机从实验室走进办公室、走入家庭,十多年前,触屏技术成为产品技术,GUI 中的鼠标被人的天然指点(pointing)工具——手指所取代, 计算机又变身出手机,成为更多人方便使用的随身掌上工具。更少依赖操控工具, 发展学习和使用成本更小的自然交互技术,一直是人机交互研究的价值追求,最 近十年,随着感知和计算〓技术的进步,自然交互技术创新层出不穷,并能迅速成为新型产品技术,《麻省理工科技评论》总结和评论人机交互领域的突破技术 (breakthroughs),为人机交互技术、未来终端技术的发展建立了一个高端的技 术论坛,影响深远。我把这些突破技术分为 3 大类:支持自然动作的感知技术, 面向穿戴的新型终端和基于语音识别的对话交互。

人体∑动作蕴含丰富的语义,动作交互技术一方面需要感知技术的进步,另一方面需要发现或设计有明确交互语义的动作(gesture,姿态,由于人手∏的灵巧性, 手势成为主要的交互动作,通常叫做手势),如今,二维表面上,多指触摸动作在触屏上已普遍可用,三维空间中,嵌入了深度摄像头的手持和固定设备,能比 较准确识别人的姿态和动作,做出响应。不同于人脸识别等目标明确的视觉识别任务,动作交互不仅要求视觉识别的准确度,更需要研究基于交互任务的动作表达的←自然性与一致性,难以发现和突破,所以,除了动作语义很直白的动作游戏 (body game),三维动作交互尚缺少普遍认知和接受的交互动作语义。而无论二维还是三维,手势的不可见性,是动作交互的主要难题。

穿戴(wearable)取代手持(handheld)曾是前几年的一个革命口号,目前看, 市场上的确出现了一定规模的新产品,但穿戴仍是补充的●地位。穿戴设备中,手环设备基本只有健康和活动检测功能,智能手表可以算做创新终端,但作为缩小版的手机,由于交互界面的缩小和操作方╲式的限制(通常是小界面上双手参与操 作),其承载功能也较手机缩减很多。VR/AR(虚拟现实/增强现实)的一个理想载体是头戴式设备,最近几年,多款智能眼镜产品面世,较之前笨重的头盔轻便了许多,逼真的虚拟场景和准确的现实对象识别信息都可以清晰呈现在眼前, 并在特定领域开拓着增强体验的应用;然而,智能¤眼镜尚缺少与其三维真实显示匹配的准确的自然输〒入技术,以及从眼手绑定在手机上转变到眼手分离的眼镜设备上时,尚未建立起相应的交互模式。

自然语⌒ 言对话式交互得益于大数据和智能技术的进步,多语言的自然语音识别技术在用户终端上都达到了很高的可用水平,并且,语音识别超越文本输入方 式,成为智能软件助理的使能技术,近两年,更是有基于语音接口的家居产品如雨后春ξ 笋般出现,VU(I VoiceUserInterface,语音用户界面)已经成为交互术语。 然而,VUI 的局限也是显而易■见的,相对并行模式的视觉通道,串行模式的语音卐通道的带宽显然窄的多,出声的使用方式在很多场合是不合适的,但作为一种可用的自然交互技术,有效提升了用户体验。

人机交互作为终端产品的引领技术的作用已经是产业界的普遍认识,欣喜看到很多种自然交互技术和新型交互终端面世,但 GUI 仍是交互的主导模式。计算无所不在,交互自然※高效是发展趋势,人机交互的研究和开发空间很大,需要综合地探索自然交互技术的科学原理,建立明确的优化目标,结合智能技术,发展高可用的自然交互技术。

扩展阅读:

人工只能发展概况:机器学习篇

人工智能发展概况:计算机视觉篇

人工智能发展概况:知识工程篇

人工智能发展概况:自然语言处理篇

人工智能发展概况:语卐音识别篇

视频:人工智能时代

资料来源:公开网络

,