苹果智能语音助手(SIRI)系统与人机分析

苹果智能语音助手(SIRI系统与人机分析

人工智能简介

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。201712月,人工智能入选“2017年度中国媒体十大流行语”。

事实上,人工智能的概念很宽,种类也很多。通常,按照水平高低,人工智能可以分成三大类:弱人工智能、强人工智能和超人工智能。

1弱人工智能

首先,弱人工智能(ArtificialNarrow Intelligence/ANI),只专注于完成某个特定的任务,例如语音识别、图像识别和翻译,是擅长于单个方面的人工智能。它们只是用于解决特定的具体类的任务问题而存在,大都是统计数据,以此从中归纳出模型。由于弱人工智能智能处理较为单一的问题,且发展程度并没有达到模拟人脑思维的程度,所以弱人工智能仍然属于“工具”的范畴,与传统的“产品”在本质上并无区别。

包括近年来出现的IBMWatson和谷歌的AlphaGo,它们是优秀的信息处理者,但都属于受到技术的限制的“弱人工智能”。比如,能战胜象棋世界冠军的人工智能AlphaGo,它只会下象棋,如果问它怎样更好地在硬盘上储存数据,它就无法回答。使用弱人工智能技术制造出的智能机器,看起来像是智能的,但是并不真正拥有智能,也不会有自主意识。

2强人工智能

强人工智能(Artificial GeneralIntelligence/AGI),属于人类级别的人工智能,在各方面都能和人类比肩,人类能干的脑力活它都能胜任。它能够进行思考、计划、解决问题、抽象思维、理解复杂理念、快速学习和从经验中学习等操作,并且和人类一样得心应手。“强人工智能”系统包括了学习、语言、认知、推理、创造和计划,目标是使人工智能在非监督学习的情况下处理前所未见的细节,并同时与人类开展交互式学习。在强人工智能阶段,由于已经可以比肩人类,同时也具备了具有“人格”的基本条件,机器可以像人类一样独立思考和决策。

创造强人工智能比创造弱人工智能难得多,我们现在还做不到。但在一些科幻影片中可以窥见一斑。比如,《人工智能》中的小男孩大卫,以及《机械姬》里面的艾娃。

3超人工智能

超人工智能(Artificial Superintelligence/ASI)牛津哲学家、知名人工智能思想家Nick Bostrom把超级智能定义为“在几乎所有领域都比最聪明的人类大脑都聪明很多,包括科学创新、通识和社交技能”。在超人工智能阶段,人工智能已经跨过“奇点”,其计算和思维能力已经远超人脑。此时的人工智能已经不是人类可以理解和想象。人工智能将打破人脑受到的维度限制,其所观察和思考的内容,人脑已经无法理解,人工智能将形成一个新的社会。

《复仇者联盟》中的奥创、《神盾特工局》中的黑化后的艾达,或许可以理解为超人工智能。

现在,人类已经掌握了弱人工智能,它的每一步都是在向强人工智能迈进。而超人工智能超出了人类现有的认知范围,甚至引发了人类“永生”或“灭绝”的哲学思考。人工智能革命是从弱人工智能,通过强人工智能,最终到达超人工智能的旅途。不管这个旅途有多长,不管人类的意愿如何,不可否认,这一革命已经以不可逆之势蓬勃开始了!

二、SIRI简介

Siri是苹果公司在其产品iPhone4SiPad 3及以上版本手机和Mac上应用的一项智能语音控制功能。Siri可以令iPhone4S及以上手机(iPad 3以上平板)变身为一台智能化机器人,利用Siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。SIRI Speech Interpretation & Recognition Interface 的首字母缩写,原义为语音识别接口。Siri可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用,还能够不断学习新的声音和语调,提供对话式的应答。

Siri成立于2007年,2010年被苹果以2亿美金收购,最初是以文字聊天服务为主,随后通过与全球最大的语音识别厂商Nuance合作,Siri实现了语音识别功能。Siri 技术来源于美国国防部高级研究规划局所公布的 CALO 计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri 虚拟个人助理。使用者可以通过声控、文字输入的方式,来搜寻餐厅、电影院等生活信息,同时也可以直接收看各项相关评论,甚至是直接订位、订票;另外其适地性(location based)服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。其功能主要体现在如下十一个方面:

1Siri 变身闹钟

按住“Home”键,告诉Siri,“早上715的时候叫醒我”;想打会儿小盹,就说“40分钟后叫醒我”。只要准确地报上时间,Siri将是最好用的闹钟。

2 Siri 寻找咖啡厅

喝咖啡是很多上班族的习惯,一杯咖啡能够迅速地将人调整成工作状态。出门在外的时候,想找个咖啡厅?利用Siri就可以搞定这一切。告诉 Siri,寻找离当前位置最近的咖啡厅即可。如果你没有附加更多的要求,Siri将反馈给还算不错的答案,很可能是告诉你最近的星巴克在哪。

3想去哪,Siri 告诉你

报上要去的地点,Siri会调用 Google 地图来寻找出行路线的方案。从测试过的这种用法的用户的反馈上看,Siri还没有出过什么差错,就像GPS那样好使。2016914日,苹果iOS 10正式版问世,易到是目前iOS10中首个支持Siri语音叫车的软件。Siri可以直接启动易到,并帮用户完成订车。

4 Siri 播放随机音乐

如果你厌倦了固定顺序的音乐播放列表,可以试着用Siri播放随机音乐。首先,你需要将喜欢的音乐导入到一个名为“最爱”的播放列表中。开始听音乐的时候,告诉Siri”放皇后乐队的歌曲”。紧接着,Siri就会在“最爱”列表中匹配皇后乐队的歌曲并将其播放。这样就实现了随机播放音乐的功能。

5发送短信,Siri 代劳

走路的时候,将iPhone放在耳边,告诉Siri“用短信告诉她,我将晚点到家”。不用匆忙,告诉Siri你想表达的内容,即可轻轻松松地发送短信。

6天气预报,Siri 知道

这也是Siri十分擅长的一项功能。关于气象信息的问题,Siri都能正确理解。想要知道明天的天气怎样,问问Siri就知道了。

7Siri提醒日程安排

很多人都有使用Google日历的习惯,用Google日历安排自己的各项日程。生活中的一些需要提醒的小事,完全没有必要一项项地加到Google日历中去,用Siri就可以搞定这个问题。比如说,“十点钟的时候,提醒我去刷牙”。

8 Siri 提醒地点

Siri 提醒地点的功能还不是很完善。除了“家”或“上班处”,Siri 对于一些位置称呼的理解能力不佳。但是,Siri 对“这里”的理解十分准确,即当前的GPS坐标位置。所以你可以这样用 Siri 的提醒功能,途经一家不错的小店时,可以将它的位置标记为“这里”并设置好提醒,以便日后有时间时再次光顾。

9Siri 为你答疑解惑

Siri它会从“知识问答引擎”Wolfram Alpha中寻找答案,所有的回答都会以自然语言的形式呈现。这也是 Siri 被认为将对 Google 重要威胁的原因。

10 Siri 发送微博(支持新浪微博、腾讯微博)

不过在使用 Siri 发微博前,还得做一些必要的设置。

11 Siri来订电影票。(美国)

三、SIRI系统分析

系统分析(Systems analysis)这个词是美国兰德公司在本世纪40年代末首先提出的。最早是应用于武器技术装备研究,后来转向国防装备体制与经济领域。随着科学技术的发展,适用范围逐渐扩大,包括制订政策、组织体制、物流及信息流等方面的分析。

1Siri系统目标分析

Siri 是一项“智能个人助理技术”,它可以帮你预约、给你导航,执行各种不同的任务,比如发送信息等。Siri解决了苹果新一代iPhoneiPad的主要问题:虽然玻璃屏幕和多点触控能够代替鼠标、键盘进行桌面导航,但在数据输入上并不理想。而通过语音输入单词或句子,比起用手指一次次戳屏幕来输入单词,方便快捷得多。但其实,第一代Siri只加入了这支团队最初设计功能的一小部分,Siri团队希望将重点放在一个叫做”注意力管理“的功能上,他们认为虚拟个人助手还应该帮助人们在”外部存储器“上纪录主人的”待办事项“。原始Siri中还包含了一个精心设计的”个人记忆“功能,他能够把一整套任务按照正确顺序整合好,然后像一个秘书一样督促用户完成每一步。

Siri的变化不只是iPhone系统甚至苹果本身的进化史。它们标志着个人计算的重大变化,如同从DOS转向鼠标,从鼠标转向触控屏如今,计算机交互正在发生新的演变:我们正奔向语音控制。苹果有Siri,谷歌有Google Now,亚马逊有Alexa是因为到Siri登陆Mac之时,它将完成对苹果旗下硬件产品线的全面覆盖,包括电脑、智能手机、南京工业平板电脑销售可穿戴设备和Apple TV机顶盒。那可是傲人的“兵器库”。

简单化操作系统正是Siri的发展方向。考虑到苹果最近宣布将Siri平台开放给第三方应用,更是如此。随着更多的应用兼容Siri,它们将能够摆脱屏幕的限制。不用点击或触控文件、程序和应用了,开口说出你的需求,你的电脑、智能手机、平板电脑、智能家居设备或者汽车就会马上作出响应。苹果接下来需要做的就是,搞清楚Siri的各个“化身”之间该如何相互沟通,从而在各个设备终端给用户带来无缝连贯的体验。虽然这一点目前还没实现,但很显然,那是Siri及其它语音助手的发展方向

2.Siri系统要素分析

Siri的系统要素主要包括三个方面:搜索技术、知识库技术和问答推荐技术。

搜索技术:这个技术的代表是WolframAlpha不同于搜索互联网信息,WolframAlpha将从公众的(包括公开的网页等)和获得授权的资源中,发掘、建立起一个异常庞大的经过组织的数据库,再利用高级的自然语言算法进行处理,最终构造出一个类似于谷歌搜索的工具。

知识库技术:相比于网页搜索技术,基本以一个词条或者主题为单位,因此得到的数据价值高,知识量大,并且结构化程度好。相比于知识计算技术,这些技术需要人的参与,这有利也有弊,利就是,毕竟暂时人比机器聪明,编辑出来的知识更丰富,准确;弊就是,人力有限,即使像维基那样,发动社区的力量,也不能产生足够的知识,而知识计算,理论上,只需要算法够,是可以产生“无限”的知识的。

问答推荐技术:其实这不能称为一个技术,应该属于知识库的技术。不同的是,这个技术针对的是一些生活信息,这些信息的地域化程度很高,典型代表为Yelp

3Siri系统环境分析

Siri目前运行的环境,只是在苹果公司旗下的产品,包括iPhone4SiPad 3及以上的手机版本Mac。其所依赖的后台技术是真正的大角色,这些技术的目的就是处理用户的请求,并返回最匹配的结果,这些请求类型很多,千奇百怪,要处理好并不简单。基本的结构猜测可能是分析用户的输入(已经通过语音转化),根据输入类型,分别采用合适的技术(合适的技术后台)进行处理。这些合适的后台技术包括,①以Google 为代表的网页搜索技术;②以Wolfram Alpha为代表的知识搜索技术(或者知识计算技术);③以Wikipedia 为代表的知识库(和 Wolfram Alpha 不同的是,这些知识来自人类的手工编辑)技术(包括其他百科,如电影百科等);④以Yelp 为代表的问答以及推荐技术。

4.Siri系统资源分析

Siri是一个功能繁复的综合AI框架,Siri资源主要分为资源类和计算类两大类。其中属于资源类的包括:领域模型、词汇表数据库、短期记忆系统、长期记忆系统领域本体数据库对话流模型服务模型服务能力模型外部服务计算类资源包括语音识别系统语言模式识别器语言解释器对话流控制器任务控制器服务集成模块语音生成系统。借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

5Siri系统管理分析

Siri的管理主要是通过前端技术和后台技术进行管理借助深度学习、大数据以及云计算使其更加智能、所呈现给用户的答案更加符合用户的心理。Siri的管理也依赖于苹果公司的系统,也就是其所运行的环境,当苹果公司对手机、MAC等旗下产品进行系统更新时也会对Siri进行管理更新,使其更加适应时代发展的需要,使得客户获得更好的体验。

SIRI人机分析

Siri作为服务型的智能软件,其好坏主要体现在人机交互方面,只有好的人机交互才能换来用户良好的体验与反馈。

-机交互中的“机”不仅代表着各式各样的机器,而且还代表着人所在的物理系统,包括各种机器设备、计算机、办公设备、学习工具等等。人-机交互设计包括两个方面的而设计,如图1所示。

1 人机交互示意图

1、机器与人的交互

机器与人的交互主要是让人如何了解机器的真实情况。传统的内容包括机器上的各种显示仪器的设计,现代的内容包括计算机显示器的设计。日常生活中的电视屏幕、教材的纸张和排版、高速公路上的路标信号等等,都可以看做广义的机器与人的交互。

2、人与机器的交互

人与机器交互是指人操控机器。传统的内容包括机器上的各种操作手柄、脚踏板的设计,现代的内容包括算计机键盘、鼠标的设计,甚至包括汉子输入中编码的设计也可以看做人因工程的内容,因为它影响人输入汉字时的效率。家庭生活中用到的剪刀、钢笔、筷子等,都可以看做人因工程的内容。

像和朋友讲话一样对Siri说话,它就能帮助你完成发送信息或拔打电话这样的事。你可以让Siri给你介绍一下猎户座,也可以在自己不知道如何选择的时候让它抛个硬币。Siri无需你手动工作即可工作,因此你可以在开车时让它告诉你最佳回家路线和预计到达时间。它能与HomeKit配合,让你用声音就能遥控家里联网的家居用品。不仅如此,Siri还十分了解周边的世界,它可以通过与许多第三方在线服务配合来为你提供更多答案。使用Siri的次数越多,就越会发现它有多帮,可以为我们做很多事。

3、人机交互体验

Siri可以以更明智的方式,搞定每件事。如今,Siri可以搜索给为广泛的主题,从而带来更全面的回答。在中国,它会使用百度百科的数据,为你带来更完善的搜索体验。另外,IOS 9在其他许多方面都更加智能,甚至会在你提问之前,就能提出实用的建议。

很少有人,会像Siri那样去了解你。Siri可以学习你说话的方式,而不用你费力去适应它。因为Siri采用Apple开发的机器学习技术,所以你只要自然地讲话就行。无论你是说“把我明天的会议从两点调到三点”,还是“把我周四下午两点的会议改到下午三点”,Siri都能听清听懂。Siri还能和你爱用的App对口合作,你可以让Siri来设置提醒事项,在你的日历上安排行程,还可以叫Siri帮你用滴滴出行打车。

Siri还可以帮我们做很多事情,Siri的强大的功能可以帮我们处理很多我们不方便处理的事情:

1开车。嘿,siri。打电话给***、嘿,siri。我要去****(不要有锁屏密码)

2、睡觉前。嘿,siri。我明天要6:43分起床。

3、起床时。嘿,siri。今天天气怎么样?

4、找不到手机时。嘿,siri。现在几点?

5、工作时。嘿,siri。提醒我下午2点我有个会。

6、无聊时。嘿,siri。给我唱首歌。

等等……

总的来说Siri给用户带来的体验很棒,在信息技术快速发现的时代,相信Siri会有更好的发展,会带给用户意想不到的体验

五、总结

人工智能的发展将是一条很艰难的路科学家们早已没有了上个世纪的盲目乐观而理性地分析在最近10年内,人工智能不会对我们的生活有太多的影响,而只是现有技术的更大规模应用或是现有技术在新领域的应用。科技在改变我们人类生活的最初阶段,首先是改变人们思想,使它变得更加容易接受,就像机械已经被人接受了一样。

人工智能的发展在当今不会威胁到人类,而且在可预见的未来也不会超越人类智能,当然更不足以令人们感到焦虑。电影所展示的场景只不过是人类智能非凡的创造罢了。而且这些科幻创造和文艺作品在很大程度上也激发了科学家对研究人工智能的灵感,促进了人工智能打发展。技术发展的目的是要造福人类,我们有理由相信人工智能的发展能够好的服务人类社会。

《苹果智能语音助手(SIRI)系统与人机分析.doc》
将本文的Word文档下载,方便收藏和打印
推荐:
下载文档
热门推荐
相关推荐