转载

微软牛津计划——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)

微软在机器学习与自然语言处理方面积累了大量的资料,同时近1年来,也逐步开放了大量的在线资源。例如在我博客前几个月介绍的Infer.NET项目就是其中1个项目。今天给大家介绍的是 “微软牛津计划”.

1.微软牛津计划介绍

微软牛津计划 (网址: https://cn.projectoxford.ai/# ) 提供了一组基于Rest架构的API和SDK工具包,帮助开发者轻轻松松使用微软的自然数据理解能力为自己的解决方案增加智能服务。利用微软牛津计划构建你自己的解决方案,支持任意语言及任意开发平台。主要提供了4个自然语言处理方面的核心问题解决方案:

1)人脸识别:微软最先进的人脸算法,以云平台为基础,检测和识别图片中的人脸。为您的移动应用和桌面应用提供人脸算法的技术支持。

2)语音识别:Speech API为开发者提供最先进的语音处理算法。通过这些API,开发者可以轻松地为自己的应用添加语音操作功能。在一定条件下,这些API还可以实现与用户之间的实时交互。

3)计算机视觉:Computer Vision APIs为开发者提供最顶尖的图像处理算法。通过这些API你可以获得基于图像视觉内容的各种信息并生成理想的缩略图。

4)语言理解智能服务:语言理解智能服务(LUIS)用快速有效的方式帮助开发者在应用中增加语言理解能力。通过LUIS你可以使用已经构建好的世界顶级模型。如果你有专门的需求,LUIS也可以指导你快速创建自己的模型。

SDK下载地址: https://cn.projectoxford.ai/sdk

上面是基本介绍,每一个应用微软都提供了SDK工具包,包括文档和例子演示呢。其应用场景有:

微软牛津计划——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)

微软牛津计划——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)

微软牛津计划——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)

下面稍微介绍一些每个功能的一些细节把。需要详细了解和应用的,去官网查看资料,有中文版官网。

2.人脸识别(Face APIs)介绍

人脸识别特指利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术。人脸识别是一项热门的计算机技术研究领域,可以将人脸明暗侦测,自动调整动态曝光补偿,人脸追踪侦测,自动调整影像放大;它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

微软的Face APIs提供了人脸识别领域主要的应用场景,如:

1)人脸检测:检测图片中的人脸,以方框标记脸部位置,识别包括人脸特征点、姿势、性别、年龄等在内的人脸属性。Face API 提供高精度的人脸定位检测,在一张图片里,最多可以检测到64张人脸。 进行人脸检测,只需上传一整张JPEG图片,或提供网页JPEG图片对应的URL即可。检测到的人脸会被标记上方框(左侧、顶部、宽度和高度),用像素点标明脸部在图片中的位置。 根据需要,人脸检测还可以从每张人脸上提取诸如姿势、性别、年龄等一系列与脸部有关的属性。如下图所以的例子:

微软牛津计划——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)

通常来讲,人脸识别就是从被测的许多人脸中自动辨识或验证某一个人的功能。 Face API 提供4种识别功能:人脸验证、相似人脸搜索、人脸自动分组和身份确认。 现在人脸识别已广泛用于安全系统、名人识别和相片标签等应用。

2)人脸验证:核对两张人脸是否属于同一个人,并给出置信度评分。

3)相似人脸搜索:从多张人脸中找出一些与所查人脸相似的人脸。

4)人脸分组:基于脸部相似程度,将多张人脸划分成不同的组。

5)人脸辨识:查询某张人脸,看其与用户提供的人脸数据中的何人相匹配。

这里有适用与C#的Face API入门教程: https://cn.projectoxford.ai/doc/face/Get-Started/csharp

人脸检测演示网址: https://cn.projectoxford.ai/demo/face#detection

人脸验证演示网址: https://cn.projectoxford.ai/demo/face#verification

3.语音识别(Speech APIs)介绍

二十年前,微软为 Windows 95 的用户发布了首个 Speech API (SAPI 1.0)。 如今,微软带来一个新的公开 Speech API (Beta),通过 Azure, 基于云计算平台,并成为 牛津计划 的一部分。牛津计划是为开发者提供 Speech 和 Vision API 的云平台,支持广泛的多通道智能服务和应用程序,尤其是针对使用 语音转换文本 和 文本转换语音 这两种功能。 此外, LUIS (语言理解智能服务) 也提供给开发者访问最先进的语言理解能力。 根据牛津计划,Windows Speech API 更新后也适用于 Windows 10。 两者结合后, 牛津计划 和 Windows 10 将形成一个完整并且全面的平台,为具有任意背景的开发者提供和支持广泛的语音场景和应用程序。微软的Speech APIs提供了完整语音识别,语意识别和语音合成功能。

1)语音识别:语音转换文本 该 API 可以直接打开并识别来自麦克风的实时语音,或者是其他来源的实时语音以及从文件内获取的音频。 在任何情况下,都可以通过实时流将语音传送到服务器,服务器再将部分识别结果传送回来。

2)语音意图识别:将语音转换为意图 该功能与语音转换为文本相似。区别在于语音意图识别功能除了可以从语音输入返回识别的文字,服务器还可以返回关于语音输入的结构化信息, 这样应用程序便可以轻松地解析说话者的意图, 以驱动下一步操作。 用于意图识别的训练模型是由牛津计划 LUIS 服务提供的。

3)语音合成:将文本转换成语音。 当应用程序需要对用户 “说话“时,此API可以将该应用程序产生的文本转换为语音,然后播放给用户。

语音与文本转换演示: https://cn.projectoxford.ai/demo/speech#recognition

语音识别 API 入门: https://cn.projectoxford.ai/doc/speech/Get-Started/csharp

4.计算机视觉(Computer Vision APIs)介绍

计算机视觉是一门研究如何使机器”看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。Computer Vision APIs为开发者提供最顶尖的图像处理算法。通过这些API你可以获得基于图像视觉内容的各种信息并生成理想的缩略图。主要应用方面有:

1)图像分析:本模块将基于所输入图像的视觉内容分析出图像的视觉特征——图像类别,色情检测,主色调等等。使用adult和racy特征属性可以自动限制色情内容,保护你的用户。使用图像的类别检测,可以为图像添加标签,进而把图像分成不同群组。如下面的特征分析例子:

微软牛津计划——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)

2)生成缩略图:对于输入的图像,生成高品质和高存储效率的缩略图。缩略图功能可以用最适合你需求的方式呈现图像。通过智能裁剪,获得与图片原始比例不同的缩略图,同时保留你想要的视觉区域。

3)光学字符识别:光学字符识别(OCR)可以在图像中检测文本,并把识别的文字提取到一个可供机器使用的字符流中。对嵌入的图像识别出文字并可供搜索。用户可以直接拍摄文本的图片,无需手动转录文字,从而节省时间和精力。

4)想要一个端到端的图片内容监测解决方案吗?监测图片内容,基于场景定制的内容监控服务集合了牛津计划API和其他相关技术,可以对违规/违法图像主动发出警报。创建和维护自定义图像和文本黑名单,并可自动报警。模糊匹配可以检测到你已经列入黑名单的内容。

5)检测儿童剥削:使用PhotoDNA云服务 自动检测和报告儿童剥削图像的分布。当有非法图片上传到你的平台时,区分并标记这些非法图片。

该服务在图片被修改的情况下仍可进行识别。

视觉分析演示网址: https://cn.projectoxford.ai/demo/visions#Analysis

视觉分析APIs文档: https://cn.projectoxford.ai/doc/vision/visual-features

5.语言理解智能服务(LUIS)介绍

语言理解智能服务(LUIS)用快速有效的方式帮助开发者在应用中增加语言理解能力。通过LUIS你可以使用已经构建好的世界顶级模型。如果你有专门的需求,LUIS也可以指导你快速创建自己的模型。微软提供的APIs有以下功能特点:

1)创建语言理解模型:为你的应用创建模型以更好的理解意图,比如“把灯打开”或“开始新的跑步/步行/徒步旅行/骑自行车”这样的实体。 你可以通过深入的性能可视化调整你的模型。

2)使用来自Bing和Cortana的预构建的世界顶级模型:通过预构建的世界顶级模型来识别实体,譬如地点、时间、数字、温度;或处理常见的请求,譬如“设置上午八点的闹钟”。用Cortana的理解模型快速添加个人助理功能。

3)将你的模型部署到HTTP终端:仅需一步即可将你的模型部署到HTTP终端。LIUS会为你返回容易使用的JSON。

4)在任意设备上激活模型:只要有网络连接,你可以从任意终端激活你的语言理解模型,不管它是手机、平板电脑或其他设备。

5)轻松维护模型:审查输入到你的应用中的命令从而发现和改正错误。

该服务还不完善,并没有完全开放,持续关注中吧。

6.资源

资源直接访问官方网址即可,SDK页面: https://cn.projectoxford.ai/sdk 提供了所有服务的不同类型的 SDK,包括案例,文档等资料。

人工智能、以及自然语言处理相关的技术会越来越成熟,相关的应用也会越来越多,多了解点,赶上下一波互联网热潮,看看怎么样,微软的技术真心不错,相比国内那些企鹅,百毒的开放平台,真的是屌爆了。。。。

正文到此结束
Loading...