Header Place holder

全球估计有 3900 万人失明,预计到 2050 年,这一数字将增加两倍。

根据中国残联官网的数据,目前仅持残疾人证的盲人已经超过 1300 万,每年还以 45 万人失明的速度累加着,平均每 100 人就有 1 个盲人。随着 AI(人工智能)技术逐渐走入我们的生活,微软 AI 在致力于释放常人潜能、为人们提供更智能便利服务的同时,也在不断践行着公益项目,期望为残障人士构建一个无障碍的世界。

技术予力,Ignite 再现炫酷科技

2018 年 12 月,微软率先在全球范围内推出端到端的深度神经网络语音合成服务(Neural Voice),使计算机和智能设备拥有了媲美真人的人工智能声音。2019 年 11 月,在美国奥兰多召开的全球 Ignite 大会上,微软更进一步推出了基于深度神经网络语音合成技术的声音定制服务 Custom Neural Voice 的有限预览。通过这个服务,微软的合作伙伴和客户可以用极少量的声音样本定制出各式各样的高度仿真的人工智能声音。


这项服务可以将制作一个高品质声音所需要的训练数据规模降低到十分之一甚至更低,同时输出的声音效果更加自然逼真。多项评估表明,该技术合成的声音与真人说话的录音几无差异,可大幅降低用户与智能设备和应用程序进行语音交互时容易产生的听觉疲劳,帮助客户与最终用户建立独特的声音情感连接。为了负责任地推广对 AI 语音技术的使用,在服务预览期间,微软仅选择有限的合作伙伴审慎进行声音的定制开发。

以 AI 之名,想把世界「读」给你听

作为一家非营利性的民间公益组织,自2003 年 7 月成立以来,红丹丹视障文化服务中心致力于使用音频为有视觉障碍的人们提供可访问的产品服务,期望通过有声读物等辅助手段,改善视障人士的精神生活。从 2006 年至今,红丹丹与微软的合作不断深入。为了让更多的视障人士享受到高质量的有声读物,2014 年,微软语音团队帮助红丹丹在他们的 Azure 订阅上搭建了一个云端有声读书馆——心目图书馆,旨在为盲人朋友提供便捷的有声图书借阅服务,丰富他们的文化生活,助力他们(特别是年轻盲人)的学习和发展。目前该图书馆已经覆盖全国 105 所盲校,越来越多的盲童通过图书借阅,收获了一个个缤纷多彩的童年。


2019 年,红丹丹开始借助微软人工智能语音技术——尤其是微软中文女声“晓晓”来自动合成有声读物,极大地提高了有声内容的生产效率。通过微软最新的深度神经网络声音定制服务,红丹丹更是用盲人播音员董丽娜老师的语音数据作为原型,定制了一个发音标准、情感饱满、同时为盲人朋友们所熟悉的人工智能声音。这些声音可以快速地将红丹丹的电子书转换成更贴合人声、饱含温度的有声读物,从而大大改善视障人士有声读物匮乏且读物声音机械、空洞的阅读环境,帮助视障人士更好地感知世界。


红丹丹视障服务中心执行主任曾鑫女士表示:“我们很惊喜微软公司的人工智能技术可以用丽娜老师的录音快速地复制出非常自然的、神似她本人的声音。现在我们可以高效地用这个人工智能声音来为视障人士生产有声学习内容。通过这个声音定制服务,全国 105 所盲校的孩子们都可以听到用丽娜老师的声音朗读的书籍。在这个合作过程中,微软对丽娜老师和她的声音极其负责任的态度也给我们留下了深刻的印象。”

初心不泯,爱与责任同行

定制神经语音技术的出现,为残障人士的生活提供了诸多便利,除有声书内容生产外,深度神经网络声音定制服务,还可以广泛应用在智能助理、客服机器人、教育陪伴机器人、视频配音等多种场景,从而增强用户互动的真实感。

然而,在选择AI神经语音定制服务时,安全性是不可忽略的重要因素。由于定制语音的具有高度逼真的特性,这项新技术也可能被别有用心的不法分子滥用,引发虚假信息传播的风险。


为了控制技术遭到不当使用的风险,微软秉持负责任的人工智能伦理原则,对该项技术采用选择性预览的方式以限制定制声音的使用场景,已经制订并正在执行相应的服务申请和审核机制,以期保护社会公众权益、促进人工智能人机交互透明性。

未来微软还将继续应用自身先进的技术,持续更新智能技术,如自定义命令、自定义语音识别和语音容器等,不断将高级的语言功能嵌入应用程序中,让AI成为文字与声音间的坚固桥梁,为视障人士建立更繁茂美好的文化家园!

所用技术和服务