产品白皮书

(一) 语音能力

  该章节介绍了当前AI电视助手可对外开放的多种语音能力,以及每种语音能力的应用场景。合作伙伴可以根据业务需要,组合使用各种语音能力。

1. 语音识别

1) 产品介绍


  语音识别(简称ASR)是一种将人的语音转换为文本的技术。讯飞AI电视助手可将声音转成文字信息(即语音识别文本)提供给合作伙伴,合伙伙伴接收语音识别文本后,根据自有业务场景需要,进行产品设计。

2) 产品优势


实用标准的高准确率:讯飞多年深耕语音识别核心技术,目前语音识别效果已达实用标准。

支持多种语种和方言:支持中文、英文两个语种的识别,同时,我们还提供粤语和四川话等方言的识别。

个性的语音识别:基于用户语音特征,建立个性化的词条语言模型,调整识别参数,持续优化识别效果,提高用户的个性化词条识别准确率。

3) 应用场景


  1) 合作伙伴接收语音识别文本用于自有垂直业务领域语义理解,如美团外卖APP接收语音识别文本后利用自有外卖语义理解用户的点外卖需求,为用户提供语音外卖服务;电视淘宝APP接收语音识别文本后利用自有购物语义理解用户的购物需求,为用户提供语音购物服务。
  2) 合伙伙伴接收语音识别文本后用于文本匹配,检测用户有没有正确读出要求内容。如看图猜成语(一款中文游戏闯关类教育轻应用)获取语音识别文本后校验用户是否正确读出成语信息,并给到用户反馈,鼓励其继续闯关。

2. 语音合成

1. 产品介绍


  语音合成(简称TTS)是将文字信息转化为声音信息,给应用配上“嘴巴”。我们提供了众多极具特色的发音人(音库)供选择,其合成音在音色、自然度等方面的表现均接近甚至超过了人声。

2. 产品优势

  讯飞先进的语音技术、简单的语音接口、稳定的语音服务、给力的技术支持,实现快速构建语音应用。
  文本转换为流畅、清晰、自然和具有表现力的语音数据,高质量合成音频的自然度和清晰度已经超过了普通人的朗读水平。

3. 应用场景


适用于产品中各种业务场景的回复播报,包含不限于以下场景示例:

  1) 日期查询:用户问“春节是哪一天”,回复内容播报“春节是2020年1月25日” 。
  2) 音乐搜索:用户说“我想听刘德华的歌”,在展示搜索结果的同时,回复内容播报“好的,一起来听刘德华的好音乐”。
  3) 购物搜索:用户说“我想买矿泉水”,在展示商品的同时,回复内容播报“如您吩咐,您要的矿泉水都在这里了,您想买第几个”引导用户进行下一步操作。

3. 语义理解

1) 产品介绍


  语义理解(也称为自然语言理解, 简称NLP)指将一句自然语言转化为计算机可读的结构化数据。

2) 产品优势


  依托于机器学习和讯飞多年积累海量数据,官方提供120+深度定制技能。

product

3) 应用场景

  适用于没有语义理解能力又想提供技能服务的合作伙伴,在提供语义理解能力的同时还能提供对应的信源,包含不限于以下场景示例:

  • 音乐搜索:用户说“我想听刘德华的歌”,AI电视助手将语义结果“歌手=刘德华”发给音乐CP,音乐CP接收语义结果后可按照“歌手=刘德华”搜索音乐并给用户播放。
  • 影视搜索:用户说“我想看电视剧都挺好”,AI电视助手将语义结果“电视剧=都挺好”发给影视CP,影视CP接收语义结果后可按照“电视剧=都挺好”搜索节目并给用户播放。
  • 嘟嘟学堂【一款语音交互式学习APP】:接入了天气、计算器、日期、假期、诗词对答、翻译等多种语义,当用户进入嘟嘟学堂APP后,可以为用户提供查天气、计算、查日期、查假期等服务。例如用户说“白日依山尽”嘟嘟回答“黄河入海流”。用户说“苹果用英文怎么说”嘟嘟回答“APPLE”。
    当前不支持自定义语义理解能力,如果有自定义语义理解需求,请提供语料给AI电视助手,AI电视助手训练好之后再上线、开放。

4. 中英文评测

1) 产品介绍


  通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析,支持中文和英文评测,支持对单词、句子和段落的标准和流畅度进行评分,并将评测结果提供给合作伙伴。

2) 产品优势


  科大讯飞语音评测技术是通过国家语委鉴定并达到实用水平的成果,自动评分效果已经达到甚至超过人工专家的打分水平。
  科大讯飞语音评测技术在国家普通话等级考试、英语四六级考试中的成功运用,彰显了科大讯飞智能语音核心技术和市场优势地位。

3) 应用场景


  适用于语言考试、辅助教学、寓教于乐等类教育场景,包含不限于以下场景示例:

  • 语言考试:合作伙伴接入评测能力后,可评测用户中文普通话发音水平、评测英文发音水平,给到用户发音水平“优秀、合格、不及格”等级反馈信息。
  • 寓教于乐:合作伙伴接入评测能力后,可模拟孩子学习场景,以趣味的闯关形式,采用学练结合的方式,让小朋友进入字母/词汇/段落跟读环节,根据提示跟读。

(二) 交互能力

1. 对话反馈


语音交互产品天然具备对话式交互体验属性,在语音交互过程中对于用户需求而言,产品需要给到对话回应,iFLYHOME OS平台提供了对话反馈接口,合作伙伴可调用此接口将需要回应给用户的对话展示在语音交互界面。
例如,用户进入美团外卖应用内,下达语音指令“我想买飞机票”,此时美团外卖应用可直接给到用户对话反馈“当前尚未提供机票业务,不如试试点个外卖吧”。

2. 自定义语音交互界面

如果合作伙伴出于业务需要,在应用内需要展示跟自有业务视觉调性相一致的语音交互页面,iFLYHOME OS可开放语音交互事件(包含录音开始、录音结束、识别结束等),合作伙伴根据语音交互事件信息,屏蔽掉AI电视助手语音交互主页面,调用显示自定义语音交互界面。

(三) 所见即可说

1. 产品介绍

所见即可说指的是电视助手在应用的不同界面状态下,电视助手能根据当前界面的状态,说同样的内容会执行不同功能。也可以理解为简单版的语义理解能力开放。 详情见 所见即可说

2. 应用场景

1) 页面跳转

  • 如当在影视列表界面内,用户通过说一个具体的影片名,来选中当前界面上的影片。
  • 如在电视桌面,当用户说一个具体的导航栏名称,则进入对应的导航栏。

2) 播放控制:在播放页面可以实现暂停、继续播放、快进、快退等播放控制功能,例如说“暂停/暂停播放”。
3) 选集播放:可以实现选集/选期播放等功能,例如说“第一集”、“第五集”、“第三期”可以播放相应的集数/期数节目。
4) 退出APP:可以实现退出APP功能,例如用户说“退出QQ音乐”可以实现退出QQ音乐APP的。

(四) 应用领域

以上多种开放语音能力,合作伙伴也可以根据自有业务场景需要组合申请,包含不限于以下场景示例:
1) 语音识别+语音合成:中文词汇跟读场景中,检测用户是否正确读出词汇,并给到用户正确与否的语音反馈。
2) 语义理解+语音合成:音乐搜索、影视搜索、天气查询等技能,理解用户查询需求之后,为用户语音播报音乐搜索、影视搜索、天气查询等结果信息。
3) 中英文评测+语音合成:英文发音评测场景中,检测用户发音水平是否及格,并给到用户水平的语音反馈。
4) 语音识别+语义理解+语音合成:嘟嘟学堂APP既能在中文词汇跟读场景中检测用户是否正确读出词汇,给到用户跟读结果,还能给用户提供天气、计算、诗词等服务。
5) 语音识别+中英文评测+语音合成:嘟嘟学堂APP既能在中文词汇跟读场景中检测用户是否正确读出词汇,还能评测用户的英文发音水平,并给到用户跟读结果、评测结果的语音反馈。

(五) 应用类型

运行在Android平台的应用具体的呈现方式大致分为两类:

  • Android 原生应用
  • 基于Android浏览器(Web)展示的Web应用。
    其中按照承载方式细分为以下两种:
    1. iFLYHOME OS应用内的Web页面,指Web页面以iFLYHOME OS应用为承载框架。
    2. iFLYHOME OS应用外的Web页面,指第三方应用自行选择或者实现加载Web页面的框架,独立于iFLYHOME OS应用

results matching ""

    No results matching ""