npm 包 microsoft-speech-browser-sdk 使用教程

阅读时长 5 分钟读完

介绍

Microsoft Speech SDK 是微软的语音识别和文本到语音 (TTS) 解决方案。该 SDK 可以用于在浏览器中使用语音技术。在浏览器中使用 Speech SDK,可通过 npm 包 microsoft-speech-browser-sdk 来完成。本文将详细介绍 npm 包 microsoft-speech-browser-sdk 的安装和使用。

准备工作

注册 Azure 订阅

要使用 Speech SDK,你需要一个 Azure 订阅。如果你还没有 Azure 订阅,请在以下网站注册:https://azure.microsoft.com/free/

创建 Azure 资源

在 Azure 订阅中,需要创建一个 Cognitive Services 资源。该资源用于访问 Speech SDK 的 API。可按照以下步骤创建 Cognitive Services 资源:

  1. 登录 Azure 门户 (https://portal.azure.com/),选择“创建资源”。
  2. 在“创建资源”页中,选择“AI + Machine Learning”,然后选择“Cognitive Services”。
  3. 在“Cognitive Services”页中,选择“语音服务”。
  4. 在“语音服务”页中,输入名称和相关信息。
  5. 选择“定价”和“资源组”。然后创建资源。
  6. 在资源创建完毕后,可在资源概述页面中获取相关信息。

获取 Endpoint 和 Key

创建 Cognitive Services 资源后,需要获取 Endpoint 和 Key。以下是获取 Endpoint 和 Key 的步骤:

  1. 进入 Cognitive Services 资源概述页面。
  2. 在“资源管理”中,选择“Keys and Endpoint”。
  3. 在“Keys and Endpoint”页面中,复制“Key1”;然后点击“Show Endpoint”,复制“Endpoint”。这些信息稍后要用作 Speech SDK 的输入。

安装 npm 包

要使用 Speech SDK,需要在项目中安装 npm 包 microsoft-speech-browser-sdk。以下是安装 npm 包的步骤:

  1. 打开命令行界面。
  2. 输入以下命令,安装 npm 包:

使用 Speech SDK

引入 SDK

要使用 Speech SDK,在项目中引入 SDK。以下是引入 SDK 的代码示例:

设置 SpeechConfig

在使用 Speech SDK 时,需要创建 SpeechConfig 对象。该对象用于设置语音识别目标语言、Endpoint 和 Key 等。以下是设置 SpeechConfig 的代码示例:

创建 SpeechRecognizer

设置 SpeechConfig 后,需要创建 SpeechRecognizer 对象。该对象用于处理语音输入和语音识别。以下是创建 SpeechRecognizer 的代码示例:

输入语音

创建 SpeechRecognizer 对象后,需要通过浏览器输入语音。可以通过麦克风或音频文件输入语音。以下是输入语音的代码示例:

使用麦克风输入语音

可以使用浏览器的 WebRTC 访问麦克风。以下是使用麦克风输入语音的代码示例:

使用音频文件输入语音

可以使用 FileReader API(https://developer.mozilla.org/en-US/docs/Web/API/FileReader)访问本地音频文件。以下是使用 FileReader API 输入语音的代码示例:

处理输出

SpeechRecognizer 对象接收语音之后,将执行识别操作。识别完成后,将触发回调函数,返回识别结果。以下是处理输出的代码示例:

结论

本文介绍了 npm 包 microsoft-speech-browser-sdk 的安装和使用。通过上述步骤,可以轻松地在浏览器中使用语音技术。Speech SDK 是目前市面上较为成熟、兼容性较好的语音解决方案之一,对于前端程序员来说具有很高的学习和应用价值。

来源:JavaScript中文网 ,转载请注明来源 https://www.javascriptcn.com/post/600572cb81e8991b448e8f9c

纠错
反馈