实时语音转文本库 RealtimeSTT:低延迟、易使用

RealtimeSTT是一款简单易用、低延迟的实时语音转文本库,旨在提供高性能、易集成的解决方案。该库支持实时流式处理、句子分割,并具备模块化引擎设计,允许使用不同的文本转语音引擎。提供了多种文本转语音引擎,包括CoquiEngine、AzureEngine、ElevenlabsEngine和SystemEngine。

图片[1]-实时语音转文本库 RealtimeSTT:低延迟、易使用-山海云端论坛

主要特性:

  • 实时流式处理:在生成或输入文本时合成和播放语音。
  • 句子分割:采用先进的句子边界检测,确保快速合成的片段分隔,以实现即时反应时间。
  • 模块化引擎设计:支持多种引擎,包括系统 TTS、Azure 和 Elevenlabs,并支持自定义文本转语音引擎。
  • 支持的引擎:CoquiEngine、AzureEngine、ElevenlabsEngine、SystemEngine。
  • 高效的句子边界检测:使用 NLTK 句子分词器进行精确高效的句子分割。

安装

pip install RealtimeSTT

示例:

<code>from RealtimeTTS import TextToAudioStream, SystemEngine, AzureEngine, ElevenlabsEngine</code><code><br></code><code>engine = SystemEngine() <em># 替换为你的TTS引擎 </em></code><code>stream = TextToAudioStream(engine)</code><code>stream.feed("Hello world! How are you today?")<em>#提交文本</em></code><code>stream.play_async()<em>#异步回放</em></code><code>stream.pause()<em>#暂停音频流</em></code><code>stream.resume()<em>#恢复暂停的流</em></code><code>stream.stop()<em>#立即停止直播</em></code>

测试库:

  • simple_test.py:演示库的最简单用法。
  • complex_test.py:全面的演示,展示库提供的大多数功能。
  • coqui_test.py:本地 Coqui TTS 引擎测试。
  • translator.py:实时翻译成六种不同的语言。
  • openai_voice_interface.py:OpenAI API 的唤醒词激活和基于语音的用户界面。
  • advanced_talk.py:在开始 AI 对话之前选择 TTS 引擎和语音。
  • minimalistic_talkbot.py:一个 20 行代码的基本谈话机器人。
  • simple_llm_test.py:演示如何将库与大型语言模型(LLM)集成。
  • test_callbacks.py:展示回调,并允许您检查实际应用程序环境中的延迟时间。

依赖项安装:

<code>pip install openai keyboard realtimestt</code>

RealtimeSTT 提供了一系列丰富的功能和示例,适用于开发先进的语音解决方案。

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容