RealtimeSTT是一款简单易用、低延迟的实时语音转文本库,旨在提供高性能、易集成的解决方案。该库支持实时流式处理、句子分割,并具备模块化引擎设计,允许使用不同的文本转语音引擎。提供了多种文本转语音引擎,包括CoquiEngine、AzureEngine、ElevenlabsEngine和SystemEngine。
主要特性:
- 实时流式处理:在生成或输入文本时合成和播放语音。
- 句子分割:采用先进的句子边界检测,确保快速合成的片段分隔,以实现即时反应时间。
- 模块化引擎设计:支持多种引擎,包括系统 TTS、Azure 和 Elevenlabs,并支持自定义文本转语音引擎。
- 支持的引擎:CoquiEngine、AzureEngine、ElevenlabsEngine、SystemEngine。
- 高效的句子边界检测:使用 NLTK 句子分词器进行精确高效的句子分割。
安装:
pip install RealtimeSTT
示例:
<code>from RealtimeTTS import TextToAudioStream, SystemEngine, AzureEngine, ElevenlabsEngine</code><code><br></code><code>engine = SystemEngine() <em># 替换为你的TTS引擎 </em></code><code>stream = TextToAudioStream(engine)</code><code>stream.feed("Hello world! How are you today?")<em>#提交文本</em></code><code>stream.play_async()<em>#异步回放</em></code><code>stream.pause()<em>#暂停音频流</em></code><code>stream.resume()<em>#恢复暂停的流</em></code><code>stream.stop()<em>#立即停止直播</em></code>
测试库:
simple_test.py
:演示库的最简单用法。complex_test.py
:全面的演示,展示库提供的大多数功能。coqui_test.py
:本地 Coqui TTS 引擎测试。translator.py
:实时翻译成六种不同的语言。openai_voice_interface.py
:OpenAI API 的唤醒词激活和基于语音的用户界面。advanced_talk.py
:在开始 AI 对话之前选择 TTS 引擎和语音。minimalistic_talkbot.py
:一个 20 行代码的基本谈话机器人。simple_llm_test.py
:演示如何将库与大型语言模型(LLM)集成。test_callbacks.py
:展示回调,并允许您检查实际应用程序环境中的延迟时间。
依赖项安装:
<code>pip install openai keyboard realtimestt</code>
RealtimeSTT 提供了一系列丰富的功能和示例,适用于开发先进的语音解决方案。
© 版权声明
THE END
暂无评论内容