Daily 推出 Smart Turn v2：语义级 VAD、更快推理、覆盖 13 种新语言¶

Daily 宣布开源语音轮次检测模型 Smart Turn 的重大更新版本 v2。新版本在三方面显著升级：推理速度更快、模型更小、更易部署；并在多语言能力上一次性新增 13 种语言，使语音智能体的“何时开口/停口”判断更自然、更可靠。

语义级 VAD：不仅听音量，还“听懂”语义与语气（停顿、语调、口头语）来判断一句话是否说完。
体积更小、速度更快：模型约 360MB（v1 为 2.3GB），在 NVIDIA L40S 上单次推理约 12ms，适配低延迟语音代理。
多语言直达：在英文基础上新增 法、德、西、葡、中、日、印地语、意、韩、荷、波、俄、土 等 13 种语言评测数据与支持。
完全开源：权重、训练脚本、数据集均可获取，并与 Pipecat 生态深度集成。

从“是否有人说话”到“是否说完话”¶

传统 VAD 更关注“是否在说话”，而 Smart Turn v2 关注“是否说完”。它直接以原始音频为输入，结合口头语（如“um”“hmm”）与语调变化来推断轮次结束，避免 AI 打断用户、或出现尴尬的双声并发，让对话更像人与人的交流。

关键指标与亮点¶

模型体积：≈ 360MB（较 v1 小 6 倍以上），利于边缘侧或本地部署。
速度：L40S ≈ 12.5ms；A100 ≈ 19.1ms；L4 ≈ 30.8ms；T4 ≈ 74.5ms；高性能 CPU 也可运行（数百 ms 量级）。
准确率：在英文 human_5_all 未见数据上约 99%；多语言合成数据评测中，大多数语言在 92%–97% 区间，普通话约 87.2%（后续计划通过清洗数据持续提升）。

tip：如果业务侧重中文语音，建议结合实采人声做少量校准与评测，以获得更稳健的实用精度。

架构演进：更小但更准¶

团队在 v1 尝试了 wav2vec2-BERT，但在 v2 的训练中发现其在未见数据上不如更轻的 wav2vec2 + 线性分类器 稳定，疑因更大模型更易过拟合。最终 v2 选择了后者，在体积、速度与泛化之间取得了更好的平衡。

数据与方法：大规模合成 + 精细清洗¶

合成为主，人声补充：以 TTS（Google Chirp3） 生成多语种样本，专门构造“口头语结尾”“语调未止”等未完句型；同时也开放征集人声样本用于评测与训练。
自动清洗：用 LLM（Gemini 2.5 Flash 等）对多语文本句子做语法/标点/体裁判别，弃用 50–80% 质量不佳样本；清洗曾帮助英文集从 95% 提升到 99% 准确率。
数据开放：训练用数据集已在 Hugging Face 开放获取。

如何集成到你的语音智能体¶

三种常见路径：

Pipecat（本地/托管）
本地：使用 LocalSmartTurnAnalyzerV2（自 v0.0.77 起）。
托管：通过 Fal 的 Smart Turn v2 端点，FalSmartTurnAnalyzer 开箱即用（Pipecat Cloud 用户可直接使用）。([Pipecat][5], [Pipecat Cloud][6])
直接本地推理（源码集成） 从仓库获取 model.py 与 inference.py，按示例调用 predict_endpoint()。([GitHub][7])
Fal 托管 API（最快上手）示例（以音频 URL 为输入）：

curl -X POST https://fal.run/fal-ai/smart-turn \
  -H "Authorization: Key $FAL_KEY" \
  -H "Content-Type: application/json" \
  -d '{ "audio_url": "https://your.cdn/audio.mp3" }'

API 文档见 Fal 模型页。

权重获取：模型权重与卡片已发布在 Hugging Face；源码与训练/推理脚本在 GitHub。

对产品与研发的意义¶

更自然的多人会话：在智能客服、语音助手、会议 AI 等场景减少“抢话/打断”，提升人机对话顺滑度。
可在边缘侧落地：模型体积与时延双优化，利于放到移动端/本地服务器。
多语言可扩展：一次部署服务全球用户，结合自家语料微调与评测，快速补齐长尾语言。
工程链路顺畅：Pipecat 生态 + Fal 托管 + 开源数据/代码，让迭代与上线更快。

风险与建议¶

中文准确率仍有提升空间：建议引入 真实用户语料 做增量训练或评测；对关键业务加上多信号冗余（如传统 VAD + 语音/文本信号融合）以稳态运行。
数据质量关键：持续清洗与人工验证能显著提升效果，官方也在号召社区共同完善。

https://github.com/pipecat-ai/smart-turn

Josh Whiton 的实验案例：

Five neural nets, achieving completely local voice AI, no internet, on an M1 with only 16GB ram.

https://x.com/joshwhiton/status/1957534570540356046

Neural-based voice activity detection and turn detection means it's interruptible, but never interrupts me, and is able to sit idle and waiting. It's been flawless so far.

12B parameters is definitely smart enough for some very cool use-cases (will share more later).

Computers that can "think" feel strangely alive compared to dumb or networked hardware.

Fast? No. But crazy that it works at all on such a modest machine.

The stack:

Silero VAD voice activity detection
Whisper Large v3 turbo
Smart Turn v2 by @trydaily
Kokoro_tts
Gemma_3_12B_it_QAT_Q4 rock-solid on @lmstudio
vision easily removed thx to gguf @ggerganov
@pipecat_ai integration by @kwindla