教程中心
AI Agent 从入门到实战:概念理解、MCP 使用、平台实操、工作流自动化
1252
教程总数
234
入门教程
42
实操教程
按主题浏览
Audio Content Moderation: Implementation Guide
Detecting inappropriate content in audio with AI
音频内容审核实现指南(2026):可靠模式是转写→审文本(OpenAI Moderations 或规则 LLM),再补声学情绪/说话人归因。含实时 vs 批量、人审兜底、决策日志、按原语言本地化策略。
Voice Activity Detection: Implementation Guide
Detecting and segmenting speech in audio streams
语音活动检测(VAD)实现指南(2026):在转写/语音 Agent 前判断哪段是语音,省钱降延迟、判断说话结束。Silero vs webrtcvad、真实代码、VAD→分段→ASR 管线与实时 end-of-turn 调参。
Audio Preprocessing Pipeline: Implementation Guide
Cleaning and preparing audio for AI processing
音频预处理管线实现指南(2026):重采样 16k 单声道→响度归一→裁静音→VAD 分段→按需降噪,librosa 真实代码。强调按下游模型匹配处理、不要过度降噪以免损害说话人/情绪特征。
Audio Sentiment Analysis: Implementation Guide
Detecting emotion and sentiment from voice recordings
音频情感分析实现指南(2026):结合"说了什么"(转写+LLM 情感)与"怎么说的"(声学韵律模型)两路信号。含 Whisper+LLM 代码、混合判别(识别反讽/口是心非)、多方通话按说话人归因。
Multilingual ASR System: Implementation Guide
Building multilingual speech recognition applications
多语言语音识别(ASR)系统实现指南(2026):Whisper 一模型转写/翻译数十种语言。含托管 vs 自托管(faster-whisper)抉择、VAD 分段/语言提示/术语表/分块等准确率手段与完整管线。
Speaker Diarization: Implementation Guide
Identifying and separating multiple speakers in audio
说话人分离(Diarization)实现指南(2026):判断"谁在何时说话",pyannote.audio 真实代码。与 ASR 按时间戳合并得"谁说了什么",准确率取决于音质——用分轨/避免过度降噪/提供说话人数。
Voice Cloning Integration: Implementation Guide
Integrating voice synthesis APIs for custom voices
语音克隆集成实现指南(2026):多数应用应集成托管 TTS(ElevenLabs/OpenAI TTS/Cartesia)而非自训。含同意合规要点、合成代码、提供商选型、流式低延迟与缓存等生产做法。