教程中心

AI Agent 从入门到实战:概念理解、MCP 使用、平台实操、工作流自动化

1252

教程总数

234

入门教程

42

实操教程

进阶其他

Audio Content Moderation: Implementation Guide

Detecting inappropriate content in audio with AI

音频内容审核实现指南(2026):可靠模式是转写→审文本(OpenAI Moderations 或规则 LLM),再补声学情绪/说话人归因。含实时 vs 批量、人审兜底、决策日志、按原语言本地化策略。

audiospeech
8分钟
进阶其他

Voice Activity Detection: Implementation Guide

Detecting and segmenting speech in audio streams

语音活动检测(VAD)实现指南(2026):在转写/语音 Agent 前判断哪段是语音,省钱降延迟、判断说话结束。Silero vs webrtcvad、真实代码、VAD→分段→ASR 管线与实时 end-of-turn 调参。

audiospeech
8分钟
进阶其他

Audio Preprocessing Pipeline: Implementation Guide

Cleaning and preparing audio for AI processing

音频预处理管线实现指南(2026):重采样 16k 单声道→响度归一→裁静音→VAD 分段→按需降噪,librosa 真实代码。强调按下游模型匹配处理、不要过度降噪以免损害说话人/情绪特征。

audiospeech
8分钟
进阶其他

Audio Sentiment Analysis: Implementation Guide

Detecting emotion and sentiment from voice recordings

音频情感分析实现指南(2026):结合"说了什么"(转写+LLM 情感)与"怎么说的"(声学韵律模型)两路信号。含 Whisper+LLM 代码、混合判别(识别反讽/口是心非)、多方通话按说话人归因。

audiospeech
8分钟
进阶其他

Multilingual ASR System: Implementation Guide

Building multilingual speech recognition applications

多语言语音识别(ASR)系统实现指南(2026):Whisper 一模型转写/翻译数十种语言。含托管 vs 自托管(faster-whisper)抉择、VAD 分段/语言提示/术语表/分块等准确率手段与完整管线。

audiospeech
9分钟
进阶其他

Speaker Diarization: Implementation Guide

Identifying and separating multiple speakers in audio

说话人分离(Diarization)实现指南(2026):判断"谁在何时说话",pyannote.audio 真实代码。与 ASR 按时间戳合并得"谁说了什么",准确率取决于音质——用分轨/避免过度降噪/提供说话人数。

audiospeech
9分钟
进阶其他

Voice Cloning Integration: Implementation Guide

Integrating voice synthesis APIs for custom voices

语音克隆集成实现指南(2026):多数应用应集成托管 TTS(ElevenLabs/OpenAI TTS/Cartesia)而非自训。含同意合规要点、合成代码、提供商选型、流式低延迟与缓存等生产做法。

audiospeech
8分钟