模型微调与训练

模型微调与训练：LoRA / QLoRA、RLHF、量化与分布式训练，让模型贴合你的领域任务。

全部教程

模型微调与训练

模型微调与训练：LoRA / QLoRA、RLHF、量化与分布式训练，让模型贴合你的领域任务。

本主题共 14 篇教程

高级

微调 GPT-4o mini：OpenAI 微调 API 完全指南

何时以及如何针对特定领域任务微调大语言模型

进阶

AI 安全实战：从提示注入到护栏工程，构建可信智能体系统

系统梳理 AI 安全风险与防护手段，助力开发者构建可靠智能体

高级

大模型推理加速实战：Prefill/Decode 优化、投机解码与国产芯片适配

从底层原理到前沿方案，系统降低大模型部署成本

进阶

具身智能技术栈全景：从 VLA 到世界动作模型，机器人如何学会干活

五层技术堆栈深度拆解，VLA、世界模型、触觉感知与跨本体泛化全解析

高级

AI 模型评测与安全红宝书：基准、越狱与对齐实践

从 GeneBench-Pro 到 CJS 框架，系统梳理模型评测基准、安全攻击与对齐技术的全景与深度实践

进阶

大模型后训练实战：从 SFT 到 RL 的完整技术栈

系统讲解后训练中的关键方法（SFT、RLHF、OPD、PEFT），并给出评估通用能力损失的量化方法

高级

使用 LoRA 微调大模型：2026 年开发者完全指南

通过实战示例和生产模式掌握 LoRA 微调大模型

高级

AI 模型量化（GPTQ/AWQ）：2026 年开发者完全指南

通过实际示例和生产模式掌握 AI 模型量化（GPTQ/AWQ）

高级

使用 LoRA 和 QLoRA 微调大语言模型：2026 完全指南

在单张消费级 GPU（显存低于 24GB）上，利用 LoRA/QLoRA 微调技术，从 Llama 3 和 Mistral 训练定制 AI 模型

高级

AI模型压缩：剪枝、量化和知识蒸馏

在不牺牲准确率的前提下部署更小、更快的AI模型

高级

AI模型融合：SLERP、TIES、DARE与模型汤技术

无需额外训练，组合多个微调模型以创建更优模型

高级

Hugging Face SFT Trainer：实战教程

使用 Hugging Face TRL SFTTrainer 进行监督微调——逐步实现指南

高级

LLM 微调实战：LoRA、QLoRA 与 RLHF（2025版）

使用参数高效微调技术，将基础模型高效适配到你的领域

高级

RLHF vs DPO：基于人类反馈训练LLM——2025技术指南

从人类反馈的强化学习、直接偏好优化及其替代方案

浏览其他主题

RAG 检索增强生成 AI Agent 与多智能体模型部署与生产化工作流与自动化 OpenAI 开发实战 Claude / Anthropic 开发 LangChain / LangGraph Prompt 工程 MCP（Model Context Protocol）评估、测试与可观测 AI 安全与合规 API 与集成开发 AI 与世界杯

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

模型微调与训练

模型微调与训练

微调 GPT-4o mini：OpenAI 微调 API 完全指南

AI 安全实战：从提示注入到护栏工程，构建可信智能体系统

大模型推理加速实战：Prefill/Decode 优化、投机解码与国产芯片适配

具身智能技术栈全景：从 VLA 到世界动作模型，机器人如何学会干活

AI 模型评测与安全红宝书：基准、越狱与对齐实践

大模型后训练实战：从 SFT 到 RL 的完整技术栈

使用 LoRA 微调大模型：2026 年开发者完全指南

AI 模型量化（GPTQ/AWQ）：2026 年开发者完全指南

使用 LoRA 和 QLoRA 微调大语言模型：2026 完全指南

AI模型压缩：剪枝、量化和知识蒸馏

AI模型融合：SLERP、TIES、DARE与模型汤技术

Hugging Face SFT Trainer：实战教程

LLM 微调实战：LoRA、QLoRA 与 RLHF（2025版）

RLHF vs DPO：基于人类反馈训练LLM——2025技术指南

浏览其他主题

Documentation

Getting Started

Learn more