模型

京东开源模型登顶HuggingFace视频理解榜首，个人开发者模型亦冲入热榜

近日，京东开源模型JoyAI-VL-Interaction登顶HuggingFace视频理解类榜首，该模型主打“流式交互”，能主动判断何时说话或沉默，而非被动问答。技术报告显示，在与Gemini视频通话助手的人类评测中，整体胜率达87.9%，监控预警场景胜率100%。京东开源了8B模型、400万条对齐交互数据、训练配方及完整可部署系统，支持ASR/TTS、长程记忆、可视化界面和Agent桥接，可应用于比赛解说、监控预警、实时翻译等场景。

与此同时，个人开发者逯雨鑫（HuggingFace账号yuxinlu1）的模型也冲入热榜前排，下载量合计超70万。其发布的Gemma4-12B GGUF模型（V1 Coder版和V2 Agentic版）在编程和Agent任务上表现突出，V1曾连续多日霸榜。V1模型最小仅4.5GB，可在消费级显卡上本地运行；V2在tau2-bench telecom子集上得分55%，是基座模型的3.5倍。逯雨鑫表示，项目纯自费，耗时40多小时，使用RTX 5090训练，数据量仅约1万条，强调数据质量而非数量。他计划继续推出V3和基于Qwen3.6-27B的更大版本。

2026年6月28日来源：综合整理

ai open-source huggingface video-understanding coding

京东开源模型登顶HuggingFace视频理解榜首，个人开发者模型亦冲入热榜

Documentation

Getting Started

Learn more