Showing content from https://github.com/PaddlePaddle/PaddleNLP/releases/tag/v3.0.0-beta4 below:
Release v3.0.0-beta4 · PaddlePaddle/PaddleNLP · GitHub
本次版本中,我们全面集成了 DeepSeek R1类的思考模型。推理团队深度优化了模型推理,速度业界领先。此外,我们还发布了自研PP-UIE信息抽取模型。本次重点更新如下。
重点更新:
- 模型新增
- DeepSeek V3/R1, R1-distill, QwQ-32B 热门思考模型,全面支持。用户可以点击官方模型文档列表查看、下载所有模型。
- 飞桨自研发布下一代通用信息抽取工具 PP-UIE 全新发布。支持8K长度信息抽取。使用文档。
- 推理部署
- 全面支持DeepSeek V3/R1满血版FP8、INT8、4比特量化推理,MTP投机解码。
- FP8推理,单机输出超1000 tokens/s;4比特单机部署,输出超2100 tokens/s!
- 首次协同推理团队,发布统一推理部署镜像,热门模型一键部署。推理部署使用文档全面更新,体验全面提升!见文档。
- 模型训练:
- 新增大模型 Embedding 训练,支持INF-CL超大batch size训练。
- 新增MergeKit模型融合工具,缓解对齐代价。见文档。
- 低资源训练 全面优化。16G小显存可以流畅训练。
- 其他重点特性:
- 文档页面,新增模型列表展示。用户可查看、下载对应模型文件。见文档。
- 训练新增 adam-mini 优化器。AdamW优化器支持 BF16 动量。
下面是一些对应的更新细节:
1. 模型、框架组件更新
- 模型新增
- 模型新增列表:
- paddlenlp/PP-UIE-0.5B, paddlenlp/PP-UIE-1.5B, paddlenlp/PP-UIE-7B, paddlenlp/PP-UIE-14B
- deepseek-ai/DeepSeek-V3, deepseek-ai/DeepSeek-V3-Base,deepseek-ai/DeepSeek-R1, deepseek-ai/DeepSeek-R1-Zero,
- deepseek-ai/DeepSeek-R1-Distill-Llama-70B, deepseek-ai/DeepSeek-R1-Distill-Llama-8B, deepseek-ai/DeepSeek-R1-Distill-Qwen-14B, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B, deepseek-ai/DeepSeek-R1-Distill-Qwen-32B, deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
- Qwen/Qwen2.5-7B-Instruct-1M,Qwen/Qwen2.5-14B-Instruct-1M, Qwen/QwQ-32B, Qwen/QwQ-32B-Preview
- PR #9738: Deepseek V3 模型新增。PR #9876: 增加 MTP 支持。PR #9797:修复 TP问题。 PR #9643: Deepseek llama3.3 新增模型说明(@DrownFish19)
- PR #9906: Deepseek V3 支持动态图直接加载 Float8 参数并进行推理 (@ZHUI)
- PR #9845: 新增PP-UIE系列模型 @Fantasy-02 i PR #9911 & PR #9913: PP-UIE 相关文档更新(@DrownFish19)
- Tokenizer 改进
- Unified Checkpoint 相关:
- PR #9540: 修复加载master weight PR #9523: 修复缺失key问题。
- PR #9669: 统一检查点的 Bug 修复 PR #9935: 针对忽略 merge optimizer 时直接加载参数的问题进行修复
- PR #9741 & PR #9821: 修复专家并行支持问题
- MergeKit 功能增强与优化
- 新增功能与优化
- 工具更新与维护
- PR #9885: 对 MergeKit 工具进行代码更新与维护,优化整体逻辑。
- 日志与调试支持
- 低资源特性优化
- PR #9804: 添加 use_fused_linear_cross_entropy 支持,减小显存。加入 pre_divided_factor 避免FP16溢出。
- 文档更新、其他:
2. LLM 训练更新
- 通用训练
- Embedding 训练
- DPO训练
- 新功能和特性
- 训练文档及问题修复
3. Inference 更新
- Predictor & Flask 更新
- MTP功能优化
- 部署优化
- Kernel优化
- PR #9707: 优化 gemm_dequant OP,利用 CUDA 核进行 int8_sq 运算(@zhink)
- 文档更新、测试
4. AutoParallel / 分布式训练更新
- 自动并行
- 基础配置与 CI 集成
- 测试、验证与功能开关
5. CI、文档、Benchmark 及测试脚本更新
- CI 脚本及警告过滤
- 文档与说明改进
- Benchmark 配置与测试
6. NPU/XPU 及硬件相关更新
7. Bug 修复、性能优化及其他改进
8. 环境/依赖及版本兼容更新
- requirements 及安装更新
- Python 版本兼容性
What's Changed
New Contributors
Full Changelog: v3.0.0-beta3...v3.0.0-beta4
RetroSearch is an open source project built by @garambo
| Open a GitHub Issue
Search and Browse the WWW like it's 1997 | Search results from DuckDuckGo
HTML:
3.2
| Encoding:
UTF-8
| Version:
0.7.4