DeepSeek 有多个模型,不同模型的性能和特点各有千秋,以下是具体介绍:
DeepSeek-LLM
参数规模与训练数据:包含 670 亿参数,在包含 2 万亿 token 的数据集上进行训练,数据集涵盖中英文。
性能表现:在推理、编码、数学和中文理解等方面超越了 Llama2 70B base,在匈牙利国家高中考试中取得了 65 分的成绩,其 Chat 版本在编码和数学方面表现出色,在中文表现上超越了 GPT-3.5。
DeepSeek-Coder
训练基础:由一系列代码语言模型组成,每个模型均从零开始在 2 万亿 token 上训练,数据集包含 87% 的代码和 13% 的中英文自然语言,采用 16k 的窗口大小和额外的填空任务。
性能表现:在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。DeepSeek-Coder V2 将支持的编程语言从 86 种扩展到 338 种,并将上下文长度从 16k 扩展到 128k,在编码和数学基准测试中表现优异,超越了 GPT4-turbo、Claude3 opus 和 Gemini1.5 pro 等闭源模型。
DeepSeek-Math
训练数据:以 DeepSeek-Coder-V1.5 7B 为基础,在从 CommonCrawl 中提取的数学相关 token 以及自然语言和代码数据上进行预训练,训练规模达 5000 亿 token。
性能表现:7B 版本在竞赛级 Math 基准测试中取得了 51.7% 的优异成绩,且未依赖外部工具包和投票技术,接近 Gemini-Ultra 和 GPT-4 的性能水平。
DeepSeek-VL
架构设计:采用混合视觉编码器,能够在固定的 token 预算内高效处理高分辨率图像(1024x1024),同时保持相对较低的计算开销。
性能表现:其 1.3B 和 7B 模型在相同模型尺寸下,在广泛的视觉 - 语言基准测试中达到了最先进或可竞争的性能。
DeepSeek-V3
知识任务性能:在知识类任务(MMLU、MMLU-pro、GPQA、SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的 Claude-3.5-Sonnet-1022。
数学竞赛表现:在美国数学竞赛(AIME2024)和全国高中数学联赛(CNMO2024)上,大幅超过了其他所有开源闭源模型。
生成速度:生成吐字速度从 20tps 大幅提高至 60tps,相比 V2.5 模型实现了 3 倍的提升。
总体而言,DeepSeek 模型具有技术创新、训练成本低等特点1。模型使用数据蒸馏技术生成高质量数据,提升了训练效率;采用 “混合专家” 方法,将小型 “专家” 系统与 “通才” 系统相结合,减少能源和计算能力的浪费