软件开发领域正经历由大型语言模型驱动的变革,这些模型极大提升了代码智能化水平,促进编程效率并减少错误。但目前存在的问题是开源模型与闭源模型之间的性能差异。为解决这一问题,推出了DeepSeek-Coder系列,作为一系列开源代码模型,它们基于87种编程语言的2万亿个标记从零开始训练,具备全面的编程语言理解力。此系列包含不同规模的模型,从13亿至330亿参数,并分为基础版和指令版,旨在适应多样化的计算需求。
我们创新性地在预训练阶段采用仓库级数据构建,增强模型跨文件理解能力。通过引入Fill-In-Middle(FIM)训练策略及扩展上下文长度至16K,DeepSeek-Coder模型在处理复杂代码任务上更为出色。实验表明,DeepSeek-Coder-Base 33B在多个公开基准测试中超越其他开源模型,而DeepSeek-Coder-Instruct 33B更是能在多数评估中媲美甚至超过OpenAI的GPT-3.5 Turbo,显著缩小与顶级闭源模型如GPT-4的性能差距。