近日,深度求索(Deepseek)在其官方社群中发布了一则引人注目的消息,邀请用户参与DeepSeek-R1-0528模型小版本的测试。初步反馈显示,这款新模型在编程、审美设计以及代码补全等多个领域均展现出卓越的性能。
特别DeepSeek-R1-0528在编程能力上取得了显著突破。用户只需输入简洁的提示词,该模型便能迅速生成高质量的代码,这一特性在代码测试平台Live CodeBench上得到了验证。该平台的数据显示,DeepSeek-R1-0528的性能已经可以与OpenAI最新的o3模型(High)相媲美。
除了编程能力,DeepSeek-R1-0528在Extended NYT Connections基准测试中也取得了不俗的成绩。该测试基于《纽约时报》的Connections谜题游戏,旨在评估大型语言模型的语言理解和推理能力。DeepSeek-R1-0528的跑分达到了49.8分,相较于初代Deepseek R1模型的38.6分,有了显著提升。
据测试用户反馈,DeepSeek-R1-0528在响应风格上也颇具特色,其回答方式具有o3-2.5模型的专业风范,箭头和星号的使用与o3风格高度一致,且在结尾处“why it works”的表述更具逻辑性和说服力。
在审美设计和代码补全方面,DeepSeek-R1-0528同样展现出了其强大的实力。它能够轻松应对多样化的任务,输出的结果不仅精准,而且极具实用性。在生成复杂前端页面和动态动画的测试中,该模型也展现出了极高的准确度和效率。
与OpenAI的o3和o4-mini模型相比,DeepSeek-R1-0528在推理时长上有了大幅缩短,为用户提供了更加流畅和高效的使用体验。这一改进无疑将进一步提升用户在使用大型语言模型时的满意度和效率。