DeepSeek:从入门到精通
-
DeepSeek是什么?
• DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。
• DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。
Deepseek可以做什么?
直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。
文本生成
自然语言理解与分析
编程与代码相关
常规绘图
推理模型
推理大模型: 推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。
• 例如:DeepSeek-R1,GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。非推理大模型: 适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像推理模型那样复杂的推理和决策能力。
• 例如:GPT-3、GPT-4(OpenAI),BERT(Google),主要用于语言生成、语言理解、文本分类、翻译等任务。快思慢想:效能兼顾 全局视野
CoT链式思维的出现将大模型分为了两类:“概率预测(快速反应)”模型和“链式推理(慢速思考)”模型。前者适合快速反馈,处理即时任务;后者通过推理解决复杂问题。了解它们的差异有助于根据任务需求选择合适的模型,实现最佳效果。