DeepSeek：从入门到精通

我是小马甲~

DeepSeek是什么？

• DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。
• DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。

Deepseek可以做什么？

直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。

文本生成

自然语言理解与分析

编程与代码相关

常规绘图

推理模型

推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。
• 例如：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。

非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。
• 例如：GPT-3、GPT-4（OpenAI），BERT（Google），主要用于语言生成、语言理解、文本分类、翻译等任务。

快思慢想：效能兼顾全局视野

CoT链式思维的出现将大模型分为了两类：“概率预测（快速反应）”模型和“链式推理（慢速思考）”模型。前者适合快速反馈，处理即时任务；后者通过推理解决复杂问题。了解它们的差异有助于根据任务需求选择合适的模型，实现最佳效果。

Bravo Yeung

ds 确实很强大，谢谢分享~