最近跟一个做传统行业的老板聊天,他问了我一个问题:“那个DeepSeek,它是真懂我在问什么,还是在瞎编?”这个问题特别好。大部分人对AI的理解停留在“输入问题,输出答案”的黑箱层面,但对里面到底发生了什么几乎一无所知。
这篇文章尽量不说术语,用大白话把大语言模型讲清楚。
AI不是“想”出来的,是“算”出来的
首先要打破一个误解:AI不会思考,至少不是人类意义上的思考。它做的事情本质上就一个——预测下一个字。
举个例子。你给AI输入“今天天气真”,AI就开始算了:在我看过的几万亿段文字里,“今天天气真”后面最常出现的是“好”(概率37%),其次是“热”(22%),然后是“不错”(15%)……于是AI输出“好”。然后它继续看“今天天气真好”,预测下一个字——“啊”(28%)、“,”(18%)、“。”(12%)……就这样一个字一个字往下接,最后看起来就像一段有逻辑的回答。
那为什么有时候AI胡说八道?因为它只是在概率上选“最可能的字”,并不理解这些字组合在一起是什么意思。比如你问“秦始皇用过iPhone吗”,如果训练数据里有“秦始皇”和“iPhone”各自出现的上下文,但没有两件事不能同时发生的常识,AI可能真的给你编一段“秦始皇使用iPhone处理朝政”的故事。
所以回到那个老板的问题:DeepSeek不是在“懂”你的问题,它是在计算,在你问的问题和它学过的海量资料之间找最可能的关联。
大模型的“大”到底大在哪
这个“大”指两件事:训练数据量大,参数量大。
训练数据量好理解。GPT-3的训练数据量大概是570GB的纯文本,相当于把整个维基百科下载下来再乘以几十倍。DeepSeek V3的训练数据量也在这个量级。这些数据里什么都有——论文、新闻、小说、论坛帖子、产品说明书,甚至包括大量的代码。
参数就稍微抽象一点。你可以把参数理解成AI内部的“旋钮”,每个旋钮控制着AI对某个语言特征的敏感度。GPT-3有1750亿个参数,DeepSeek V3有6710亿个(但每次只用其中370亿个,这就是MoE架构的巧妙之处)。参数越多,AI能捕捉的语言模式就越细腻。
一个直观的类比:参数少的模型像小学生写作文——能表达基本意思但单调;参数多的模型像专业作家——能用不同的语气、风格、详略来组织文字。
训练过程:从“学会说话”到“学会好好说话”
大模型的训练分两个关键阶段。
第一阶段叫预训练。就是把海量文本喂给模型,让它学会“接龙”——给定上文,预测下文。这个阶段模型学会了基本的语法、词汇搭配、常见的知识关联。但这时候的AI像个读了很多书但不会跟人聊天的书呆子——你跟它说话,它可能给你接一大段无关的文字。
第二阶段叫对齐训练。在这个阶段,人类标注员会告诉AI什么样的回答是“好”的。比如同样问“怎么做蛋糕”,一个回答是详细的步骤说明(好),另一个回答是“蛋糕很好吃,我也想吃”(不好)。通过几万甚至几十万条这样的标注对比,AI学会了什么是人类期望的回答方式。DeepSeek R1还在这阶段加入了“思维链”训练——不是直接给答案,而是先展示推理过程。
所以当你用DeepSeek的时候,它可能会“想一下”再回答,这个“想”就是在模拟推理链。
GPT、DeepSeek、文心一言这些模型到底有什么不同
技术上它们的底层架构都源自同一个东西——2017年Google提出的Transformer。这就像所有汽车的底层原理都是内燃机,但宝马和丰田开起来很不一样。
GPT系列的优势在于通用性强,英语能力顶尖,多模态(能看图)做得好。代价是闭源、贵。
DeepSeek的优势在于中文理解和推理能力,开源的R1模型让开发者能自己部署。V3的MoE架构在性能和成本之间找了个巧妙的平衡点——6710亿总参数但每次只激活370亿,推理成本比同等能力的模型低很多。
文心一言的优势在于和百度生态的深度绑定,做中文搜索和知识问答有天然的数据优势。通义千问背后是阿里云,企业级应用场景更丰富。
选哪个取决于你要干什么。做全球化产品选GPT,做中文深度内容选DeepSeek,做百度生态内的应用选文心。
普通人有必要了解这些吗
我的看法是:不一定需要懂技术细节,但理解AI的基本工作原理能帮你更好地使用它。知道了AI是在“预测下一个字”而不是“思考”,你就会更谨慎地验证它给出的信息。知道了训练数据的截止日期问题,你就不会问它“昨天发生了什么”。知道了对齐训练的存在,你就理解为什么AI的回答总是倾向于积极、规范、回避争议。
用AI就像用任何工具——你对它的原理知道得越多,用得就越好。
还木有评论哦,快来抢沙发吧~