上周有个做外贸的朋友问我:“你们天天说大模型、大模型,这东西到底怎么工作的?为什么有时候特别聪明,有时候连'9.11和9.9哪个大'都能答错?”我想了想,这个问题确实值得写一篇。不是那种满篇“Transformer架构”“注意力机制”的技术论文,就用大白话把它说明白。
大模型本质上就是个“超级接龙”
别被“大模型”这个名字唬住。去掉所有专业术语,大模型干的事情就一件:根据你输入的文本,预测下一个最可能出现的字。
你输入“今天天气真”,模型在几毫秒内扫过它读过的所有文本,算出一个概率:下一个字是“好”的概率最高(67%),“热”次之(15%),“冷”再次之(8%)。然后它输出“好”。接着,整个句子变成“今天天气真好”,它继续预测下一个字——“,我们去公园吧”。
整个过程就是一个字一个字往外蹦,每次蹦的时候都选概率最高的那个。所以大模型其实是个“文字接龙机”,只不过它在几万亿字的语料上训练过,接出来的龙读起来像真人在说话。
那“一本正经胡说八道”是怎么回事?
因为模型没有“事实检查”机制。它只是在做文字接龙,不是在查数据库。
比如你问“曹操有几个儿子”,如果训练数据里有明确答案,它接出来的就是对的。但如果你问“曹操最喜欢的早餐是什么”,训练数据里压根没这东西,模型怎么办?它不会说“我不知道”——因为训练目标就是“接下去”,不是“查证后再说”。所以它会根据“曹操”“早餐”“古代饮食”这些关键词,猜一个读起来像那么回事的答案:“曹操的早餐以小米粥和炊饼为主,有时会配一些腌制蔬菜。”
读起来很专业,但全是编的。这就是“幻觉”——模型碰到了知识盲区,但因为被训练成“永远要接话”,所以编了一个听起来合理但完全没依据的回答。
为什么同一个模型有时候聪明有时候笨?
两个原因。
第一,训练数据不均衡。模型“读”过的中文里,技术文档、新闻、小说、论坛帖子比例不均。对常见问题(比如“地球到月球多远”),训练数据里类似问法出现了几万次,答案自然准。对冷门问题(比如“2026年6月西安SEO市场报价”),训练数据里可能根本没有,模型只能“猜”。
第二,概率选择的随机性。前面说了,模型每次“蹦字”是选概率最高的那个。但最高概率不等于100%。模型里有个参数叫temperature,好比“随机开关”。temperature低的时候,模型只选最稳的答案,显得“保守但靠谱”;temperature高的时候,模型会从概率前几名里随机选,出来的答案更“有创意”但也更容易跑偏。
大模型“大”在哪里?
大在参数数量。参数你可以理解为模型内部的“可调旋钮”。GPT-3有1750亿个参数,GPT-4据说接近1.8万亿。这些参数存了模型从训练数据里学到的所有语言模式——什么词后面常跟什么词,什么句式表达什么情绪,怎样组织一段文字显得有逻辑。
参数越多,模型能捕捉的语言规律越细,但训练成本也越高。GPT-4训练一次的电费据说超过1亿美元——这还只是电费,不算硬件和人工。
所以现在有个趋势是“小模型”:参数少但训练数据质量高、针对特定领域精调。比如有些几百亿参数的模型,在法律文书或医疗问答上表现不比万亿参数的大模型差。对普通用户来说,不必追最大的那个——够用就好。
普通人该怎么用大模型?
记住三点:
一、别把它当搜索引擎——它能帮你整理思路、写文案、翻译、总结,但涉及事实核查的事(比如法律条文、医疗建议、财务计算),自己再查一遍。
二、提问质量决定回答质量。别问“怎么写好文章”,改成“我要写一篇面向30岁职场人的微信公众号文章,主题是时间管理,语气轻松一点,800字左右”。给的信息越多,模型越不容易走偏。
三、多试几个平台。豆包、Kimi、DeepSeek、文心一言,各有擅长。同一个问题在不同模型上对比着看,比死磕一个靠谱得多。
最后说一句:大模型不是魔法,它就是一台会算概率的文字接龙机——只是这台机器读了几万亿字的书,接出来的龙比你我都利索。
还木有评论哦,快来抢沙发吧~