大模型是什么?用人话给你讲清楚AI大语言模型

王尘宇 AI百科 3

最近这两年,「大模型」这三个字到处都是。朋友圈在说、抖音在推、连楼下卖包子的老板都在问「那个AI写文案的玩意儿到底是什么」。但真正能把这事讲清楚的人不多。我用大白话给你说一遍。

大模型本质上是什么

想象你有一个超级爱读书的朋友。他从小到大读了几亿本书——从小学课本到博士论文、从小说到编程手册、从中文到英文到法文——什么都读。你问他任何问题,他都能根据自己读过的东西给出一个答案。

大模型就是这么个东西。它不是「真正理解」了什么,而是读了海量的文字之后,学会了「下一个字最可能是什么」。

你打「今天天气」,它根据读过的内容推测后面最可能是「不错」。你再问「为什么」,它接着推「因为昨天下了雨今天放晴了」。每句话都是「猜」出来的,只是这个「猜」建立在几千亿字的阅读量上,所以猜得相当准。

关键数字

模型参数量训练数据量训练成本(估算)
GPT-31750亿约570GB文本约460万美元
GPT-4未公开(估1.76万亿)未公开约1亿美元
Llama 3 70B700亿15万亿token约数百万美元
DeepSeek V36710亿(MoE)14.8万亿token约557万美元

怎么训练出来的

分三步。

第一步:预训练——大量读书

把整个互联网上能扒到的公开文字——维基百科、新闻、论坛帖子、学术论文、代码仓库——全部喂给模型。这个过程叫「预训练」。

花多少钱?GPT-3级别的训练大概要几百万美元的电费和GPU租用费。DeepSeek V3说自己只花了557万美元,在圈内引起了很大的讨论,因为同级别的模型通常要花几千万甚至上亿。

第二步:指令微调——教它听话

预训练完的模型其实挺蠢的。你问「怎么煮鸡蛋」,它可能给你写一篇关于鸡蛋营养学的论文,也可能给你一段鸡蛋期货行情——因为它只是「猜字」,不知道你想要什么。

这时候需要人工标注——雇一群人,给模型看问题,让它回答,然后人类打分:「这个回答好」「这个回答不好」。模型根据这个反馈调整自己。这一步叫RLHF(人类反馈强化学习)。

第三步:对齐——别让它乱说话

教模型不做坏事。比如别教人做炸弹、别散播假消息、别骂人。这一步叫「安全对齐」。

对齐过头的模型会有个毛病——动不动就说「作为一个人工智能我不能……」。不同公司的对齐程度不一样,有的大胆些有的保守些。

为什么叫「大」模型

大在三个地方:参数多、数据多、算力大。

参数就是模型里的「神经元」数量。最早的AI模型可能只有几万个参数,今天的主流模型动辄几百亿到几千亿。参数越多,模型能记住的「模式」就越复杂——就像一个画家,只会画直线和会画人脸是两回事。

但参数多也意味着运行成本高。跑一次GPT-4级别的推理,光是GPU的电费就不是小数目。这也是为什么免费的AI服务后面总在烧钱。

和我们日常用的AI是一回事吗

是的。你手机上的豆包、Kimi、文心一言、通义千问、DeepSeek——它们底层都是大模型。只是各家在基础模型上做了不同的优化和包装。

有的加了搜索能力(比如秘塔AI搜索),有的加了长文本处理,有的专门优化了代码能力。但底子都是同一个东西——大语言模型。

现在的趋势是:大模型在变小。以前觉得越大越好,现在发现用更聪明的训练方法,小模型也能达到大模型的效果。DeepSeek用的MoE(混合专家)架构就是一个例子——6710亿参数但每次只激活370亿,效果却不比全激活的差。

标签: 大模型 AI科普 大语言模型 人工智能

发布评论 0条评论)

  • Refresh code

还木有评论哦,快来抢沙发吧~