大语言模型到底是怎么学会说话的 一个外卖骑手都能听懂的科普

王尘宇 AI百科 6

大语言模型到底是怎么学会说话的 一个外卖骑手都能听懂的科普-第1张图片-王尘宇

先说一个事实:大语言模型不是"懂"语言,它只是在猜下一个字该是什么。只不过它猜得太准了,准到看起来像懂了。

我第一次理解这个原理的时候也挺震惊的。打个比方:你给一个小孩读了一万本书,读完把书全收走,然后让他续写一句话的前半段。他虽说不懂什么叫语法、什么叫逻辑,但他读得够多,续出来的东西八九不离十。大模型基本就是这么回事。

拆成碎片:分词是怎么一回事

人看文字是看一个个字的,机器不是。机器先把一句话切成"词块"——叫token。"我今天吃了个苹果",在人眼里是7个字,在模型眼里可能是"我/今天/吃了/个/苹果"这样5个token。中文一个字有时候就是一个token,有时候几个字合一个,看模型怎么分。

为什么要切?因为机器只能处理数字。每个token会被转成一个向量 — 你就理解成一串几百上千位的数字,代表这个词的"意思"。"苹果"这个token的向量,跟"水果"的向量在数学空间里挨得近,跟"汽车"就离得远。

这个过程叫嵌入(Embedding),是整个模型的地基。做得好不好直接决定模型的表现。国内模型比如DeepSeek、文心在这方面下了很大功夫,中文分词和嵌入质量比早期开源模型强了不少。

注意力机制:模型怎么理解上下文

光知道单个词的意思没用,得知道词跟词之间的关系。"我打了他"和"他打了我",用的词完全一样,意思天差地别。这就是注意力机制(Attention)要解决的事。

你可以把注意力想象成读一句话时眼神的移动。读到"把苹果放进",你会下意识看后面是什么,可能是"冰箱"或者"篮子里"。注意力机制就是让模型在处理每个词的时候,同时"看"句子里的其他词,判断谁跟谁关系更紧。

2017年Google那篇"Attention Is All You Need"的论文出来后,整个行业就变了。之前的RNN模型像串行流水线,一个词一个词处理,又慢又容易忘前面的内容。Transformer架构加上注意力,有点像同时看整句话,并行处理,速度和理解力都上了一个台阶。

训练:读遍整个互联网

有了架构,下一步就是喂数据。GPT-3的训练数据据说有几百TB,包括网页、书籍、论文、代码、论坛帖子。国内的大模型也在用类似规模的数据训练,DeepSeek用的中文语料占比很高,这也是它中文能力突出的原因之一。

训练过程分两步:预训练和微调。

预训练阶段,模型做的事很简单——给一段文字,遮住最后一个词,让它猜。猜对了奖励,猜错了惩罚,反复调整内部参数。这个过程要跑几周到几个月,烧掉几百万甚至上千万的电费。OpenAI训练GPT-4据说花了一亿多美元。

微调阶段就开始"教做人"了。用人工标注的高质量对话数据训练模型,让它学会什么该说什么不该说、什么时候该追问、什么语气合适。同时还会做RLHF(基于人类反馈的强化学习),说白了就是让人类标注员打分,告诉模型"这个回答好""那个不行"。

推理:一个字一个字往外蹦

你用ChatGPT或者豆包的时候,看到文字一个字一个字往外冒——那就是推理。模型收到了你输入的话,按照训练时学到的模式,逐个预测下一个最可能出现的token,预测一个输出一个,直到预测出"结束"标记为止。

这个过程有个重要的参数叫温度(Temperature),控制输出的随机程度。温度低模型保守,每次都选概率最高的词,输出稳定但单调;温度高模型更敢冒险,偶而会蹦出让人意外的组合,但出错的概率也更大。日常使用温度一般设在0.7左右,算是平衡点。

模型为什么有时候会胡说

这就说到"幻觉"了。模型本质上是个概率预测器,不是知识库。你问它一个它训练数据里没有的、或者互相矛盾的信息时,它不会说"我不知道"——它只会根据概率硬猜一个看起来合理的回答。

比如你问"2027年的美国总统是谁",模型不知道正确答案(训练数据里没有),但它会根据学到的人类语言模式,编一个像模像样的名字和履历出来。这就是为什么大模型生成内容需要人工审核,不能直接当事实用。

降低幻觉的方法有几个:一是RAG(检索增强生成),在生成之前先去知识库或搜索引擎查一下,拿到的信息作为生成依据;二是对输出做事实性校验,不过这个目前还没有特别成熟的方案。

说了这么多,核心就一句话:大语言模型不是魔法,是数学。几千亿个参数、几万亿条训练数据、大量工程优化,这些东西凑在一起,做出了一个"猜词猜得贼准"的系统。它不懂你在说什么,但它算出来的结果,就是像懂了一样。

标签: 大语言模型 AI科普 Transformer 深度学习 人工智能

发布评论 0条评论)

  • Refresh code

还木有评论哦,快来抢沙发吧~