登陆成功

积分

大型语言模型（LLMs）简史

作者: 唐隆基企业来源：罗戈研究

发布时间：2025-07-14

413阅读

大型语言模型(LLMs)简史_罗戈网.pdf 下载

罗戈研究

2025年初，中国推出突破性且经济高效的大型语言模型（LLM）DeepSeek-R1，引发了人工智能的巨变。本文追溯了LLM的演变历程，始于2017年革命性的Transformer架构，该架构通过自注意力机制重塑了自然语言处理（NLP）。到2018年，首批基于Transformer的两款LLM——GPT和BERT——相继发布，显著增强了语境理解和文本生成能力，为未来的创新奠定了坚实的基础。2020年，拥有1750亿个参数的GPT-3展现了卓越的少样本和零样本学习能力。然而，“幻觉”问题——即生成与事实不符的内容——成为了关键挑战。2022年，OpenAI通过采用“监督微调”（SFT）和“基于人类反馈的强化学习”（RLHF）技术来应对这一挑战，并由此开发了对话模型ChatGPT。这一突破引发了全球对人工智能的广泛关注。到2023年和2024年，GPT-4和GPT-4o等多模态模型将不断发展，无缝集成文本、图像和音频处理，使其能够展现出更接近人类的能力，例如“听”、“说”和“看”。与此同时，OpenAI的o1和DeepSeek的R1推进了复杂推理能力，使大型语言模型（LLM）更接近类人“系统2思维”。此外，DeepSeek-R1模型的超高成本效率和开源设计挑战了人工智能规范，使高级大型语言模型（LLM）的获取更加民主化，并推动了各行各业的创新。下图描述了大型语言模型（LLMs）发展的时间线。

p202507/14/daxingyuyanmoxing(LLMs)jianshi_01_2WslqYJ30INH.jpg