术语表

基础概念

提示词(Prompt): 提示词是用户向 AI 模型提供的输入,通常以问题、指令或陈述的形式出现,用于引出模型的响应。提示词的质量和结构对模型的输出影响很大,因此提示工程成为有效使用 AI 的关键技能。

上下文窗口(Context Window): 上下文窗口是 AI 模型一次可以处理的最大 token 数量,包括输入和生成的输出。这个固定大小是一个关键限制,因为窗口外的信息会被忽略,而更大的窗口可以支持更复杂的对话和文档分析。

上下文学习(In-Context Learning): 上下文学习是 AI 通过提示词中直接提供的示例来学习新任务的能力,无需任何重新训练。这一强大功能使得单个通用模型能够即时适应无数特定任务。

零样本、单样本和少样本提示(Zero-Shot, One-Shot, & Few-Shot Prompting): 这些是提示技术,模型会被给予零个、一个或少量任务示例来指导其响应。提供更多示例通常有助于模型更好地理解用户意图,并提高其在特定任务上的准确性。

多模态(Multimodality): 多模态是 AI 理解和处理多种数据类型(如文本、图像和音频)信息的能力。这使得交互更加多样化和类人化,例如描述图像或回答语音问题。

基础化(Grounding): 基础化是将模型的输出与可验证的真实世界信息源连接起来的过程,以确保事实准确性并减少幻觉。这通常通过 RAG 等技术实现,使 AI 系统更值得信赖。

核心 AI 模型架构

Transformer: Transformer 是大多数现代 LLM 的基础神经网络架构。其关键创新是自注意力机制,它能高效处理长文本序列并捕获单词之间的复杂关系。

循环神经网络(Recurrent Neural Network, RNN): 循环神经网络是 Transformer 之前的基础架构。RNN 顺序处理信息,使用循环来维持对先前输入的”记忆”,这使它们适合处理文本和语音等任务。

专家混合(Mixture of Experts, MoE): 专家混合是一种高效的模型架构,其中”路由器”网络动态选择一小部分”专家”网络来处理任何给定的输入。这使得模型可以拥有大量参数,同时保持可管理的计算成本。

扩散模型(Diffusion Models): 扩散模型是擅长创建高质量图像的生成模型。它们通过向数据添加随机噪声,然后训练模型精确地逆转这个过程,从而能够从随机起点生成新颖的数据。

Mamba: Mamba 是一种使用选择性状态空间模型(Selective State Space Model, SSM)的新型 AI 架构,能够高效处理序列,特别是对于非常长的上下文。其选择性机制允许它专注于相关信息,同时过滤噪声,使其成为 Transformer 的潜在替代方案。

LLM 开发生命周期

强大语言模型的开发遵循一个明确的序列。首先是预训练(Pre-training),通过在大量通用互联网文本数据集上训练来构建大规模基础模型,学习语言、推理和世界知识。接下来是微调(Fine-tuning),这是一个专业化阶段,通用模型在较小的任务特定数据集上进一步训练,以适应特定目的的能力。最后阶段是对齐(Alignment),调整专业化模型的行为,以确保其输出有用、无害并与人类价值观保持一致。

预训练技术(Pre-training Techniques): 预训练是模型从大量数据中学习通用知识的初始阶段。这方面的顶级技术涉及模型学习的不同目标。最常见的是因果语言建模(Causal Language Modeling, CLM),模型预测句子中的下一个词。另一种是掩码语言建模(Masked Language Modeling, MLM),模型填充文本中故意隐藏的词。其他重要方法包括去噪目标(Denoising Objectives),模型学习将损坏的输入恢复到原始状态;对比学习(Contrastive Learning),模型学习区分相似和不相似的数据片段;以及下句预测(Next Sentence Prediction, NSP),模型判断两个句子在逻辑上是否相继出现。

微调技术(Fine-tuning Techniques): 微调是使用较小的专业数据集将通用预训练模型适配到特定任务的过程。最常见的方法是监督微调(Supervised Fine-Tuning, SFT),模型在正确输入输出对的标记示例上进行训练。一种流行的变体是指令微调(Instruction Tuning),专注于训练模型更好地遵循用户命令。为了使这个过程更高效,使用参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法,顶级技术包括 LoRA(低秩适应),它只更新少量参数,以及其内存优化版本 QLoRA。另一种技术是检索增强生成(Retrieval-Augmented Generation, RAG),通过在微调或推理阶段将模型连接到外部知识源来增强模型。

对齐和安全技术(Alignment & Safety Techniques): 对齐是确保 AI 模型的行为与人类价值观和期望一致的过程,使其有用且无害。最突出的技术是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF),其中根据人类偏好训练的”奖励模型”指导 AI 的学习过程,通常使用近端策略优化(Proximal Policy Optimization, PPO)等算法来保持稳定性。出现了更简单的替代方案,如直接偏好优化(Direct Preference Optimization, DPO),它绕过了对单独奖励模型的需求,以及卡尼曼-特沃斯基优化(Kahneman-Tversky Optimization, KTO),进一步简化了数据收集。为了确保安全部署,实施护栏(Guardrails)作为最后的安全层,实时过滤输出并阻止有害行为。

增强 AI Agent 能力

AI Agent 是能够感知环境并采取自主行动以实现目标的系统。它们的有效性通过强大的推理框架得到增强。

思维链(Chain of Thought, CoT): 这种提示技术鼓励模型在给出最终答案之前逐步解释其推理过程。这种”大声思考”的过程通常会在复杂推理任务上产生更准确的结果。

思维树(Tree of Thoughts, ToT): 思维树是一种高级推理框架,agent 同时探索多条推理路径,就像树上的分支。它允许 agent 自我评估不同的思路,并选择最有希望的一条继续,使其在复杂问题解决上更有效。

ReAct(推理与行动,Reason and Act): ReAct 是一个将推理和行动结合在循环中的 agent 框架。agent 首先”思考”该做什么,然后使用工具采取”行动”,并利用结果观察来指导其下一步思考,使其在解决复杂任务时非常有效。

规划(Planning): 这是 agent 将高层目标分解为一系列更小、可管理的子任务的能力。然后 agent 创建一个计划按顺序执行这些步骤,使其能够处理复杂的多步骤任务。

深度研究(Deep Research): 深度研究是指 agent 通过迭代搜索信息、综合发现和识别新问题来自主深入探索主题的能力。这使 agent 能够建立对主题的全面理解,远超单次搜索查询的范围。

评判模型(Critique Model): 评判模型是一种专门的 AI 模型,经过训练来审查、评估和提供关于另一个 AI 模型输出的反馈。它充当自动评论者,帮助识别错误、改进推理并确保最终输出符合期望的质量标准。

更新说明

遇到新的术语时,请在此表格中添加,并确保全书使用统一的翻译。如对某个术语的翻译有疑问,请在 Issues 中讨论。