术语表

基础概念

提示词(Prompt): 提示词是用户向 AI 模型提供的输入,通常以问题、指令或陈述的形式出现,用于引出模型的响应。提示词的质量和结构对模型的输出影响很大,因此提示工程成为有效使用 AI 的关键技能。

上下文窗口(Context Window): 上下文窗口是 AI 模型一次可以处理的最大 token 数量,包括输入和生成的输出。这个固定大小是一个关键限制,因为窗口外的信息会被忽略,而更大的窗口可以支持更复杂的对话和文档分析。

上下文学习(In-Context Learning): 上下文学习是 AI 通过提示词中直接提供的示例来学习新任务的能力,无需任何重新训练。这一强大功能使得单个通用模型能够即时适应无数特定任务。

零样本、单样本和少样本提示(Zero-Shot, One-Shot, & Few-Shot Prompting): 这些是提示技术,模型会被给予零个、一个或少量任务示例来指导其响应。提供更多示例通常有助于模型更好地理解用户意图,并提高其在特定任务上的准确性。

多模态(Multimodality): 多模态是 AI 理解和处理多种数据类型(如文本、图像和音频)信息的能力。这使得交互更加多样化和类人化,例如描述图像或回答语音问题。

基础化(Grounding): 基础化是将模型的输出与可验证的真实世界信息源连接起来的过程,以确保事实准确性并减少幻觉。这通常通过 RAG 等技术实现,使 AI 系统更值得信赖。

核心 AI 模型架构

Transformer: Transformer 是大多数现代 LLM 的基础神经网络架构。其关键创新是自注意力机制,它能高效处理长文本序列并捕获单词之间的复杂关系。

循环神经网络(Recurrent Neural Network, RNN): 循环神经网络是 Transformer 之前的基础架构。RNN 顺序处理信息,使用循环来维持对先前输入的”记忆”,这使它们适合处理文本和语音等任务。

专家混合(Mixture of Experts, MoE): 专家混合是一种高效的模型架构,其中”路由器”网络动态选择一小部分”专家”网络来处理任何给定的输入。这使得模型可以拥有大量参数,同时保持可管理的计算成本。

扩散模型(Diffusion Models): 扩散模型是擅长创建高质量图像的生成模型。它们通过向数据添加随机噪声,然后训练模型精确地逆转这个过程,从而能够从随机起点生成新颖的数据。

Mamba: Mamba 是一种使用选择性状态空间模型(Selective State Space Model, SSM)的新型 AI 架构,能够高效处理序列,特别是对于非常长的上下文。其选择性机制允许它专注于相关信息,同时过滤噪声,使其成为 Transformer 的潜在替代方案。

LLM 开发生命周期

强大语言模型的开发遵循一个明确的序列。首先是预训练(Pre-training),通过在大量通用互联网文本数据集上训练来构建大规模基础模型,学习语言、推理和世界知识。接下来是微调(Fine-tuning),这是一个专业化阶段,通用模型在较小的任务特定数据集上进一步训练,以适应特定目的的能力。最后阶段是对齐(Alignment),调整专业化模型的行为,以确保其输出有用、无害并与人类价值观保持一致。

预训练技术(Pre-training Techniques): 预训练是模型从大量数据中学习通用知识的初始阶段。这方面的顶级技术涉及模型学习的不同目标。最常见的是因果语言建模(Causal Language Modeling, CLM),模型预测句子中的下一个词。另一种是掩码语言建模(Masked Language Modeling, MLM),模型填充文本中故意隐藏的词。其他重要方法包括去噪目标(Denoising Objectives),模型学习将损坏的输入恢复到原始状态;对比学习(Contrastive Learning),模型学习区分相似和不相似的数据片段;以及下句预测(Next Sentence Prediction, NSP),模型判断两个句子在逻辑上是否相继出现。

微调技术(Fine-tuning Techniques): 微调是使用较小的专业数据集将通用预训练模型适配到特定任务的过程。最常见的方法是监督微调(Supervised Fine-Tuning, SFT),模型在正确输入输出对的标记示例上进行训练。一种流行的变体是指令微调(Instruction Tuning),专注于训练模型更好地遵循用户命令。为了使这个过程更高效,使用参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法,顶级技术包括 LoRA(低秩适应),它只更新少量参数,以及其内存优化版本 QLoRA。另一种技术是检索增强生成(Retrieval-Augmented Generation, RAG),通过在微调或推理阶段将模型连接到外部知识源来增强模型。

对齐和安全技术(Alignment & Safety Techniques): 对齐是确保 AI 模型的行为与人类价值观和期望一致的过程,使其有用且无害。最突出的技术是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF),其中根据人类偏好训练的”奖励模型”指导 AI 的学习过程,通常使用近端策略优化(Proximal Policy Optimization, PPO)等算法来保持稳定性。出现了更简单的替代方案,如直接偏好优化(Direct Preference Optimization, DPO),它绕过了对单独奖励模型的需求,以及卡尼曼-特沃斯基优化(Kahneman-Tversky Optimization, KTO),进一步简化了数据收集。为了确保安全部署,实施护栏(Guardrails)作为最后的安全层,实时过滤输出并阻止有害行为。

增强 AI Agent 能力

AI Agent 是能够感知环境并采取自主行动以实现目标的系统。它们的有效性通过强大的推理框架得到增强。

思维链(Chain of Thought, CoT): 这种提示技术鼓励模型在给出最终答案之前逐步解释其推理过程。这种”大声思考”的过程通常会在复杂推理任务上产生更准确的结果。

思维树(Tree of Thoughts, ToT): 思维树是一种高级推理框架,agent 同时探索多条推理路径,就像树上的分支。它允许 agent 自我评估不同的思路,并选择最有希望的一条继续,使其在复杂问题解决上更有效。

ReAct(推理与行动,Reason and Act): ReAct 是一个将推理和行动结合在循环中的 agent 框架。agent 首先”思考”该做什么,然后使用工具采取”行动”,并利用结果观察来指导其下一步思考,使其在解决复杂任务时非常有效。

规划(Planning): 这是 agent 将高层目标分解为一系列更小、可管理的子任务的能力。然后 agent 创建一个计划按顺序执行这些步骤,使其能够处理复杂的多步骤任务。

深度研究(Deep Research): 深度研究是指 agent 通过迭代搜索信息、综合发现和识别新问题来自主深入探索主题的能力。这使 agent 能够建立对主题的全面理解,远超单次搜索查询的范围。

评判模型(Critique Model): 评判模型是一种专门的 AI 模型,经过训练来审查、评估和提供关于另一个 AI 模型输出的反馈。它充当自动评论者,帮助识别错误、改进推理并确保最终输出符合期望的质量标准。

Agent 系统核心概念

智能体(Agent): 智能体是能够感知环境并采取自主行动以实现目标的系统。AI 智能体利用大语言模型的推理能力,结合工具使用、规划、记忆等模式,在动态环境中执行复杂任务。[注:全书统一使用”智能体”,避免使用”代理”]

工具使用(Tool Use): 工具使用是 AI 智能体通过函数调用机制与外部系统交互的能力。智能体可以调用 API、数据库、服务或执行代码,突破训练数据的限制,访问实时信息并执行实际操作。

工具调用(Tool Calling): 工具调用是智能体框架中的技术机制,LLM 生成结构化输出(通常为 JSON)指定要调用的工具名称和参数。应用程序执行实际工具并将结果返回给 LLM。[注:优先使用”工具调用”而非”函数调用”,因为工具范畴更广]

幻觉(Hallucination): 幻觉是 LLM 生成看似合理但事实上不正确或毫无意义的输出的现象。当模型认知负荷过高或上下文不足时更容易发生。可通过提示词链、基础化等技术减少。

管道模式(Pipeline Pattern): 管道模式又称提示词链,是将复杂任务分解为顺序执行的多个步骤的处理模式。每个步骤的输出作为下一个步骤的输入,形成依赖链。

工作流(Workflow): 工作流是为实现特定目标而设计的一系列有序步骤或操作。在 Agent 系统中,工作流通常涉及多个提示词、工具调用和决策点。

编排(Orchestration): 编排是协调多个组件(如多个 Agent、工具、服务)协同工作的过程。编排层管理工作流执行、状态管理和组件间通信。

上下文偏离(Contextual Drift): 上下文偏离是 LLM 在长对话或复杂任务中逐渐失去对初始上下文追踪的现象。这是单一复杂提示词的主要问题之一,可通过提示词链缓解。

指令忽略(Instruction Neglect): 指令忽略是 LLM 未能遵循提示词中部分指令的现象,通常发生在提示词过于复杂或包含多重约束时。

错误传播(Error Propagation): 错误传播是早期步骤的错误在后续处理中被放大的现象。在多步工作流中,前面步骤的错误会影响所有依赖其输出的后续步骤。

检索增强生成(Retrieval-Augmented Generation, RAG): RAG 是通过在生成响应前从外部知识源检索相关信息来增强 LLM 输出的技术。这提高了事实准确性并减少幻觉。

模型上下文协议(Model Context Protocol, MCP): MCP 是标准化 LLM 与外部工具、数据源和系统通信的开放协议。它定义了客户端 - 服务器架构,使任何兼容的 LLM 都能发现和调用任何兼容的工具。

人机协同(Human-in-the-Loop): 人机协同是将人类判断和决策纳入 AI 系统工作流的模式。在关键决策点需要人类输入、批准或反馈,确保系统行为符合期望。

异常处理(Exception Handling): 异常处理是检测和恢复 AI 系统执行过程中错误的模式。包括识别失败、决定恢复策略(如重试、回退、人工介入)并优雅处理错误情况。

目标设定与监控(Goal Setting and Monitoring): 这是智能体定义明确目标并跟踪进展的能力。包括将高层目标分解为可衡量的子目标,持续评估进展,并在需要时调整策略。

记忆管理(Memory Management): 记忆管理是智能体存储、检索和使用信息以维持跨交互连续性的能力。包括短期记忆(当前对话)和长期记忆(跨会话知识)。

多智能体协作(Multi-Agent Collaboration): 多智能体协作是多个专门化智能体协同工作解决复杂问题的模式。每个智能体贡献特定能力,通过通信和协调实现共同目标。

反思(Reflection): 反思是智能体审查和评估自身输出的能力。通过自我批评、验证和改进,智能体可以识别错误、提高输出质量并从经验中学习。

规划(Planning): 规划是智能体将高层目标分解为可执行步骤序列的能力。包括任务分解、步骤排序、资源分配和执行监控。

路由(Routing): 路由是根据输入特征将请求定向到适当处理器的模式。在 Agent 系统中,路由可以将查询分类到专门的 Agent、工具或工作流。

并行化(Parallelization): 并行化是同时执行多个独立任务以提高效率的模式。适用于可以并发处理的子任务,如同时分析多个文档或查询多个数据源。

提示词链(Prompt Chaining): 提示词链是将复杂任务分解为顺序提示词序列的模式。每个提示词处理特定子任务,其输出作为下一个提示词的输入,形成依赖链。

更新说明

遇到新的术语时,请在此表格中添加,并确保全书使用统一的翻译。如对某个术语的翻译有疑问,请在 Issues 中讨论。