基于直接偏好优化对齐联邦大模型偏好

A Survey on Federated Fine-tuning of Large Language Models

本综述（Wu 等，2025）[1] 首次系统性地回顾了大型语言模型（LLM）与联邦学习（FL）结合的领域——即FedLLM。论文旨在为研究者和实践者提供该领域的全景图、核心挑战、技术方案、评估资源及应用前景。

一、研究背景与目标

核心动机：传统 LLM 微调需集中数据，引发隐私和合规问题；本地独立微调则受限于数据规模与多样性。联邦微-tuning（Federated Fine-tuning） 通过在客户端本地训练并仅共享模型更新，实现了隐私保护下的协作式模型适应。 本文贡献：提供了截至 2025 年最全面的 FedLLM 综述，建立了系统性的技术分类法，提出了标准化的评估框架，并指出了未来研究方向。

二、核心挑战分析

联邦微调 LLM 面临四大主要挑战：

通信开销：LLMs 参数量巨大（如 LLaMA2-7B 有 70 亿参数），每轮训练传输完整参数会导致严重的带宽压力和延迟。
数据异构性：客户端数据通常是非独立同分布的，这会导致模型更新出现偏差、收敛变慢、性能下降。参数高效微调方法对此尤其敏感。
内存墙：边缘设备内存有限（通常 4-12GB），无法满足 LLM 微调时存储参数、激活值和梯度的巨大需求（如微调 LLaMA2-7B 需约 52GB 内存）。
计算开销：LLM 的前向和反向传播计算量巨大，远超传统模型（如 LLaMA2-13B 的计算量是 BERT 的 103 倍），边缘设备难以承受。

三、关键技术方法：参数高效联邦微调

为解决上述挑战，研究者将多种参数高效微调方法应用于 FL 框架，论文对其进行了系统性分类：

方法类别	核心思想	联邦场景下的典型变体与优化
*LoRA-based	为预训练权重引入低秩适配矩阵，只训练少量参数。	同质 LoRA：所有客户端使用相同秩。异质 LoRA：客户端根据资源使用不同秩。个性化 LoRA：为每个客户端学习个性化的低秩适配。
*Prompt-based	学习可训练的提示词嵌入，引导冻结的基模型适应任务。	通用提示调优：所有客户端共享同一组提示。个性化提示调优：每个客户端学习个性化提示。多领域提示调优：为不同领域学习特定提示。
*Adapter-based	在 Transformer 层中插入轻量级适配器模块，仅训练适配器。	同样可分为通用、个性化和多领域适配器调优。
Selective-based	仅选择性地微调部分参数（如偏置项、层归一化参数）。	通过仅更新和传输少量关键参数，大幅降低通信和计算成本。
*Other Methods	包括零阶优化、分割学习、模型压缩、数据选择等。	提供更多降低资源消耗的创新思路。

这是一个非常专业且清晰的表格，它总结了联邦学习中几种关键的参数高效微调和轻量化方法。它们的核心区别在于 “修改模型的哪一部分” 以及 “如何实现高效与个性化”。

下面我将对这几种方式进行详细的对比和解释：

1. LoRA-based（基于低秩适配）

核心思想：认为大模型在下游任务上的参数更新具有“低秩”特性。因此，不直接微调庞大的原始权重矩阵（例如，一个 1024x1024 的矩阵），而是冻结原始权重，并为其中一些关键矩阵（如注意力层的 Q/V 投影矩阵）注入一对小的、低秩的矩阵（比如 1024x8 和 8x1024）进行相乘。只训练这两个小矩阵。
关键区别： 参数位置：在原始权重旁侧新增可训练的低秩矩阵。优势：几乎不增加推理延迟（因为小矩阵可以与原权重合并），参数效率极高，是目前最主流和高效的方法之一。
联邦场景应用： 同质 LoRA：所有客户端使用相同大小的低秩矩阵（秩 r 相同）。简单统一，但无法适应异构设备。 异质 LoRA：根据客户端的计算、存储和通信能力，分配不同秩（r 值不同）的 LoRA 模块。资源充足的客户端用更大的秩学习更精细的知识，资源受限的客户端用更小的秩。这是联邦学习中非常有价值的方向。 个性化 LoRA：在全局共享的 LoRA 基础上，每个客户端额外保留一个完全本地、不共享的个性化 LoRA 模块，用于捕获其独特的本地数据特征。

2. Prompt-based（基于提示调优）

核心思想：将任务指令“编码”到输入数据中。冻结整个预训练模型，只在输入序列的起始或中间插入若干可训练的“提示向量”（Prompt Tokens）。通过优化这些提示向量，来引导冻结的模型完成特定任务。
关键区别： 参数位置：完全独立于模型主体，是附加在输入数据上的“软提示”。优势：最“轻量”，因为只训练几个 token 的嵌入向量；与模型架构完全解耦，通用性极强。
联邦场景应用： 通用提示：所有客户端共享和共同优化同一组提示向量。通信成本极低（只需传输几个向量）。 个性化提示：每个客户端学习并保留自己独有的提示向量，更适合数据异构性强的场景。

3. Adapter-based（基于适配器）

核心思想：在 Transformer 的每个层（或某些关键层）中，插入一个轻量级的神经网络模块（适配器）。通常是一个“瓶颈结构”：先降维，再经过非线性激活，最后升维。训练时冻结原始模型，只训练这些插入的适配器。
关键区别： 参数位置：在模型内部结构中插入新的微型模块。优势：模块化设计，可以灵活地插入到不同位置（FFN 后、注意力后等）。性能通常很强。 与 LoRA 的对比：LoRA 可以看作是 Adapter 的一种特例——它是一种无额外非线性激活的、加法式的参数更新方式。Adapter 是更显式的、带有非线性变换的附加模块。
联邦场景应用：分类逻辑与 LoRA 类似，可以分为共享适配器、个性化适配器等。

4. Selective-based（基于选择性微调）

核心思想：并非所有参数对任务同等重要。研究发现，仅微调模型中的一部分参数（如偏置项、层归一化层的参数、特定层的注意力头等）就能达到接近全参数微调的效果。
关键区别： 参数位置：从原始模型中挑选出的一部分“原装”参数，而不是新增参数。优势：实现最简单，无需改变模型结构或输入。由于选择的参数通常只占总量极少部分（<1%），通信和计算成本极低。挑战：需要先验知识或实验来确定哪些参数是“关键”的，选择不当可能效果不佳。

5. Other Methods（其他方法）

这些方法从不同维度解决联邦学习的挑战：

零阶优化：在不计算梯度（一阶信息）的情况下，通过评估函数值来更新模型，适用于无法反向传播（如黑盒 API）或梯度噪声大的场景。
分割学习：将模型纵向切分，客户端计算底层网络部分，服务器计算顶层部分。主要目的是保护隐私（原始数据不出本地）并分担计算，但通信开销和协调复杂度高。
模型压缩：在传输前对模型更新进行压缩（如量化、剪枝、稀疏化），直接降低通信成本。
数据选择：在本地训练时，智能选择最有价值的样本或批次进行学习，提高计算效率。

四、评估资源：数据集与基准

为确保 FedLLM 评估的公平性与全面性，论文整理了丰富的资源： 指令微调数据集：覆盖通用、金融、医疗、代码、数学、法律六大领域，列出了代表性数据集及其构建方法。 评估基准： 通用基准：评估指令遵循、推理、鲁棒性、长文本理解等（如 MMLU， TruthfulQA， LongBench）。 领域专用基准：针对金融（如 FinBen， PIXIU）、医疗（如 CBLUE， MultiMedQA）、代码（如 HumanEval， MBPP）、数学（如 MATH， GSM8K）、法律（如 LegalBench， LexGLUE）等垂直领域，提供细粒度性能评估。

五、实际应用

FedLLM 已在多个关键领域展现出应用潜力：

推荐系统：保护用户行为隐私的同时，利用 LLM 增强推荐质量（如 FELLRec， GPT-FedRec）。
生物医学研究：在不共享敏感患者数据的前提下，实现跨机构的医疗模型协作训练（如 FedMentalCare， FedFMS）。
金融：在遵守严格数据法规下，协同训练用于风险分析、交易等任务的金融 LLM（如 OpenFedLLM）。

六、未来研究方向

论文指出了 FedLLM 未来发展的几个关键方向：

模型安全：保护预训练模型的知识产权，防止在联邦部署中被恶意复制或逆向工程。
LLM 与 SLM 协作：探索大模型与小模型在联邦架构中的高效协作范式，平衡性能与效率。
多模态 FedLLM：将 FedLLM 扩展到图像、语音等多模态数据，处理模态异质性和对齐问题。
持续学习：使 FedLLM 能够适应客户端数据和任务的动态演变，避免灾难性遗忘。
内存高效 FedLLM：开发更极致的算法与系统协同设计，从根本上突破内存墙，让更多边缘设备能够参与。总结：本综述系统梳理了 FedLLM 这一新兴交叉领域的全貌，明确了其在隐私保护前提下释放 LLM 潜力的核心价值，详细分析了技术挑战、主流解决方案和评估体系，并为其在真实、资源受限的联邦环境中的未来发展绘制了清晰的路线图。

Advances and Open Problems in Federated Learning

一、核心定义与设定

论文将联邦学习定义为一种在中央服务器协调下，由多个客户端（如移动设备或组织）协作训练模型，同时保持训练数据去中心化的机器学习范式[1]。其核心原则是数据最小化与聚焦收集，旨在从源头降低隐私风险。论文区分了两种主要场景：

跨设备联邦学习：客户端为海量移动或物联网设备，具有数量极大、高度不可靠、通信受限、状态非持久化的特点。
跨孤岛联邦学习：客户端为少量组织（如医院、银行），具有数量较少、相对可靠、状态持久化的特点。此场景下还涉及纵向联邦学习（数据按特征划分）和联邦迁移学习[1]。

二、核心挑战与关键技术进展

论文围绕联邦学习落地面临的六大核心挑战进行了深入探讨：

效率与有效性提升
- 数据异构性：客户端数据通常为非独立同分布，论文系统分析了其特征分布偏移、标签分布偏移等多种形态及其对模型收敛的严重影响[1]。
- 优化算法：详细分析了联邦平均算法及其变体在 IID 与非 IID 数据下的收敛理论。指出本地多步更新虽降低通信开销，但加剧了客户端漂移，使理论分析变得复杂[1]。
- 个性化与多任务学习：为应对数据异构性，提出了通过本地微调、元学习及多任务学习等策略学习个性化模型，将挑战转化为机遇[1]。
- 通信压缩：通信带宽是核心瓶颈，论文综述了梯度压缩、模型广播压缩等多种通信效率提升技术[1]。
用户数据隐私保护
- 威胁模型：系统分析了系统中不同参与者（客户端、服务器、分析师等）的隐私威胁[1]。
- 技术工具箱：系统评估了用于实现严格隐私保证的三大类技术：
  - 隐私保护披露：以差分隐私为核心，包括中心化、本地化、分布式（通过安全聚合或安全混洗实现）和混合模型[1]。
  - 安全计算：包括安全多方计算、同态加密和可信执行环境，用于保护计算过程本身[1]。
  - 可验证性：通过零知识证明和远程认证，使一方能向另一方证明其按规定执行了计算[1]。
- 隐私深度防御：强调应组合多种技术，构建分级的隐私保护体系，以实现优雅降级[1]。
抵御攻击与故障
- 对抗性攻击：分析了投毒攻击（数据投毒、模型更新投毒）和推理时规避攻击，并讨论了拜占庭鲁棒聚合等防御机制[1]。
- 非恶意故障：包括客户端报告失败、数据管道故障和模型更新噪声等[1]。
- 隐私与鲁棒性的张力：指出安全聚合等隐私技术可能会掩盖恶意更新，给鲁棒性防御带来新挑战[1]。
确保公平性与应对偏见
- 系统诱发偏见：客户端设备可用性、选择策略、网络质量的差异可能导致训练数据不能代表全体用户，引入偏见[1]。
- 无敏感属性的公平性：在联邦场景中，中心服务器通常无法获取敏感属性，这为衡量和保证公平性带来新挑战[1]。
- 隐私、公平与鲁棒性的交集：探讨了这三个重要目标之间可能存在的协同与冲突关系[1]。
应对系统挑战
- 跨设备系统：面临部署监控困难、设备可用性动态变化引发偏见、系统参数调优复杂、设备端轻量级运行时缺失等独特挑战[1]。
- 跨孤岛系统：挑战主要在于跨组织协调成本高、软件栈与数据格式不统一、合规流程复杂等[1]。

三、新兴场景与相关范式

论文还探讨了联邦学习核心假设的放宽及其相关研究领域：

完全去中心化/对等学习：移除中央服务器，客户端直接通信，面临算法收敛、隐私保护和激励机制等挑战[1]。
拆分学习：将模型按层拆分在客户端与服务器端执行，以降低通信负载，但需分析中间激活值的信息泄漏风险[1]。

四、总结与资源

跨学科性：联邦学习的根本性进步需要机器学习、优化、密码学、安全、差分隐私、公平性、系统等多学科的深度融合[1]。
资源支持：论文附录整理了TensorFlow Federated、FATE、PySyft等模拟与生产框架，以及EMNIST、Stack Overflow、Shakespeare等基准数据集，为后续研究提供基础[1]。总之，本综述确立了联邦学习作为一个独立研究领域的核心问题域，构建了统一的技术与理论分析框架，并为其未来发展绘制了清晰的路线图，强调了在保护隐私的前提下实现高效、鲁棒、公平的协作学习是贯穿始终的目标。

Communication-Efficient Learning of Deep Networks from Decentralized Data

McMahan 等 (2017) [1] 的论文《Communication-Efficient Learning of Deep Networks from Decentralized Data》是联邦学习（Federated Learning）领域的奠基性工作。以下是全文的核心内容概括：

一、研究背景与问题定义

论文针对移动设备数据隐私敏感、规模庞大且不适合集中存储的现实挑战，首次明确提出了“联邦学习”范式。其核心思想是：数据保留在本地设备（客户端）上，通过协调一个中央服务器，仅聚合本地计算的模型更新来协作训练共享模型，从而实现 “数据最小化” 原则 [1]。作者将联邦优化问题与传统分布式优化区分开，指出了其四大关键特征：

非独立同分布：每个客户端的数据基于用户个人行为，不代表总体分布。
不平衡：不同客户端的数据量差异巨大。
大规模分布式：客户端数量远大于每个客户端的平均样本数。
通信受限：移动设备网络不稳定、带宽有限 [1]。

二、核心算法：FederatedAveraging (FedAvg)

为了降低通信这一主要瓶颈的成本，作者提出了 FedAvg 算法。该算法是对联邦随机梯度下降 的自然扩展，其核心思想是：在每轮通信中，让选中的客户端基于全局模型和本地数据执行多轮（而不仅仅是一轮）本地 SGD 更新，然后将这些更新后的本地模型参数进行加权平均，以生成新的全局模型 [1]。算法由三个关键参数控制： C：每轮参与计算的客户端比例。 E：每个客户端在每轮中遍历其本地数据的次数（本地 epoch 数）。 B：客户端本地更新时使用的批大小。当 B=∞ 且 E=1 时，FedAvg 退化为基础的 FedSGD。

三、实验验证与主要发现

论文通过在多种模型（多层感知机 MNIST 2NN、卷积神经网络 MNIST CNN、字符级 LSTM、大规模词级 LSTM）和数据集（MNIST、莎士比亚作品、CIFAR-10）上的广泛实验，验证了 FedAvg 的有效性，并得出以下关键结论：

通信效率大幅提升：通过增加本地计算（增大 E 或减小 B），FedAvg 能显著减少达到目标精度所需的通信轮数，速度提升可达10 倍至 100 倍。例如，在 CIFAR-10 上，FedAvg 比 FedSGD 快约 64 倍达到 80%准确率 [1]。
对非独立同分布数据的鲁棒性：即使在极端非独立同分布的 MNIST 数据（每个客户端只包含两个数字的样本）上，FedAvg 仍然有效且能带来加速，证明了其鲁棒性 [1]。
对不平衡数据的适应性：在莎士比亚数据集（按戏剧角色自然划分，数据量高度不平衡）上，FedAvg 表现尤为出色，在非独立同分布设定下的加速比（95 倍）甚至高于独立同分布设定（13 倍）。作者推测这是因为部分角色拥有大量本地数据，使得增加本地训练更为有益 [1]。
模型平均的正则化效应：FedAvg 不仅降低了通信成本，其模型平均操作还产生了类似 Dropout 的正则化效果，使得最终模型能达到比 FedSGD 更高的测试精度[1]。
参数选择的影响： 客户端并行度（C）：在一定阈值（如 C=0.1）以上，增加并行度对收敛速度的边际收益递减 [1]。 本地计算量（E）：并非越大越好。过度增加本地训练轮数（E 过大）可能导致模型在本地数据上过拟合，从而使全局聚合后性能下降或发散，暗示在训练后期可能需要衰减 E，类似于衰减学习率 [1]。

四、结论与未来方向

论文证明，FedAvg 是一种实用且高效的联邦学习算法，能够利用额外的本地计算来大幅降低通信成本，并能处理联邦场景中固有的非独立同分布和不平衡数据。作者指出，尽管联邦学习本身具有隐私优势，但未来工作可以结合 差分隐私、安全多方计算 等技术来提供更强的理论隐私保证 [1]。这篇开创性工作为后续联邦学习在算法、系统安全和隐私保护方面的研究奠定了基础。

基于直接偏好优化对齐联邦大模型偏好

A Survey on Federated Fine-tuning of Large Language Models

一、 研究背景与目标

二、 核心挑战分析

三、 关键技术方法：参数高效联邦微调

1. LoRA-based（基于低秩适配）

2. Prompt-based（基于提示调优）

3. Adapter-based（基于适配器）

4. Selective-based（基于选择性微调）

5. Other Methods（其他方法）

四、 评估资源：数据集与基准

五、 实际应用

六、 未来研究方向

Advances and Open Problems in Federated Learning

一、 核心定义与设定

二、 核心挑战与关键技术进展

三、 新兴场景与相关范式

四、 总结与资源