基于直接偏好优化对齐联邦大模型偏好
A Survey on Federated Fine-tuning of Large Language Models
本综述(Wu等,2025)[1] 首次系统性地回顾了大型语言模型(LLM)与联邦学习(FL)结合的领域——即FedLLM。论文旨在为研究者和实践者提供该领域的全景图、核心挑战、技术方案、评估资源及应用前景。
一、 研究背景与目标
核心动机:传统LLM微调需集中数据,引发隐私和合规问题;本地独立微调则受限于数据规模与多样性。联邦微-tuning(Federated Fine-tuning) 通过在客户端本地训练并仅共享模型更新,实现了隐私保护下的协作式模型适应。 本文贡献:提供了截至2025年最全面的FedLLM综述,建立了系统性的技术分类法,提出了标准化的评估框架,并指出了未来研究方向。
二、 核心挑战分析
联邦微调LLM面临四大主要挑战: 1. 通信开销:LLMs参数量巨大(如LLaMA2-7B有70亿参数),每轮训练传输完整参数会导致严重的带宽压力和延迟。 2. 数据异构性:客户端数据通常是非独立同分布的,这会导致模型更新出现偏差、收敛变慢、性能下降。参数高效微调方法对此尤其敏感。 3. 内存墙:边缘设备内存有限(通常4-12GB),无法满足LLM微调时存储参数、激活值和梯度的巨大需求(如微调LLaMA2-7B需约52GB内存)。 4. 计算开销:LLM的前向和反向传播计算量巨大,远超传统模型(如LLaMA2-13B的计算量是BERT的103倍),边缘设备难以承受。
三、 关键技术方法:参数高效联邦微调
为解决上述挑战,研究者将多种参数高效微调方法应用于FL框架,论文对其进行了系统性分类: | 方法类别 | 核心思想 | 联邦场景下的典型变体与优化 | | :—————— | :—————————————————- | :———————————————————– | | LoRA-based* | 为预训练权重引入低秩适配矩阵,只训练少量参数。 | 同质LoRA:所有客户端使用相同秩。异质LoRA:客户端根据资源使用不同秩。个性化LoRA:为每个客户端学习个性化的低秩适配。 | | Prompt-based* | 学习可训练的提示词嵌入,引导冻结的基模型适应任务。 | 通用提示调优:所有客户端共享同一组提示。个性化提示调优:每个客户端学习个性化提示。多领域提示调优:为不同领域学习特定提示。 | | Adapter-based* | 在Transformer层中插入轻量级适配器模块,仅训练适配器。 | 同样可分为通用、个性化和多领域适配器调优。 | | Selective-based** | 仅选择性地微调部分参数(如偏置项、层归一化参数)。 | 通过仅更新和传输少量关键参数,大幅降低通信和计算成本。 | | **Other Methods* | 包括零阶优化、分割学习、模型压缩、数据选择等。 | 提供更多降低资源消耗的创新思路。 |
这是一个非常专业且清晰的表格,它总结了联邦学习中几种关键的参数高效微调和轻量化方法。它们的核心区别在于 “修改模型的哪一部分” 以及 “如何实现高效与个性化”。
下面我将对这几种方式进行详细的对比和解释:
1. LoRA-based(基于低秩适配)
- 核心思想:认为大模型在下游任务上的参数更新具有“低秩”特性。因此,不直接微调庞大的原始权重矩阵(例如, 一个 1024x1024 的矩阵),而是冻结原始权重,并为其中一些关键矩阵(如注意力层的Q/V投影矩阵)注入一对小的、低秩的矩阵(比如 1024x8 和 8x1024)进行相乘。只训练这两个小矩阵。
- 关键区别: 参数位置:在原始权重旁侧新增可训练的低秩矩阵。 优势:几乎不增加推理延迟(因为小矩阵可以与原权重合并),参数效率极高,是目前最主流和高效的方法之一。
- 联邦场景应用: 同质LoRA:所有客户端使用相同大小的低秩矩阵(秩r相同)。简单统一,但无法适应异构设备。 异质LoRA:根据客户端的计算、存储和通信能力,分配不同秩(r值不同)的LoRA模块。资源充足的客户端用更大的秩学习更精细的知识,资源受限的客户端用更小的秩。这是联邦学习中非常有价值的方向。 个性化LoRA:在全局共享的LoRA基础上,每个客户端额外保留一个完全本地、不共享的个性化LoRA模块,用于捕获其独特的本地数据特征。
2. Prompt-based(基于提示调优)
- 核心思想:将任务指令“编码”到输入数据中。冻结整个预训练模型,只在输入序列的起始或中间插入若干可训练的“提示向量”(Prompt Tokens)。通过优化这些提示向量,来引导冻结的模型完成特定任务。
- 关键区别: 参数位置:完全独立于模型主体,是附加在输入数据上的“软提示”。 优势:最“轻量”,因为只训练几个token的嵌入向量;与模型架构完全解耦,通用性极强。
- 联邦场景应用: 通用提示:所有客户端共享和共同优化同一组提示向量。通信成本极低(只需传输几个向量)。 个性化提示:每个客户端学习并保留自己独有的提示向量,更适合数据异构性强的场景。
3. Adapter-based(基于适配器)
- 核心思想:在Transformer的每个层(或某些关键层)中,插入一个轻量级的神经网络模块(适配器)。通常是一个“瓶颈结构”:先降维,再经过非线性激活,最后升维。训练时冻结原始模型,只训练这些插入的适配器。
- 关键区别: 参数位置:在模型内部结构中插入新的微型模块。 优势:模块化设计,可以灵活地插入到不同位置(FFN后、注意力后等)。性能通常很强。 与LoRA的对比:LoRA可以看作是Adapter的一种特例——它是一种无额外非线性激活的、加法式的参数更新方式。Adapter是更显式的、带有非线性变换的附加模块。
- 联邦场景应用:分类逻辑与LoRA类似,可以分为共享适配器、个性化适配器等。
4. Selective-based(基于选择性微调)
- 核心思想:并非所有参数对任务同等重要。研究发现,仅微调模型中的一部分参数(如偏置项、层归一化层的参数、特定层的注意力头等)就能达到接近全参数微调的效果。
- 关键区别: 参数位置:从原始模型中挑选出的一部分“原装”参数,而不是新增参数。 优势:实现最简单,无需改变模型结构或输入。由于选择的参数通常只占总量极少部分(<1%),通信和计算成本极低。 挑战:需要先验知识或实验来确定哪些参数是“关键”的,选择不当可能效果不佳。
5. Other Methods(其他方法)
这些方法从不同维度解决联邦学习的挑战:
- 零阶优化:在不计算梯度(一阶信息)的情况下,通过评估函数值来更新模型,适用于无法反向传播(如黑盒API)或梯度噪声大的场景。
- 分割学习:将模型纵向切分,客户端计算底层网络部分,服务器计算顶层部分。主要目的是保护隐私(原始数据不出本地)并分担计算,但通信开销和协调复杂度高。
- 模型压缩:在传输前对模型更新进行压缩(如量化、剪枝、稀疏化),直接降低通信成本。
- 数据选择:在本地训练时,智能选择最有价值的样本或批次进行学习,提高计算效率。
四、 评估资源:数据集与基准
为确保FedLLM评估的公平性与全面性,论文整理了丰富的资源: 指令微调数据集:覆盖通用、金融、医疗、代码、数学、法律六大领域,列出了代表性数据集及其构建方法。 评估基准: 通用基准:评估指令遵循、推理、鲁棒性、长文本理解等(如MMLU, TruthfulQA, LongBench)。 领域专用基准:针对金融(如FinBen, PIXIU)、医疗(如CBLUE, MultiMedQA)、代码(如HumanEval, MBPP)、数学(如MATH, GSM8K)、法律(如LegalBench, LexGLUE)等垂直领域,提供细粒度性能评估。
五、 实际应用
FedLLM已在多个关键领域展现出应用潜力: 1. 推荐系统:保护用户行为隐私的同时,利用LLM增强推荐质量(如FELLRec, GPT-FedRec)。 2. 生物医学研究:在不共享敏感患者数据的前提下,实现跨机构的医疗模型协作训练(如FedMentalCare, FedFMS)。 3. 金融:在遵守严格数据法规下,协同训练用于风险分析、交易等任务的金融LLM(如OpenFedLLM)。
六、 未来研究方向
论文指出了FedLLM未来发展的几个关键方向: 1. 模型安全:保护预训练模型的知识产权,防止在联邦部署中被恶意复制或逆向工程。 2. LLM与SLM协作:探索大模型与小模型在联邦架构中的高效协作范式,平衡性能与效率。 3. 多模态FedLLM:将FedLLM扩展到图像、语音等多模态数据,处理模态异质性和对齐问题。 4. 持续学习:使FedLLM能够适应客户端数据和任务的动态演变,避免灾难性遗忘。 5. 内存高效FedLLM:开发更极致的算法与系统协同设计,从根本上突破内存墙,让更多边缘设备能够参与。 总结:本综述系统梳理了FedLLM这一新兴交叉领域的全貌,明确了其在隐私保护前提下释放LLM潜力的核心价值,详细分析了技术挑战、主流解决方案和评估体系,并为其在真实、资源受限的联邦环境中的未来发展绘制了清晰的路线图。
Advances and Open Problems in Federated Learning
一、 核心定义与设定
论文将联邦学习定义为一种在中央服务器协调下,由多个客户端(如移动设备或组织)协作训练模型,同时保持训练数据去中心化的机器学习范式[1]。其核心原则是数据最小化与聚焦收集,旨在从源头降低隐私风险。 论文区分了两种主要场景:
- 跨设备联邦学习:客户端为海量移动或物联网设备,具有数量极大、高度不可靠、通信受限、状态非持久化的特点。
- 跨孤岛联邦学习:客户端为少量组织(如医院、银行),具有数量较少、相对可靠、状态持久化的特点。此场景下还涉及纵向联邦学习(数据按特征划分)和联邦迁移学习[1]。
二、 核心挑战与关键技术进展
论文围绕联邦学习落地面临的六大核心挑战进行了深入探讨:
- 效率与有效性提升
- 数据异构性:客户端数据通常为非独立同分布,论文系统分析了其特征分布偏移、标签分布偏移等多种形态及其对模型收敛的严重影响[1]。
- 优化算法:详细分析了联邦平均算法及其变体在IID与非IID数据下的收敛理论。指出本地多步更新虽降低通信开销,但加剧了客户端漂移,使理论分析变得复杂[1]。
- 个性化与多任务学习:为应对数据异构性,提出了通过本地微调、元学习及多任务学习等策略学习个性化模型,将挑战转化为机遇[1]。
- 通信压缩:通信带宽是核心瓶颈,论文综述了梯度压缩、模型广播压缩等多种通信效率提升技术[1]。
- 用户数据隐私保护
- 威胁模型:系统分析了系统中不同参与者(客户端、服务器、分析师等)的隐私威胁[1]。
- 技术工具箱:系统评估了用于实现严格隐私保证的三大类技术:
- 隐私保护披露:以差分隐私为核心,包括中心化、本地化、分布式(通过安全聚合或安全混洗实现)和混合模型[1]。
- 安全计算:包括安全多方计算、同态加密和可信执行环境,用于保护计算过程本身[1]。
- 可验证性:通过零知识证明和远程认证,使一方能向另一方证明其按规定执行了计算[1]。
- 隐私深度防御:强调应组合多种技术,构建分级的隐私保护体系,以实现优雅降级[1]。
- 抵御攻击与故障
- 对抗性攻击:分析了投毒攻击(数据投毒、模型更新投毒)和推理时规避攻击,并讨论了拜占庭鲁棒聚合等防御机制[1]。
- 非恶意故障:包括客户端报告失败、数据管道故障和模型更新噪声等[1]。
- 隐私与鲁棒性的张力:指出安全聚合等隐私技术可能会掩盖恶意更新,给鲁棒性防御带来新挑战[1]。
- 确保公平性与应对偏见
- 系统诱发偏见:客户端设备可用性、选择策略、网络质量的差异可能导致训练数据不能代表全体用户,引入偏见[1]。
- 无敏感属性的公平性:在联邦场景中,中心服务器通常无法获取敏感属性,这为衡量和保证公平性带来新挑战[1]。
- 隐私、公平与鲁棒性的交集:探讨了这三个重要目标之间可能存在的协同与冲突关系[1]。
- 应对系统挑战
- 跨设备系统:面临部署监控困难、设备可用性动态变化引发偏见、系统参数调优复杂、设备端轻量级运行时缺失等独特挑战[1]。
- 跨孤岛系统:挑战主要在于跨组织协调成本高、软件栈与数据格式不统一、合规流程复杂等[1]。
三、 新兴场景与相关范式
论文还探讨了联邦学习核心假设的放宽及其相关研究领域:
- 完全去中心化/对等学习:移除中央服务器,客户端直接通信,面临算法收敛、隐私保护和激励机制等挑战[1]。
- 拆分学习:将模型按层拆分在客户端与服务器端执行,以降低通信负载,但需分析中间激活值的信息泄漏风险[1]。
四、 总结与资源
- 跨学科性:联邦学习的根本性进步需要机器学习、优化、密码学、安全、差分隐私、公平性、系统等多学科的深度融合[1]。
- 资源支持:论文附录整理了TensorFlow Federated、FATE、PySyft等模拟与生产框架,以及EMNIST、Stack Overflow、Shakespeare等基准数据集,为后续研究提供基础[1]。 总之,本综述确立了联邦学习作为一个独立研究领域的核心问题域,构建了统一的技术与理论分析框架,并为其未来发展绘制了清晰的路线图,强调了在保护隐私的前提下实现高效、鲁棒、公平的协作学习是贯穿始终的目标。
Communication-Efficient Learning of Deep Networks from Decentralized Data
McMahan 等 (2017) [1] 的论文《Communication-Efficient Learning of Deep Networks from Decentralized Data》是联邦学习(Federated Learning)领域的奠基性工作。以下是全文的核心内容概括:
一、 研究背景与问题定义
论文针对移动设备数据隐私敏感、规模庞大且不适合集中存储的现实挑战,首次明确提出了“联邦学习”范式。其核心思想是:数据保留在本地设备(客户端)上,通过协调一个中央服务器,仅聚合本地计算的模型更新来协作训练共享模型,从而实现 “数据最小化” 原则 [1]。 作者将联邦优化问题与传统分布式优化区分开,指出了其四大关键特征: 1. 非独立同分布:每个客户端的数据基于用户个人行为,不代表总体分布。 2. 不平衡:不同客户端的数据量差异巨大。 3. 大规模分布式:客户端数量远大于每个客户端的平均样本数。 4. 通信受限:移动设备网络不稳定、带宽有限 [1]。
二、 核心算法:FederatedAveraging (FedAvg)
为了降低通信这一主要瓶颈的成本,作者提出了 FedAvg 算法。该算法是对联邦随机梯度下降 的自然扩展,其核心思想是:在每轮通信中,让选中的客户端基于全局模型和本地数据执行多轮(而不仅仅是一轮)本地SGD更新,然后将这些更新后的本地模型参数进行加权平均,以生成新的全局模型 [1]。 算法由三个关键参数控制: C:每轮参与计算的客户端比例。 E:每个客户端在每轮中遍历其本地数据的次数(本地 epoch 数)。 B:客户端本地更新时使用的批大小。 当 B=∞ 且 E=1 时,FedAvg 退化为基础的 FedSGD。
三、 实验验证与主要发现
论文通过在多种模型(多层感知机MNIST 2NN、卷积神经网络MNIST CNN、字符级LSTM、大规模词级LSTM)和数据集(MNIST、莎士比亚作品、CIFAR-10)上的广泛实验,验证了FedAvg的有效性,并得出以下关键结论: 1. 通信效率大幅提升:通过增加本地计算(增大 E 或减小 B),FedAvg 能显著减少达到目标精度所需的通信轮数,速度提升可达10倍至100倍。例如,在CIFAR-10上,FedAvg比FedSGD快约64倍达到80%准确率 [1]。 2. 对非独立同分布数据的鲁棒性:即使在极端非独立同分布的MNIST数据(每个客户端只包含两个数字的样本)上,FedAvg 仍然有效且能带来加速,证明了其鲁棒性 [1]。 3. 对不平衡数据的适应性:在莎士比亚数据集(按戏剧角色自然划分,数据量高度不平衡)上,FedAvg 表现尤为出色,在非独立同分布设定下的加速比(95倍)甚至高于独立同分布设定(13倍)。作者推测这是因为部分角色拥有大量本地数据,使得增加本地训练更为有益 [1]。 4. 模型平均的正则化效应:FedAvg 不仅降低了通信成本,其模型平均操作还产生了类似 Dropout 的正则化效果,使得最终模型能达到比 FedSGD 更高的测试精度[1]。 5. 参数选择的影响: 客户端并行度(C):在一定阈值(如 C=0.1)以上,增加并行度对收敛速度的边际收益递减 [1]。 本地计算量(E):并非越大越好。过度增加本地训练轮数(E 过大)可能导致模型在本地数据上过拟合,从而使全局聚合后性能下降或发散,暗示在训练后期可能需要衰减 E,类似于衰减学习率 [1]。
四、 结论与未来方向
论文证明,FedAvg 是一种实用且高效的联邦学习算法,能够利用额外的本地计算来大幅降低通信成本,并能处理联邦场景中固有的非独立同分布和不平衡数据。 作者指出,尽管联邦学习本身具有隐私优势,但未来工作可以结合 差分隐私、安全多方计算 等技术来提供更强的理论隐私保证 [1]。这篇开创性工作为后续联邦学习在算法、系统安全和隐私保护方面的研究奠定了基础。
- Title: 基于直接偏好优化对齐联邦大模型偏好
- Author: Ryan Lu
- Created at : 2025-12-30 14:44:06
- Updated at : 2025-12-30 07:32:02
- Link: http://ryan-hub.site/ac09309ec1ad/
- License: This work is licensed under CC BY-NC-SA 4.0.