基于 DPO 对齐的联邦大模型偏好研究——毕设探索与问题解决记录

摘要

本研究聚焦于基于 DPO（Direct Preference Optimization）对齐的联邦大模型偏好方向，旨在结合联邦学习与直接偏好优化技术，在保护用户隐私的前提下实现分布式环境下的模型对齐。本文档记录了从理论探索到代码实现过程中遇到的技术问题及解决方案，可作为毕业论文相关章节的参考资料。

第一章研究背景与理论基础

1.1 研究背景

随着大型语言模型（Large Language Models, LLMs）的快速发展，如何使模型的输出更好地符合人类偏好成为了重要研究方向。传统的 RLHF（Reinforcement Learning from Human Feedback）方法需要训练额外的奖励模型（Reward Model），计算开销较大。DPO（Direct Preference Optimization）作为一种新兴的对齐技术，直接通过偏好数据进行优化，无需显式的奖励模型，在效率和效果上都展现出优异的表现。

与此同时，联邦学习（Federated Learning）作为一种分布式机器学习范式，能够在保护用户数据隐私的前提下实现多方协同训练。将 DPO 与联邦学习结合，可以在不暴露用户偏好数据的情况下，聚合多个客户端的偏好信号，实现全局模型的优化。这一方向具有重要的理论价值和实践意义。

1.2 DPO 核心原理

1.2.1 损失函数定义

DPO 的核心思想是最大化”好回答”与”坏回答”之间的概率差异。其损失函数定义为：

其中： - ：待优化的策略模型（Policy Model） - ：参考模型（Reference Model），通常保持冻结 - ：输入的提示（Prompt） - ：被选择的回答（Chosen/Winner） - ：被拒绝的回答（Rejected/Loser） - ：KL 正则化系数，控制模型与参考模型的偏离程度 - ：Sigmoid 函数

该损失函数可以理解为：让模型倾向于增加选择答案的对数概率，同时降低拒绝答案的对数概率，从而实现偏好的直接对齐。

1.2.2 DPO 与 RLHF 的对比

特性	RLHF	DPO
奖励模型	需要单独训练	无需奖励模型
训练复杂度	高（涉及 PPO 训练）	低（仅需 SFT 级别计算）
样本效率	较低	较高
实现难度	复杂，需调参	简单，开箱即用

1.3 联邦学习基本原理

联邦学习的核心思想是”数据不动，模型动”。在每一轮通信中： 1. 服务端将当前全局模型参数发送给各客户端 2. 各客户端使用本地数据对模型进行本地训练 3. 客户端将训练后的参数更新上传至服务端 4. 服务端聚合各客户端的参数更新，更新全局模型

经典的 FedAvg（Federated Averaging）算法通过加权平均来聚合客户端的模型参数：

其中为第个客户端的样本数量，为总样本数量。

第二章技术架构与实现方案

2.1 系统总体架构

本研究采用经典的联邦学习架构，包含服务端和客户端两部分：

服务端（Server）：负责初始化全局模型、聚合各客户端的 LoRA 权重、更新全局模型
客户端（Client）：负责加载本地偏好数据、执行本地 DPO 训练、返回更新后的权重

2.2 技术栈选型

层次	技术选型	理由
大模型后端	Hugging Face `transformers`	生态丰富，支持主流大模型
DPO 实现	`trl` 库的 `DPOTrainer`	开箱即用，封装完整
参数高效微调	LoRA (PEFT)	显著降低通信和计算开销
模型量化	BitsAndBytes (4-bit NF4)	减少显存占用
基座模型	Qwen2.5-7B-Instruct	已具备对话能力，便于直接进行偏好对齐

2.3 模型基座选择：Base vs Instruct

在 DPO 训练中，模型基座的选择至关重要。Base 模型和 Instruct 模型的对比如下：

特性	Base 模型	Instruct / Chat 模型
训练阶段	仅经过预训练	预训练 + SFT + RLHF/DPO
能力	文本续写（预测下一个词）	理解指令、对话、拒绝有害请求
输入示例	“北京的气候…”	“请告诉我北京的气候特点。”
输出示例	“…四季分明，春天干燥…”	“北京属于温带季风气候…”
角色定位	知识库、续写器	助理、聊天机器人
DPO 适用性	需先进行 SFT	直接用于偏好对齐

本研究选择 Instruct 模型（Qwen2.5-7B-Instruct）作为基座，原因如下： 1. 模型已具备基本的对话和服从指令能力 2. 可直接进入偏好对齐的核心研究 3. 节省时间，无需额外进行 SFT 微调

2.4 LoRA 权重聚合方案

由于大模型全参训练通信量极大（7B 模型约 14GB），本研究采用 LoRA（Low-Rank Adaptation）进行参数高效微调。

2.4.1 LoRA 原理简介

LoRA 的核心思想是在预训练模型的权重矩阵旁边添加低秩分解矩阵：

其中为原始权重，、为低秩矩阵（）。训练过程中只更新和，原始权重保持冻结。

2.4.2 LoRA 配置

LORA_CONFIG = LoraConfig(
    r=16,                      # 低秩维度
    lora_alpha=32,             # 缩放系数
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],  # 目标模块
    lora_dropout=0.05,         # Dropout 概率
    bias="none",               # 不使用偏置
    task_type="CAUSAL_LM",    # 任务类型
)

2.4.3 FedAvg 权重聚合实现

def aggregate(weights_list):
    """
    FedAvg 聚合：对多个客户端的 LoRA 权重取平均
    weights_list: 包含多个 state_dict 的列表
    """
    avg_weights = copy.deepcopy(weights_list[0])
    num_clients = len(weights_list)

    for key in avg_weights.keys():
        # 只聚合可训练的 LoRA 参数
        if 'lora_' in key:
            for i in range(1, num_clients):
                avg_weights[key] += weights_list[i][key]
            avg_weights[key] = torch.div(avg_weights[key], num_clients)

    return avg_weights

第三章实验环境配置与问题解决

3.1 云端算力平台的文件持久化问题

3.1.1 问题描述

在 AutoDL 等云端算力平台上运行训练时，发现模型文件、数据集和训练结果存储在系统缓存目录（/root/.cache），每次关机后会被清空。这对于需要长时间训练的毕业设计而言是严重的数据安全隐患。

3.1.2 解决方案

将所有文件操作指向挂载的持久化存储盘：

from pathlib import Path

# 持久化路径配置
PERSISTENT_DIR = Path("/autodl-fs/data")
MODEL_CACHE_DIR = PERSISTENT_DIR / "model_cache"
DATA_DIR = PERSISTENT_DIR / "data"
CHECKPOINT_DIR = PERSISTENT_DIR / "checkpoints"

# 自动创建所有必要的持久化目录
for p in [MODEL_CACHE_DIR, DATA_DIR, CHECKPOINT_DIR]:
    p.mkdir(parents=True, exist_ok=True)

同时在模型加载时显式指定 cache_dir：

model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    quantization_config=bnb_config,
    torch_dtype=torch.bfloat16,
    device_map={"": 0},
    cache_dir=str(MODEL_CACHE_DIR),  # 核心：锁定下载位置
    trust_remote_code=True
)

3.2 Python 环境持久化

3.2.1 问题描述

云端环境的 Python 库在关机后会丢失，每次重启都需要重新安装依赖，耗费大量时间。

3.2.2 解决方案

使用 Conda 将环境安装到挂载盘：

# 创建环境并安装到挂载盘
conda create --prefix /autodl-fs/conda_envs/dpo_env python=3.10

# 激活环境
conda activate /autodl-fs/conda_envs/dpo_env

# 安装依赖
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install transformers trl peft bitsandbytes datasets flash-attn

第四章代码实现中的问题与解决

4.1 DPOTrainer API 参数变更

4.1.1 问题描述

1	TypeError: DPOTrainer.__init__() got an unexpected keyword argument 'tokenizer'

4.1.2 问题原因

在较新版本的 trl 库中，API 发生了变更。为了兼容多模态模型，tokenizer 参数被替换为 processing_class。

4.1.3 解决方案

trainer = DPOTrainer(
    model=model,
    ref_model=None,  # DPO 在 PEFT 模式下会自动处理 ref_model
    args=training_args,
    train_dataset=local_data,
    processing_class=tokenizer,  # 使用 processing_class 替代 tokenizer
)

4.2 Tokenizer Mismatch 问题（核心技术难题）

4.2.1 问题描述

1
2
3

[RANK 0] Mismatch between tokenized prompt and the start of tokenized prompt+rejected
This may be due to unexpected tokenizer behavior, whitespace issues, or special token handling.
Verify that the tokenizer is processing text consistently.

这是 DPO 训练中最常见且棘手的问题。DPO 算法要求 tokenize(prompt) 的结果必须与 tokenize(prompt + chosen) 的前缀完全一致，否则无法计算偏好损失。

4.2.2 分词器工作原理

分词器（Tokenizer） 是连接”人类语言”和”计算机数学”的翻译官，其工作流程包括：

切分 (Tokenization)：将文本切成子词级别的”零件”
- 单词级别：如 “Helpful”
- 子词级别：如 “Help” + “ful”（主流方式）
- 字符级别：如 “H” + “e” + “l” + “p”
映射 (Mapping)：查阅词表，将每个零件换成对应的数字 ID
- “Help” → 145
- “ful” → 289
添加特殊标记：添加 BOS（句子起始）、EOS（句子结束）、PAD（填充）等特殊 Token

4.2.3 根因分析：Token Collapsing 现象

通过编写调试脚本进行 Token 级别的分析，发现问题在于 Token 塌陷（Token Collapsing）：

1
2
3

冲突位置索引: 71
单独分词结果: 'Ġ'      # 代表空格 (ID: 220)
拼接分词结果: 'ĠA'     # 空格+A 被合并 (ID: 362)

原因分析：Qwen 使用的 Byte-level BPE 分词器对空格极其敏感。在单独分词 prompt 时，Assistant: 后面的空格被识别为独立的 Token（Ġ, ID: 220）；但在拼接分词时，分词器将”空格+A”合并成了一个新 Token（ĠA, ID: 362），导致前缀不匹配。

4.2.4 解决方案

方案一：数据格式调整

在数据加载后进行在线修复：

def fix_alignment(example):
    return {
        "prompt": example["prompt"].rstrip(),  # 删除结尾空格
        "chosen": " " + example["chosen"].lstrip(),   # 开头强加空格
        "rejected": " " + example["rejected"].lstrip(),
    }

local_data = local_data.map(fix_alignment)

方案二：分词器配置

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"  # DPO 训练必须右填充
tokenizer.add_bos_token = False   # 关闭自动添加 BOS
tokenizer.add_eos_token = False   # 关闭自动添加 EOS

方案三：DPOConfig 设置

training_args = DPOConfig(
    bf16=True,
    per_device_train_batch_size=2,
    gradient_accumulation_steps=4,
    max_steps=50,
    learning_rate=5e-5,
    beta=0.1,
    remove_unused_columns=False,
    add_special_tokens=False,      # 关键：不让 Trainer 自动添加特殊 Token
    force_use_chat_template=False, # 禁用自动模板
    padding_side="right",
)

4.2.5 调试工具

编写了专门的调试函数来定位 Token 不匹配的位置：

def check_dpo_alignment(tokenizer, example):
    """
    检测 Qwen 分词对齐问题的函数
    """
    prompt = example['prompt']
    chosen = example['chosen']
    full_text = prompt + chosen

    # 分别编码
    prompt_ids = tokenizer.encode(prompt, add_special_tokens=False)
    full_ids = tokenizer.encode(full_text, add_special_tokens=False)

    # 截取前缀
    prefix_ids = full_ids[:len(prompt_ids)]

    if prompt_ids != prefix_ids:
        print("\n" + "!"*40)
        print("❌ [对齐失败] 发现分词冲突！")

        # 打印 ID 差异
        print(f"Prompt IDs (前5个): {prompt_ids[:5]} ... (最后2个): {prompt_ids[-2:]}")
        print(f"Full   IDs (前5个): {prefix_ids[:5]} ... (最后2个): {prefix_ids[-2:]}")

        # 寻找第一个不匹配的点
        for i in range(min(len(prompt_ids), len(prefix_ids))):
            if prompt_ids[i] != prefix_ids[i]:
                p_token = tokenizer.convert_ids_to_tokens([prompt_ids[i]])[0]
                f_token = tokenizer.convert_ids_to_tokens([prefix_ids[i]])[0]
                print(f"\n冲突位置索引: {i}")
                print(f"单独分词结果: '{p_token}' (ID: {prompt_ids[i]})")
                print(f"拼接分词结果: '{f_token}' (ID: {prefix_ids[i]})")
                print("💡 建议：检查该位置前后是否有空格合并或换行符干扰。")
                break
        print("!"*40 + "\n")
        return False
    return True

第五章数据处理与格式要求

5.1 DPO 数据标准格式

在联邦学习的本地训练阶段，DPOTrainer 期望读取的数据格式如下：

字段	说明	示例
prompt	用户提出的问题或上下文	“请告诉我如何煮咖啡？”
chosen	更好的回答（符合人类偏好）	“首先磨碎咖啡豆，然后加入热水…”
rejected	较差的回答	“去店里买一杯就行了。”

5.2 数据集选择与处理

本研究使用 Anthropic/hh-rlhf 数据集，该数据集包含人类标注的偏好对。数据预处理流程：

从 Hugging Face 加载数据集
从完整对话中提取 prompt、chosen、rejected 三元组
按客户端数量进行数据分片
保存为 JSONL 格式供各客户端加载

5.3 数据污染问题

5.3.1 问题描述

Instruct 模型可能在预训练阶段已经见过相同的数据集（如 hh-rlhf），导致 DPO 训练效果不佳，模型可能已经”见过”了这些偏好数据。

5.3.2 解决方案

使用最新的偏好数据集（如 2024-2025 年发布的数据集）
构造人工负样本，改变偏好标准（如训练”简洁风格”而非”详细风格”）
在论文中说明研究重点是”分布式环境下的增量偏好对齐”

第六章 Non-IID 问题与研究展望

6.1 非独立同分布问题

联邦学习中的重要研究方向：不同用户的偏好可能完全不同。例如： - 客户端 A 喜欢简洁的回答 - 客户端 B 喜欢详细的回答 - 客户端 C 喜欢专业的回答

6.2 可设计的实验

标签偏置：让客户端 1 拥有更多”编程”偏好数据，客户端 2 拥有更多”文学写作”数据
质量偏置：让某些客户端的数据包含更明显的偏好差异

6.3 毕设潜在创新点

观察 FedAvg 聚合后模型是否会被”带偏”
讨论如何检测并剔除”差评数据”的客户端
分析 Non-IID 数据分布对联邦聚合的影响
设计个性化联邦学习策略处理偏好冲突

第七章总结

7.1 问题解决汇总

序号	问题类型	问题描述	关键解决方案
1	环境配置	云端文件关机丢失	指向挂载盘路径
2	环境配置	Python 环境丢失	Conda 安装到挂载盘
3	模型选择	不确定模型类型	选择 Instruct 模型
4	数据问题	数据污染担忧	使用新数据集或构造负样本
5	代码实现	API 参数错误	使用 processing_class
6	核心难题	Token Mismatch	空格隔离 + 关闭自动 BOS
7	通信效率	全量参数通信过大	采用 LoRA 权重聚合

7.2 后续工作

解决 Token 对齐问题后，进行完整的联邦 DPO 训练
对比训练前后的模型偏好表现
分析 Non-IID 数据分布对联邦聚合的影响
撰写毕业论文实验部分

基于 DPO 对齐的联邦大模型偏好研究——毕设探索与问题解决记录

基于 DPO 对齐的联邦大模型偏好研究——毕设探索与问题解决记录

摘要

第一章 研究背景与理论基础

1.1 研究背景

1.2 DPO 核心原理

1.2.1 损失函数定义

1.2.2 DPO 与 RLHF 的对比

1.3 联邦学习基本原理

第二章 技术架构与实现方案

2.1 系统总体架构

2.2 技术栈选型

2.3 模型基座选择：Base vs Instruct

2.4 LoRA 权重聚合方案

2.4.1 LoRA 原理简介

2.4.2 LoRA 配置

2.4.3 FedAvg 权重聚合实现

第三章 实验环境配置与问题解决

3.1 云端算力平台的文件持久化问题

3.1.1 问题描述

3.1.2 解决方案

3.2 Python 环境持久化

3.2.1 问题描述

3.2.2 解决方案

第四章 代码实现中的问题与解决

4.1 DPOTrainer API 参数变更

4.1.1 问题描述

4.1.2 问题原因

4.1.3 解决方案

4.2 Tokenizer Mismatch 问题（核心技术难题）

4.2.1 问题描述

4.2.2 分词器工作原理

4.2.3 根因分析：Token Collapsing 现象

4.2.4 解决方案

4.2.5 调试工具

第五章 数据处理与格式要求

5.1 DPO 数据标准格式

5.2 数据集选择与处理

5.3 数据污染问题

5.3.1 问题描述

5.3.2 解决方案

第六章 Non-IID 问题与研究展望

6.1 非独立同分布问题

6.2 可设计的实验

6.3 毕设潜在创新点

第七章 总结

7.1 问题解决汇总

7.2 后续工作

第一章研究背景与理论基础

第二章技术架构与实现方案

第三章实验环境配置与问题解决

第四章代码实现中的问题与解决

第五章数据处理与格式要求

第七章总结