-
基于直接偏好优化对齐联邦大模型偏好的研究
一、原始依据 1、工作基础: 随着大模型技术的迅猛发展,大模型偏好对齐问题受到了广泛关注。其中,DPO(Direct Preference Optimization)作为一种高效的偏好对齐方法,... -
DPO直接偏好优化
DPO 产生的背景 RLHF(Reinforcement Learning with Human Feedback)基于人类反馈的强化学习,是近年来在人工智能,尤其是大型语言模型训练中非常关键的... -
联邦学习(一)
背景 大数据和人工智能的发展带来了数据孤岛和隐私安全问题。由于企业系统和业务的封闭性,数据垄断和数据孤岛现象日益严重,加之以新的数据法律法规,导致人工智能中依赖数据共享的传统数据处理模型成本提高... -
WSL磁盘空间压缩
前言 由于 WSL 的系统是作为文件存储在 Windows 系统中的,所以对 WSL 的一些操作会影响到 Windows 系统的磁盘空间使用情况。WSL 的磁盘空间使用情况可以通过wsl --l... -
机器学习(一)概述
基本概念 机器学习方法可以粗略地分为三个基本要素:模型、学习准则、优化算法 模型 线性模型: 非线性模型: 其中为个非线性基函数组成的向量参数包含了权重向量和偏置 损失函数 0-1 损失... -
MIT 6.828 实验记录 (二)
Introduction 在本实验中,您将为操作系统编写内存管理代码。内存管理有两个组成部分。 第一个组件是内核的物理内存分配器, 以便内核可以分配内存并随后释放它。 你的分配器将以 4096 ... -
MIPS指令类型
MIPS 指令 操作码的长度决定了可以提供多少个指令数;操作码的编码一定要有唯一的解释 一、计算机的寻址方式 立即寻址:指令中给出操作数 直接寻址:指令中给出操作数所在的有效地址 间接寻址:指... -
CPP set集合容器自定义比较函数
set 中自定义比较函数 使用 insert()将元素插入到集合中去的时候,集合会根据设定的比较函数将该元素放到该放的节点上去。在定义集合的时候,如果没有 指定比较函数,那么采用默认的比较函数(... -
CPP STL 容器介绍
C++ STL(Standard Template Library)是 C++标准库中的一个重要组成部分,提供了丰富的通用数据结构和算法。STL 旨在提供高效、可复用和可移植的编程工具,帮助开发... -
贝塞尔曲线
贝塞尔曲线 贝塞尔曲线(读作 [bezje])是一种使用数学方法描述的曲线,被广泛用于计算机图形学和动画中。在矢量图中,贝塞尔曲线用于定义可无限放大的光滑曲线。 贝塞尔曲线由至少两个控制点进行描...