头像

九九的个人博客

龙出海,虎下山,世间万事,风云变幻。

最新文章

算法

RLHF 的三阶段流程

基础知识RLHF 的三阶段流程RLHF(Reinforcement Learning from Human Feedback)通常包含三个主要阶段: 监督微调(SFT)→ 偏好采样 + 奖励模型学习 → 强化学习优化(RL) 简单可以理解为...

2026-02-23 LLM
算法

力扣 88:合并两个有序数组

题目描述给定两个按非递减顺序排列的整数数组 nums1 和 nums2,分别有长度 m、n。请将 nums2 原地 合并到 nums1,使结果仍保持非递减顺序。nums1 的总长度为 m + n,末尾的 n 个位置初始化为 0 作为缓冲区。...

2026-02-23 力扣 / 数组