Lynx Li Blog

Rethinking R1-like Rule-based RL

2025-05-08

Research Blogs

#LLM #Reasoning

01-EM Models

1 Simplifying Maxwell Equations Macroscopic Maxwell equations describes any EM waves, we thus need to start from these equations to build our model in a mixed dielectric media like photonic crystals.

2025-04-30

Optics > Nanophotonics

#Optics #Photonics

RLHF -- GRPO

RLHF – GRPO ongoing

2025-02-16

LLM > RLHF

#智能系统 #深度学习 #AIGC

RLHF -- DPO

RLHF – DPO ongoing

2025-02-16

LLM > RLHF

#智能系统 #深度学习 #AIGC

RLHF -- From Zero to PPO 代码篇

RLHF: From Zero to PPO 代码篇 1 简单的强化学习示例 ongoing 2 从OpenRLHF中看PPO实现 ongoing

2025-02-16

LLM > RLHF

#智能系统 #深度学习 #AIGC

RLHF -- From Zero to PPO 理论篇

RLHF: From Zero to PPO 理论篇 1 强化学习101 1.1 建立基本框架假设我们有一个个体（agent），其处在某个环境中，个体在这个环境里一定会存在一个状态（state）（空间中的位置，时间中的某一刻），个体会采取某个行动（action）（例如空间中移动）导致状态更新。个体行动的方式被policy建模。 policy的作用是使用概率建模个体在某个状态下采取某个行动的

2025-02-13

LLM > RLHF

#智能系统 #深度学习 #AIGC

最初的sin/cos编码

位置编码–最初的sin/cos编码 1 1D 序列的sin/cos编码 1.1 介绍众所周知，Transformers模型本身没有关于位置的inductive bias，所以需要额外注入位置信息。在最初的《Attention is All You Need》[1]文章中，作者提出了首个流传至今的位置编码方式: sin/cos位置编码。假设模型的输入embedding为x∈RB×T×dx\

2025-02-06

LLM > Position Encoding

#智能系统 #深度学习 #AIGC

栈的基本应用

栈的基本应用 1 反转一个字符串输入：一个字符串"abcdef" 输出：反转字符串"fedcba" 栈结构天然适合反转问题，因为它具有先入后出的特性，我们可以把字符一个个push到栈里面，然后再把它们pop出来，

2024-07-26

算法 > 基本数据结构

#数据结构 #算法

Mamba

1 Introduction Mamba是一次用状态空间模型来做深度学习的Foundation Model的尝试，原论文是《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》，arXiv: 2312.00752. 2 前置知识：状态空间模型 2.1 连续情况状态空间模型在控制系统中常见，其目的是建立一个输入到中

2024-03-11

Linear Models

#智能系统 #深度学习 #序列模型

Optimizer Factory -- 写一个能够按层衰减的优化器工厂

1 Introduction 按层调节学习率是很重要的，但原始的torch.optim.optimizer类不含按层调整的功能，所以我们需要自定义一个流程来实现。为了方便的创建带这个功能的optimizer，最好的做法是使用工厂设计模式来创建optimizer。当我们需要不同的优化器的时候，optimizer factory总能够帮我们“加工”torch的optimizer来增加按层调整功能。

2024-01-28

AI Infra

#深度学习 #PyTorch