PingchengDong's picture

2 5

PingchengDong

heisei

·

AI & ML interests

None yet

Recent Activity

upvoted a paper about 2 months ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

liked a model 3 months ago

nvidia/DLER-R1-7B-Research

liked a model 3 months ago

nvidia/DLER-Llama-Nemotron-8B-Merge-Research

View all activity

Organizations

None yet

upvoted a paper about 2 months ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published Jan 8 • 227

upvoted a collection 4 months ago

Reasoning Efficiency Research

Ultra-efficient reasoning model! SOTA Accuracy / CoT Length trade-offs • 3 items • Updated about 6 hours ago • 11