🔄 In a Training Loop

Urro

urroxyz

89 739 98

https://urro.xyz/

urroxyz

AI & ML interests

computational linguistics major 🤖🔎🔠 i am autistic. if i come off rude, i probably didn't mean to. please feel free to ask me for clarification.

Recent Activity

commentedon a paper about 5 hours ago

MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes

upvoted a paper about 5 hours ago

Source-Grounded Semantic Reinforcement Learning for Low-Resource Target-Language Generation

updated a collection about 5 hours ago

WTF GENIUS PAPERS

View all activity

Organizations

commented a paper about 5 hours ago

MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes

Paper • 2509.24945 • Published Sep 29, 2025 • 7 •

upvoted a paper about 5 hours ago

Source-Grounded Semantic Reinforcement Learning for Low-Resource Target-Language Generation

Paper • 2605.29502 • Published May 28 • 1

updated a collection about 5 hours ago

WTF GENIUS PAPERS

Collection

Papers that made me appreciate my major and my life a little more. obs=Observation, innov=Innovation. Most papers are abt improving tiny models. • 218 items • Updated about 5 hours ago • 50

upvoted a paper about 5 hours ago

MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes

Paper • 2509.24945 • Published Sep 29, 2025 • 7

updated a collection about 13 hours ago

WTF GENIUS PAPERS

Collection

Papers that made me appreciate my major and my life a little more. obs=Observation, innov=Innovation. Most papers are abt improving tiny models. • 218 items • Updated about 5 hours ago • 50

upvoted a paper about 13 hours ago

Where Should Optimizer State Live? Tiered State Allocation for Memory-Efficient Mixture-of-Experts Training

Paper • 2607.19058 • Published 2 days ago • 4

updated a collection about 13 hours ago

WTF GENIUS PAPERS

Collection

Papers that made me appreciate my major and my life a little more. obs=Observation, innov=Innovation. Most papers are abt improving tiny models. • 218 items • Updated about 5 hours ago • 50

upvoted 2 papers about 13 hours ago

H^2SD: Hybrid Hindsight Self-Distillation

Paper • 2607.18955 • Published 2 days ago • 5

ISO: An RLVR-Native Optimization Stack

Paper • 2607.19331 • Published 1 day ago • 5

updated a collection 1 day ago

WTF GENIUS PAPERS

Collection

Papers that made me appreciate my major and my life a little more. obs=Observation, innov=Innovation. Most papers are abt improving tiny models. • 218 items • Updated about 5 hours ago • 50

upvoted 2 papers 1 day ago

Group Entropy-Controlled Policy Optimization

Paper • 2607.16850 • Published 5 days ago • 26

LLM-as-a-Coach: Experiential Learning for Non-Verifiable Tasks

Paper • 2607.18110 • Published 3 days ago • 11

updated a collection 1 day ago

WTF GENIUS PAPERS

Collection

Papers that made me appreciate my major and my life a little more. obs=Observation, innov=Innovation. Most papers are abt improving tiny models. • 218 items • Updated about 5 hours ago • 50

upvoted a paper 1 day ago

Token-Level Off-Policy Learning for Faithful Generation Under Distribution Shift

Paper • 2607.17524 • Published 3 days ago • 5

updated a collection 1 day ago

WTF GENIUS PAPERS

Collection

Papers that made me appreciate my major and my life a little more. obs=Observation, innov=Innovation. Most papers are abt improving tiny models. • 218 items • Updated about 5 hours ago • 50

upvoted a paper 1 day ago

Distilled Reinforcement Learning for LLM Post-training

Paper • 2607.17247 • Published 4 days ago • 8

upvoted a paper 2 days ago

Smarter and Cheaper at Once: Byte-Exact KV-Cache Grafting Turns a Frozen Small Model into a Verified-Knowledge Flywheel

Paper • 2607.14431 • Published 8 days ago • 11

updated a collection 4 days ago

WTF GENIUS PAPERS

Collection

Papers that made me appreciate my major and my life a little more. obs=Observation, innov=Innovation. Most papers are abt improving tiny models. • 218 items • Updated about 5 hours ago • 50

upvoted a paper 4 days ago

Token Time Continuous Diffusion for Language Modeling

Paper • 2607.14106 • Published May 7 • 9

Urro

AI & ML interests

Recent Activity

Organizations

urroxyz's activity