1 5 51

Eric Xian

ericxian1997

AI & ML interests

None yet

Recent Activity

upvoted a paper 22 days ago

Joint Selection for Large-Scale Pre-Training Data via Policy Gradient-based Mask Learning

updated a dataset 22 days ago

DATA-MASK/FineWeb-Mask

liked a dataset 23 days ago

DATA-MASK/FineWeb-Mask

View all activity

Organizations

upvoted a paper 22 days ago

Joint Selection for Large-Scale Pre-Training Data via Policy Gradient-based Mask Learning

Paper • 2512.24265 • Published Dec 30, 2025 • 4

updated a dataset 22 days ago

DATA-MASK/FineWeb-Mask

Updated 19 days ago • 9.01k • 6

liked a dataset 23 days ago

DATA-MASK/FineWeb-Mask

Updated 19 days ago • 9.01k • 6

published a dataset 23 days ago

DATA-MASK/FineWeb-Mask

Updated 19 days ago • 9.01k • 6

liked 2 datasets about 1 month ago

allenai/signal-and-noise

Viewer • Updated Aug 19, 2025 • 898k • 282 • 4

nvidia/Nemotron-Pretraining-Specialized-v1

Viewer • Updated Dec 22, 2025 • 60.7M • 7.24k • 69

upvoted a paper 3 months ago

Virtual Width Networks

Paper • 2511.11238 • Published Nov 14, 2025 • 38

liked a model 3 months ago

briaai/FIBO

Text-to-Image • Updated 4 days ago • 8.6k • • 301

upvoted a paper 3 months ago

Does your data spark joy? Performance gains from domain upsampling at the end of training

Paper • 2406.03476 • Published Jun 5, 2024 • 4

liked a dataset 4 months ago

yczhuang/Hephaestus-Forge

Viewer • Updated Sep 8, 2025 • 3.81k • 1.34k • 1

upvoted a collection 4 months ago

DeepSeek-V3.2

Collection

4 items • Updated Dec 1, 2025 • 523

liked a model 5 months ago

agentica-org/DeepScaleR-1.5B-Preview

Text Generation • 2B • Updated Apr 9, 2025 • 59.8k • 578

liked a dataset 6 months ago

nvidia/Nemotron-CC-v2

Viewer • Updated Dec 23, 2025 • 8.79B • 43.3k • 100

liked a model 6 months ago

ByteDance-Seed/Seed-OSS-36B-Instruct

Text Generation • 36B • Updated Aug 26, 2025 • 7.41k • 478

liked 3 models 7 months ago

liked a Space 8 months ago

TxT360: Trillion Extracted Text

📖

132

Explore and analyze the TxT360 dataset for LLM pre-training

liked a dataset 10 months ago

HuggingFaceTB/smollm-corpus

Viewer • Updated Sep 6, 2024 • 237M • 21.9k • 423

upvoted a paper 10 months ago

MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion

Paper • 2502.04235 • Published Feb 6, 2025 • 23

Eric Xian

AI & ML interests

Recent Activity

Organizations

ericxian1997's activity

TxT360: Trillion Extracted Text