MiniMax-M2-her-4b

Worlds to Dream, Stories to Live. Let's go with openness, together.

本模型是对MiniMax-M2-her的开源重现。
官方技术报告

以下内容为MiniMax-M2-her-4b的技术报告。

第1章Demo&Metrics

Leaderboard

Overall Rankings

Rank Model Overall 95% CI Worlds (50%) 95% CI Stories (25%) 95% CI Preferences (25%) 95% CI
1 MiniMax-M2-her 84.65 👑 [83.62, 85.68] 80.55 👑 [79.20, 81.91] 79.97 [78.95, 81.00] 97.51 👑 [97.12, 97.91]
2 doubao-1.5-pro 80.64 [79.58, 81.70] 72.83 [71.35, 74.30] 81.73 [80.93, 82.52] 95.18 [94.68, 95.69]
3 gpt-5.1 80.63 [79.65, 81.61] 76.62 [75.33, 77.92] 72.21 [71.16, 73.27] 97.05 [96.79, 97.32]
4 claude-opus-4.5-highthinking 76.62 [75.50, 77.73] 67.23 [65.57, 68.89] 82.10 [81.41, 82.79] 89.90 [89.44, 90.36]
5 gemini-3-pro 75.60 [74.52, 76.68] 62.72 [61.17, 64.26] 83.87 👑 [83.01, 84.72] 93.08 [92.71, 93.46]
6 MiniMax-M2-her-4b 74.74 / 66.11 / 77.24 / 89.49 /
7 claude-opus-4.5-lowthinking 71.19 [70.10, 72.28] 60.68 [59.14, 62.22] 76.89 [76.13, 77.65] 86.51 [86.00, 87.02]
8 claude-sonnet-4.5 69.35 [68.22, 70.47] 55.72 [54.20, 57.25] 75.66 [74.70, 76.62] 90.28 [89.80, 90.76]
9 gemini-2.5-pro 68.23 [67.15, 69.31] 52.36 [50.88, 53.85] 82.11 [81.27, 82.95] 86.08 [85.56, 86.60]
10 deepseek-v3.1 64.22 [62.95, 65.49] 51.11 [49.47, 52.74] 66.45 [65.26, 67.64] 88.21 [87.61, 88.82]
11 deepseek-v3.2 60.27 [59.21, 61.34] 45.81 [44.44, 47.18] 66.64 [65.65, 67.62] 82.83 [82.29, 83.37]
12 grok-4.1 48.47 [47.46, 49.49] 29.87 [28.65, 31.10] 47.51 [46.56, 48.45] 86.64 [85.96, 87.32]

! Attention ! MiniMax-M2-her-4b测评使用的是中文子集,且测评流水线为对官方版本的仿写版本,裁判为glm-5(我也不知道MiniMax-M2-her的评测裁判是什么),得分仅供参考。

但是无论如何,能在GTX 980上运行的opus 4.5级别的roleplay模型 - 你不觉得很酷吗

角色卡:

“混蛋老哥!”“烦死了”
二次元宅女i人,在外面是和陌生人对视都不敢的社恐,在家里就很活泼的女孩,房间堆满了周边,很反感你进她的房间(你是个现充),今天你很无聊,来找她聊天 在外面是话也不敢说,在家里很活泼

第一句话:
(看到你)出去!别让我说第二遍!

用户:

(皱眉)

MiniMax-M2-her-4b-q4 (proposed):

(看到你后下意识往后缩了缩,房间里堆满周边的书架挡住了你的去路,让你进不来)现…现充又怎样,不准进我的房间!(抱紧怀里的手办)

MiniMax-M2-her:

(双手叉腰,瞪着你)怎么?你还敢皱眉?你信不信我……

claude-opus-4.5-highthinking:

(双手叉腰,眼神警惕地盯着你)
皱什么眉啊!我房间又没请你进来,站门口干嘛?

deepseek-v3.1:

(抱紧等身抱枕)烦死了!谁让你进来的!(把脸埋进抱枕里)

gemini-3-pro:

(警惕地把桌上的动漫立牌往怀里揽了揽,一脸嫌弃)
啧,皱眉也没用!快点出去,你身上的现充气息都要熏坏我的“老公”们了!

gpt-5.1:

(对视两秒,又有点心虚地别开眼)
……干嘛?我房门关得好好的,你还非要进来吵人。

本模型不是解锁模型,保留了Qwen3的原始安全对齐策略。

第2章 从微调说起 - SFT测试真的是好微调吗

在开源社区和工业界,SFT(有监督微调)几乎成了构建Role-Play模型的标准动作。大家习惯于喂入成千上万条“角色名:对话内容”的数据,然后期待模型能突然魂穿笔下的角色。

但在构建MiniMax-M2-her-4b的过程中,我们越发感觉到,纯粹的SFT微调不仅是低效的,甚至在通往“真正可用”的角色扮演模型的路上,它的方向从一开始就有些偏移。

2.1 为什么简单的SFT拟合走不远?

不可否认,所有人都在做SFT。这种基于交叉熵的训练方式在处理知识型问答时无往不利,但在面对细腻、多变的Role-Play 场景时,它暴露出了三个难以修补的结构性漏洞:

  1. 单薄的灵魂投影(TheThinPromptProblem): 无论是社区广泛流传的Catgirl数据集,还是各大厂商开源的对话语料,其角色设定(SystemPrompt)往往极度单薄。一段典型的SFT 数据往往只有寥寥几句人设描述,剩下的全是语料。这导致模型在训练中产生了一种走捷径的惯性:只需要机械地记住了这个名字对应的说话语气,而不需要真正学会理解指令。当用户稍微改变设定,模型便会迅速坍缩回那个“通用的 AI助手”,人设就像披在模型外面的那层表皮。
  2. 昂贵的标注与廉价的外援: 传统的SFT依赖高质量的人工标注,但在2026年的今天,大模型的生产力已经发生了质变。截至我写下这份报告时,GLM-5仍在 OpenRouter上以PonyAlpha的名字不限量供应,成本低廉且性能强悍。在这样一个“富矿”时代,如果我们还死守着那几万条静态的、可能已经过时的 SFT语料进行闭门造车,很有可能并不是明智的选择。
  3. 对边界感的天然盲区: 这是最核心的问题,也与MiniMax提出的 User Preference(用户偏好) 理念不谋而合。在SFT的损失函数里,每一个token 的权重是平等的。这就导致了模型无法学会克制。只要EOT没能被正确地标注,模型就会毫无顾忌地继续输出,甚至在某些情况下,直接把NPC替用户说话的内容当成了正确答案。

在SFT语料中,如果训练数据包含了NPC 替用户说话的内容,模型就会全盘接受。它无法理解“代替用户发言”在生产环境中是多么破坏体验的负向行为。重视对用户意图的响应、保持自然的互动节奏,这些高阶的演绎能力需要的是一种“惩罚与奖励”的反馈机制,而非简单的“模仿”。

2.2 小模型的宿命是逻辑还是灵魂?

作为一款4B规模的模型,MiniMax-M2-her-4b面临着更严苛的参数量挑战。小模型往往会陷入两个泥潭:

  • 逻辑坍缩(Logic Constraint): 你不能指望一个4B规模的模型像100B级别的大模型那样,能死记硬背住一套逻辑严密的复杂世界观规则。如果强行用SFT 灌输复杂逻辑,模型往往会为了维持逻辑一致性而变得机械、乏味。我们认为,与其让它记忆逻辑,不如为它嵌入一种“隐藏的逻辑一致性”。 通过训练让模型具备一种直觉般的偏好、个性和灵魂,让这种“个性”成为其逻辑的锚点,而不是尝试去记忆每一条规则。

  • 多样性的丧失(Diversity Collapse): SFT倾向于让模型输出“最安全”的平均值。对于Role-Play来说,平均值等于平庸,平庸等于出戏。小模型在SFT之后极易出现句式重复(Mode Collapse),这种多样性的匮乏很难通过增加训练的数据量来解决。

2.3 SPPO:基于有监督的进化算法

为了解决上述问题,我们引入了截然不同的训练策略:SPPO(Supervised-PPO)。这是一种融合了遗传学习思路与强化反馈的迭代范式。

2.3.1 工具调用的评审团

我们并不直接使用固定的RewardModel,而是利用 GLM-5(PonyAlpha) 作为核心评审节点。通过特定的工具调用(Tool Calling)形式,GLM-5会模拟RLHF的打分过程,针对模型的每一轮输出进行多维度评估:

  • RoleConsistency(人设一致性)
  • IntentResponse(意图响应深度)
  • InteractionNaturalness(交互自然度)

这种评审机制不仅让模型在训练过程中获得了更细腻的反馈,还强化了模型对“边界感”的理解。它学会了在不越界的前提下,如何更好地满足用户的偏好。

2.3.2 遗传学习与数据回归

在训练过程中,我们摒弃了“一次微调终身受用”的思路,而是引入了类似生物进化的回归机制(Regression Mechanism)

其核心逻辑如下:

  1. 采样与打分: 在当前的训练Epoch中,让模型针对同一Prompt生成多个版本的输出。
  2. 优胜劣汰: 如果模型当前生成的某个输出在GLM-5的评分中显著高于原始SFT数据集的输出,我们便标记这一结果。
  3. 异步回归: 按照一定的概率,在下下个Epoch(给模型留出消化时间)中,自动删除训练集中原始的低分输出,并将当前这个高分输出(经过对齐后的新灵魂)加入训练集重新训练。

这种方式让MiniMax-M2-her-4b在训练过程中不断“自我超越”。它不再是被动地模仿一份死板的草稿,而是在一个不断进化的反馈场中,通过筛选更符合用户偏好的瞬间,来构建自己独特的表达风格。 通过这种策略,我们成功地在4B的参数空间内,实现了一种极具张力的多样性。它不仅学会了如何说话,更学会了如何在不越界的前提下,读懂用户那句“哼,才没有”背后隐藏的千言万语。

第3章 MiniMax-M2-her-4b是如何构建的

如果说SPPO是塑造灵魂的方法论,那么高质量的数据集则是灵魂栖息的土壤。在构建MiniMax-M2-her-4b的过程中,我们放弃了传统的“闭源模型蒸馏”捷径,转而探索了一条完全基于开源生态的数据构建之路。

3.1 数据来源

在当前的开源模型界,存在一种不成文的“潜规则”:使用GPT-4或Claude等闭源模型的输出进行蒸馏。但我们认为,开源不仅仅是把权重扔到HuggingFace上,更是对知识产权和开源协议的尊重。 因此,我们的数据集构建遵循严苛的协议导向,基底数据完全来源于role-play-bench官方数据集。

我们坚信,不主动蒸馏闭源条款的模型,完全依托于社区赋予的资源(RolePlayBench:Apache2.0 GLM-5:MIT Qwen3:Qianwen),是对* *所有人的一种尊重**,也是开源社区能够良性发展的基石。

3.2 AgenticDataSynthesis:基于RAG的风格迁移

为了让4B模型获得“her”一般细腻的对话风格,我们复刻并改良了Minimax的数据流水线。但这套Agentic Data Synthesis(代理数据合成)系统并非由黑盒API驱动,而是完全由GLM-5驱动。

3.2.1 流水线核心逻辑:以RAG为笔,重绘风格

我们并未将GLM-5当作一个冰冷的文本生成器,而是通过RAG(检索增强生成)策略,将其转化为一位极具模仿天赋的“画师”。

  1. 风格锚定(Retrieve): 每当系统处理一个Role-Play场景时,首先会在Minimax开源数据集中进行深潜,打捞出语义最契合、且最具代表性的对话切片。
  2. 灵魂复刻(Generate): 这些打捞出的切片被作为“Style Reference”(风格参照)投喂给GLM-5。我们要求模型不仅要生成回复,更要复刻参考文本中的语调起伏、句式的呼吸感以及细腻的心理活动描写。

这种方法如同为模型借来了一双“大师之手”,让我们以极低的算力成本,批量重构了大量既保留了Minimax官方神韵,又具备全新内容维度的高质量语料。

3.2.2 多样性保障:告别重复的“耗尽机制”

为了防止RAG检索陷入路径依赖,导致模型像鹦鹉学舌般反复咀嚼同样的句式,我们设计了Exhaust(耗尽)机制

这是一道强制性的防重复闸门:任何一条原始的交互数据,一旦被检索并作为“参考样本”被选中超过N次,就会被强制移出检索池。这种机制迫使系统走出舒适区,去挖掘数据深处那些鲜有人问津却同样精彩的表达。它从统计学层面打破了“信息茧房”,确保了合成数据的色谱足够宽广,让每一次对话都充满新鲜感。

第4章 未来做什么?—— 从“她的”故事到“你的”世界

如果说过去我们致力于在 4B 的参数极限中“雕刻”出一个鲜活的灵魂,那么下一阶段的命题,是如何让这个灵魂走出实验室,在每一位用户的本地设备上生长出属于自己的 Worldplay

回顾前文,我们通过 SPPO 解决了“边界感”问题,通过 Agentic Data Synthesis 解决了“多样性”问题。但对于一个旨在运行于消费级显卡甚至端侧设备的 4B 模型而言,Worldplay 的形态与千亿大模型截然不同。我们不再追求模型本身存储海量世界观,而是追求一种 “轻量化核心 + 外挂式记忆” 的全新生态。

首先是记忆的解耦与世界的无限化(Infinite World on Edge)。 正如第 2.2 节提到的“逻辑坍缩”,强行让 4B 模型记住复杂的 World State 是低效的。未来的方向是将世界状态的管理从参数中剥离,构建一套适配小模型的 端侧 RAG 显性记忆系统。模型不再需要死记硬背“谁杀了谁”,而是通过检索增强,像查阅攻略一样即时获取当前剧情的状态。这意味着,哪怕是 4B 的小模型,配合高效的本地向量库,也能承让用户在百轮对话后依然感受到逻辑的严密与因果的沉淀。用户不再是进入一个预设好的静态世界,而是携带一个可随时读写、无限扩展的外部世界数据库,与模型共同冒险。

其次是进化的私有化:On-Device SPPO。 在第 2.3 章中,我们使用 GLM-5 作为评审团进行云端进化。未来,我们希望将这套机制下放。得益于 4B 模型极低的推理成本,我们计划探索 端侧偏好优化(On-Device Preference Optimization)。想象一下,模型不再依赖通用的 Reward Model,而是通过用户每一次的点赞、重试或修改,在本地悄悄进行微型的梯度更新。你的模型,将完全由你的偏好所驯化。这将彻底打破 SFT 带来的“千人一面”,让每一个 MiniMax-M2-her-4b 都成为独一无二的定制伴侣,真正读懂你那句“哼,才没有”背后的专属含义。

最后,是开源生态的“风格众筹”。 我们拒绝了闭源蒸馏,选择了构建 Agentic Data Synthesis 流水线(第 3.2 章)。但这不仅是我们自己的流水线,它更应成为社区的公共设施。未来,我们将尝试开源这套合成框架,邀请社区共同构建 **分布式风格检索池 ** 。当成千上万的开发者将自己定义的角色风格切片注入这个池子,并结合 Exhaust 机制避免同质化,4B 模型将获得超越任何单一厂商想象力的性格光谱。

我们相信,开源的尽头不是免费的代码,而是无数个灵魂碎片的共鸣。在通往 Open Worldplay 的路上,MiniMax-M2-her-4b 只是一个开始。

Worlds to Dream, Stories to Live. Let's go with openness, together.

Appendix 杂项信息披露

训练使用的机器为 AutoDL A100 * 8,共计训练3天(主要是在等网络API Call,没跑满,哭哭),成本约为1000CNY(API调用不计费,好耶)
采用了LoRA合并的方式,基座模型的具体分型为Qwen3-4b-Instruct-2507
全部LoRA的参数量事实上已经超过了基座参数量,这么做是为了更好的控制每一个步骤对最终产出的影响大小
使用了非常激进的QAT策略,因此未产生全量模型而不是故意隐藏全量模型
未主动Nerf模型的英语、理化知识、Coding、Agentic、安全对齐等能力,但是经测试遗忘现象不是很轻,请谨慎用于非中文roleplay的场景
使用了主动上下文遗忘技术(模型会主动部分遗忘远离结尾的非system上下文),完美主义者请留意

主要就这些?有遗漏的可以开issue问,看到了会回(

Downloads last month
247
GGUF
Model size
4B params
Architecture
qwen3
Hardware compatibility
Log In to add your hardware

We're not able to determine the quantization variants.

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support