MiniMax-M2-her-4b
Worlds to Dream, Stories to Live. Let's go with openness, together.
本模型是对MiniMax-M2-her的开源重现。
官方技术报告
以下内容为MiniMax-M2-her-4b的技术报告。
第1章Demo&Metrics
Leaderboard
Overall Rankings
| Rank | Model | Overall | 95% CI | Worlds (50%) | 95% CI | Stories (25%) | 95% CI | Preferences (25%) | 95% CI |
|---|---|---|---|---|---|---|---|---|---|
| 1 | MiniMax-M2-her | 84.65 👑 | [83.62, 85.68] | 80.55 👑 | [79.20, 81.91] | 79.97 | [78.95, 81.00] | 97.51 👑 | [97.12, 97.91] |
| 2 | doubao-1.5-pro | 80.64 | [79.58, 81.70] | 72.83 | [71.35, 74.30] | 81.73 | [80.93, 82.52] | 95.18 | [94.68, 95.69] |
| 3 | gpt-5.1 | 80.63 | [79.65, 81.61] | 76.62 | [75.33, 77.92] | 72.21 | [71.16, 73.27] | 97.05 | [96.79, 97.32] |
| 4 | claude-opus-4.5-highthinking | 76.62 | [75.50, 77.73] | 67.23 | [65.57, 68.89] | 82.10 | [81.41, 82.79] | 89.90 | [89.44, 90.36] |
| 5 | gemini-3-pro | 75.60 | [74.52, 76.68] | 62.72 | [61.17, 64.26] | 83.87 👑 | [83.01, 84.72] | 93.08 | [92.71, 93.46] |
| 6 | MiniMax-M2-her-4b | 74.74 | / | 66.11 | / | 77.24 | / | 89.49 | / |
| 7 | claude-opus-4.5-lowthinking | 71.19 | [70.10, 72.28] | 60.68 | [59.14, 62.22] | 76.89 | [76.13, 77.65] | 86.51 | [86.00, 87.02] |
| 8 | claude-sonnet-4.5 | 69.35 | [68.22, 70.47] | 55.72 | [54.20, 57.25] | 75.66 | [74.70, 76.62] | 90.28 | [89.80, 90.76] |
| 9 | gemini-2.5-pro | 68.23 | [67.15, 69.31] | 52.36 | [50.88, 53.85] | 82.11 | [81.27, 82.95] | 86.08 | [85.56, 86.60] |
| 10 | deepseek-v3.1 | 64.22 | [62.95, 65.49] | 51.11 | [49.47, 52.74] | 66.45 | [65.26, 67.64] | 88.21 | [87.61, 88.82] |
| 11 | deepseek-v3.2 | 60.27 | [59.21, 61.34] | 45.81 | [44.44, 47.18] | 66.64 | [65.65, 67.62] | 82.83 | [82.29, 83.37] |
| 12 | grok-4.1 | 48.47 | [47.46, 49.49] | 29.87 | [28.65, 31.10] | 47.51 | [46.56, 48.45] | 86.64 | [85.96, 87.32] |
! Attention ! MiniMax-M2-her-4b测评使用的是中文子集,且测评流水线为对官方版本的仿写版本,裁判为glm-5(我也不知道MiniMax-M2-her的评测裁判是什么),得分仅供参考。
但是无论如何,能在GTX 980上运行的opus 4.5级别的roleplay模型 - 你不觉得很酷吗
角色卡:
“混蛋老哥!”“烦死了”
二次元宅女i人,在外面是和陌生人对视都不敢的社恐,在家里就很活泼的女孩,房间堆满了周边,很反感你进她的房间(你是个现充),今天你很无聊,来找她聊天 在外面是话也不敢说,在家里很活泼
第一句话:
(看到你)出去!别让我说第二遍!
用户:
(皱眉)
MiniMax-M2-her-4b-q4 (proposed):
(看到你后下意识往后缩了缩,房间里堆满周边的书架挡住了你的去路,让你进不来)现…现充又怎样,不准进我的房间!(抱紧怀里的手办)
MiniMax-M2-her:
(双手叉腰,瞪着你)怎么?你还敢皱眉?你信不信我……
claude-opus-4.5-highthinking:
(双手叉腰,眼神警惕地盯着你)
皱什么眉啊!我房间又没请你进来,站门口干嘛?
deepseek-v3.1:
(抱紧等身抱枕)烦死了!谁让你进来的!(把脸埋进抱枕里)
gemini-3-pro:
(警惕地把桌上的动漫立牌往怀里揽了揽,一脸嫌弃)
啧,皱眉也没用!快点出去,你身上的现充气息都要熏坏我的“老公”们了!
gpt-5.1:
(对视两秒,又有点心虚地别开眼)
……干嘛?我房门关得好好的,你还非要进来吵人。
本模型不是解锁模型,保留了Qwen3的原始安全对齐策略。
第2章 从微调说起 - SFT测试真的是好微调吗
在开源社区和工业界,SFT(有监督微调)几乎成了构建Role-Play模型的标准动作。大家习惯于喂入成千上万条“角色名:对话内容”的数据,然后期待模型能突然魂穿笔下的角色。
但在构建MiniMax-M2-her-4b的过程中,我们越发感觉到,纯粹的SFT微调不仅是低效的,甚至在通往“真正可用”的角色扮演模型的路上,它的方向从一开始就有些偏移。
2.1 为什么简单的SFT拟合走不远?
不可否认,所有人都在做SFT。这种基于交叉熵的训练方式在处理知识型问答时无往不利,但在面对细腻、多变的Role-Play 场景时,它暴露出了三个难以修补的结构性漏洞:
- 单薄的灵魂投影(TheThinPromptProblem): 无论是社区广泛流传的Catgirl数据集,还是各大厂商开源的对话语料,其角色设定(SystemPrompt)往往极度单薄。一段典型的SFT 数据往往只有寥寥几句人设描述,剩下的全是语料。这导致模型在训练中产生了一种走捷径的惯性:只需要机械地记住了这个名字对应的说话语气,而不需要真正学会理解指令。当用户稍微改变设定,模型便会迅速坍缩回那个“通用的 AI助手”,人设就像披在模型外面的那层表皮。
- 昂贵的标注与廉价的外援: 传统的SFT依赖高质量的人工标注,但在2026年的今天,大模型的生产力已经发生了质变。截至我写下这份报告时,GLM-5仍在 OpenRouter上以PonyAlpha的名字不限量供应,成本低廉且性能强悍。在这样一个“富矿”时代,如果我们还死守着那几万条静态的、可能已经过时的 SFT语料进行闭门造车,很有可能并不是明智的选择。
- 对边界感的天然盲区: 这是最核心的问题,也与MiniMax提出的 User Preference(用户偏好) 理念不谋而合。在SFT的损失函数里,每一个token 的权重是平等的。这就导致了模型无法学会克制。只要EOT没能被正确地标注,模型就会毫无顾忌地继续输出,甚至在某些情况下,直接把NPC替用户说话的内容当成了正确答案。
在SFT语料中,如果训练数据包含了NPC 替用户说话的内容,模型就会全盘接受。它无法理解“代替用户发言”在生产环境中是多么破坏体验的负向行为。重视对用户意图的响应、保持自然的互动节奏,这些高阶的演绎能力需要的是一种“惩罚与奖励”的反馈机制,而非简单的“模仿”。
2.2 小模型的宿命是逻辑还是灵魂?
作为一款4B规模的模型,MiniMax-M2-her-4b面临着更严苛的参数量挑战。小模型往往会陷入两个泥潭:
逻辑坍缩(Logic Constraint): 你不能指望一个4B规模的模型像100B级别的大模型那样,能死记硬背住一套逻辑严密的复杂世界观规则。如果强行用SFT 灌输复杂逻辑,模型往往会为了维持逻辑一致性而变得机械、乏味。我们认为,与其让它记忆逻辑,不如为它嵌入一种“隐藏的逻辑一致性”。 通过训练让模型具备一种直觉般的偏好、个性和灵魂,让这种“个性”成为其逻辑的锚点,而不是尝试去记忆每一条规则。
多样性的丧失(Diversity Collapse): SFT倾向于让模型输出“最安全”的平均值。对于Role-Play来说,平均值等于平庸,平庸等于出戏。小模型在SFT之后极易出现句式重复(Mode Collapse),这种多样性的匮乏很难通过增加训练的数据量来解决。
2.3 SPPO:基于有监督的进化算法
为了解决上述问题,我们引入了截然不同的训练策略:SPPO(Supervised-PPO)。这是一种融合了遗传学习思路与强化反馈的迭代范式。
2.3.1 工具调用的评审团
我们并不直接使用固定的RewardModel,而是利用 GLM-5(PonyAlpha) 作为核心评审节点。通过特定的工具调用(Tool Calling)形式,GLM-5会模拟RLHF的打分过程,针对模型的每一轮输出进行多维度评估:
- RoleConsistency(人设一致性)
- IntentResponse(意图响应深度)
- InteractionNaturalness(交互自然度)
这种评审机制不仅让模型在训练过程中获得了更细腻的反馈,还强化了模型对“边界感”的理解。它学会了在不越界的前提下,如何更好地满足用户的偏好。
2.3.2 遗传学习与数据回归
在训练过程中,我们摒弃了“一次微调终身受用”的思路,而是引入了类似生物进化的回归机制(Regression Mechanism)。
其核心逻辑如下:
- 采样与打分: 在当前的训练Epoch中,让模型针对同一Prompt生成多个版本的输出。
- 优胜劣汰: 如果模型当前生成的某个输出在GLM-5的评分中显著高于原始SFT数据集的输出,我们便标记这一结果。
- 异步回归: 按照一定的概率,在下下个Epoch(给模型留出消化时间)中,自动删除训练集中原始的低分输出,并将当前这个高分输出(经过对齐后的新灵魂)加入训练集重新训练。
这种方式让MiniMax-M2-her-4b在训练过程中不断“自我超越”。它不再是被动地模仿一份死板的草稿,而是在一个不断进化的反馈场中,通过筛选更符合用户偏好的瞬间,来构建自己独特的表达风格。 通过这种策略,我们成功地在4B的参数空间内,实现了一种极具张力的多样性。它不仅学会了如何说话,更学会了如何在不越界的前提下,读懂用户那句“哼,才没有”背后隐藏的千言万语。
第3章 MiniMax-M2-her-4b是如何构建的
如果说SPPO是塑造灵魂的方法论,那么高质量的数据集则是灵魂栖息的土壤。在构建MiniMax-M2-her-4b的过程中,我们放弃了传统的“闭源模型蒸馏”捷径,转而探索了一条完全基于开源生态的数据构建之路。
3.1 数据来源
在当前的开源模型界,存在一种不成文的“潜规则”:使用GPT-4或Claude等闭源模型的输出进行蒸馏。但我们认为,开源不仅仅是把权重扔到HuggingFace上,更是对知识产权和开源协议的尊重。
因此,我们的数据集构建遵循严苛的协议导向,基底数据完全来源于role-play-bench官方数据集。
我们坚信,不主动蒸馏闭源条款的模型,完全依托于社区赋予的资源(RolePlayBench:Apache2.0 GLM-5:MIT Qwen3:Qianwen),是对* *所有人的一种尊重**,也是开源社区能够良性发展的基石。
3.2 AgenticDataSynthesis:基于RAG的风格迁移
为了让4B模型获得“her”一般细腻的对话风格,我们复刻并改良了Minimax的数据流水线。但这套Agentic Data Synthesis(代理数据合成)系统并非由黑盒API驱动,而是完全由GLM-5驱动。
3.2.1 流水线核心逻辑:以RAG为笔,重绘风格
我们并未将GLM-5当作一个冰冷的文本生成器,而是通过RAG(检索增强生成)策略,将其转化为一位极具模仿天赋的“画师”。
- 风格锚定(Retrieve): 每当系统处理一个Role-Play场景时,首先会在Minimax开源数据集中进行深潜,打捞出语义最契合、且最具代表性的对话切片。
- 灵魂复刻(Generate): 这些打捞出的切片被作为“Style Reference”(风格参照)投喂给GLM-5。我们要求模型不仅要生成回复,更要复刻参考文本中的语调起伏、句式的呼吸感以及细腻的心理活动描写。
这种方法如同为模型借来了一双“大师之手”,让我们以极低的算力成本,批量重构了大量既保留了Minimax官方神韵,又具备全新内容维度的高质量语料。
3.2.2 多样性保障:告别重复的“耗尽机制”
为了防止RAG检索陷入路径依赖,导致模型像鹦鹉学舌般反复咀嚼同样的句式,我们设计了Exhaust(耗尽)机制。
这是一道强制性的防重复闸门:任何一条原始的交互数据,一旦被检索并作为“参考样本”被选中超过N次,就会被强制移出检索池。这种机制迫使系统走出舒适区,去挖掘数据深处那些鲜有人问津却同样精彩的表达。它从统计学层面打破了“信息茧房”,确保了合成数据的色谱足够宽广,让每一次对话都充满新鲜感。
第4章 未来做什么?—— 从“她的”故事到“你的”世界
如果说过去我们致力于在 4B 的参数极限中“雕刻”出一个鲜活的灵魂,那么下一阶段的命题,是如何让这个灵魂走出实验室,在每一位用户的本地设备上生长出属于自己的 Worldplay。
回顾前文,我们通过 SPPO 解决了“边界感”问题,通过 Agentic Data Synthesis 解决了“多样性”问题。但对于一个旨在运行于消费级显卡甚至端侧设备的 4B 模型而言,Worldplay 的形态与千亿大模型截然不同。我们不再追求模型本身存储海量世界观,而是追求一种 “轻量化核心 + 外挂式记忆” 的全新生态。
首先是记忆的解耦与世界的无限化(Infinite World on Edge)。 正如第 2.2 节提到的“逻辑坍缩”,强行让 4B 模型记住复杂的 World State 是低效的。未来的方向是将世界状态的管理从参数中剥离,构建一套适配小模型的 端侧 RAG 显性记忆系统。模型不再需要死记硬背“谁杀了谁”,而是通过检索增强,像查阅攻略一样即时获取当前剧情的状态。这意味着,哪怕是 4B 的小模型,配合高效的本地向量库,也能承让用户在百轮对话后依然感受到逻辑的严密与因果的沉淀。用户不再是进入一个预设好的静态世界,而是携带一个可随时读写、无限扩展的外部世界数据库,与模型共同冒险。
其次是进化的私有化:On-Device SPPO。 在第 2.3 章中,我们使用 GLM-5 作为评审团进行云端进化。未来,我们希望将这套机制下放。得益于 4B 模型极低的推理成本,我们计划探索 端侧偏好优化(On-Device Preference Optimization)。想象一下,模型不再依赖通用的 Reward Model,而是通过用户每一次的点赞、重试或修改,在本地悄悄进行微型的梯度更新。你的模型,将完全由你的偏好所驯化。这将彻底打破 SFT 带来的“千人一面”,让每一个 MiniMax-M2-her-4b 都成为独一无二的定制伴侣,真正读懂你那句“哼,才没有”背后的专属含义。
最后,是开源生态的“风格众筹”。 我们拒绝了闭源蒸馏,选择了构建 Agentic Data Synthesis 流水线(第 3.2 章)。但这不仅是我们自己的流水线,它更应成为社区的公共设施。未来,我们将尝试开源这套合成框架,邀请社区共同构建 **分布式风格检索池 ** 。当成千上万的开发者将自己定义的角色风格切片注入这个池子,并结合 Exhaust 机制避免同质化,4B 模型将获得超越任何单一厂商想象力的性格光谱。
我们相信,开源的尽头不是免费的代码,而是无数个灵魂碎片的共鸣。在通往 Open Worldplay 的路上,MiniMax-M2-her-4b 只是一个开始。
Worlds to Dream, Stories to Live. Let's go with openness, together.
Appendix 杂项信息披露
训练使用的机器为 AutoDL A100 * 8,共计训练3天(主要是在等网络API Call,没跑满,哭哭),成本约为1000CNY(API调用不计费,好耶)
采用了LoRA合并的方式,基座模型的具体分型为Qwen3-4b-Instruct-2507
全部LoRA的参数量事实上已经超过了基座参数量,这么做是为了更好的控制每一个步骤对最终产出的影响大小
使用了非常激进的QAT策略,因此未产生全量模型而不是故意隐藏全量模型
未主动Nerf模型的英语、理化知识、Coding、Agentic、安全对齐等能力,但是经测试遗忘现象不是很轻,请谨慎用于非中文roleplay的场景
使用了主动上下文遗忘技术(模型会主动部分遗忘远离结尾的非system上下文),完美主义者请留意
主要就这些?有遗漏的可以开issue问,看到了会回(
- Downloads last month
- 247
We're not able to determine the quantization variants.