Ministral 3 기술 보고서

Ministral 3
arXiv:2601.08584v1 [cs.CL] 2026년 1월 13일

초록 (Abstract)

우리는 연산 및 메모리 제약이 있는 애플리케이션을 위해 설계된 파라미터 효율적인 밀집 언어 모델(dense language models) 제품군인 Ministral 3 시리즈를 소개한다. 이 모델은 3B, 8B, 14B의 세 가지 파라미터 크기로 제공된다. 각 크기별로 범용 목적의 사전 학습된 기반 모델(pretrained base model), 지시 미세조정 모델(instruction finetuned), 그리고 복잡한 문제 해결을 위한 추론 모델(reasoning model)의 세 가지 변형을 출시한다. 또한, 우리는 반복적인 가지치기(pruning)와 증류(distillation)를 결합한 계단식 증류(Cascade Distillation) 기법을 통해 Ministral 3 모델을 도출하는 훈련 레시피를 제시한다. 모든 모델은 이미지 이해 능력을 갖추고 있으며, Apache 2.0 라이선스 하에 배포된다.

웹페이지: https://mistral.ai/news/mistral-3
모델: https://huggingface.co/collections/mistralai/ministral-3

1. 서론 (Introduction)

본 연구에서 우리는 부모 사전 학습 모델로부터 반복적인 축소 및 증류를 통해 연산 및 데이터 효율적인 방식으로 훈련된 밀집 모델(dense models) 제품군인 Ministral 3를 소개한다. 각각 36조, 15조 토큰으로 훈련된 Qwen3 [Yang et al., 2025]나 Llama3 [Dubey et al., 2024]와 같은 인기 있는 사전 학습 모델들과 달리, 우리는 강력한 24B 파라미터 부모 모델인 Mistral Small 3.1을 활용하여 1조에서 3조 토큰 사이의 훈련만으로도 경쟁력 있는 모델을 생산할 수 있었다.

3B, 8B, 14B 파라미터의 세 가지 크기로 제공되는 모든 Ministral 3 모델은 계단식 증류(Cascade Distillation) 접근 방식을 통해 얻어진 Mistral Small 3.1의 후손들이다. 우리는 각 크기별로 Base(기반), Instruct(지시), Reasoning(추론)의 세 가지 변형을 제시하며, 각 모델은 이미지 이해 능력과 최대 256k 토큰(추론 모델은 128k)의 컨텍스트 길이를 지원한다.

Ministral 3의 핵심 구성 요소는 거대한 부모 모델의 사전 학습된 지식을 일련의 더 작은 자식 모델들(children models)로 점진적으로 전이시키는 반복적 가지치기 및 증류 방법인 계단식 증류(Cascade Distillation) 훈련 전략이다. 우리의 레시피를 통해 훨씬 더 큰 훈련 예산을 사용한 모델들과 경쟁력 있는 성능을 달성할 수 있었다. 예를 들어, Ministral 3 14B Base 모델은 Mistral Small 3.1 Base와 거의 유사한 성능을 보이면서도 크기는 40% 이상 작으며 훨씬 짧은 기간 동안 훈련되었다. 포스트 트레이닝(post-training) 이후, 우리는 Gemma 3 [Kamath et al., 2025], Qwen 3 [Yang et al., 2025, Bai et al., 2025], Mistral Small 3.2 등 유사한 크기의 오픈 웨이트 모델들과 경쟁력 있는 결과를 달성했다.

Figure 1: Ministral 3 훈련 레시피 개요

그림 1: Ministral 3 훈련 레시피 개요.
사전 학습(Pretraining): 부모 모델인 Mistral Small 3.1을 가장 큰 자식 모델(14B Init.)로 가지치기(pruning)하는 것부터 시작한다. 다음으로, 부모 모델을 교사(teacher)로 삼아 로짓 증류(logit distillation)를 통해 자식 모델을 추가 학습(up-training)시켜 짧은 컨텍스트 자식 모델(14B Short Ctx.)을 얻는다. 14B Short Ctx.에서 더 긴 컨텍스트 윈도우를 사용한 또 다른 증류 라운드(상세 내용은 §3.1 참조)를 수행하여 최종적인 Ministral 3 14B Base 모델을 얻는다. 이와 병렬로, 14B Short Ctx.를 가지치기하여 다음 자식 모델(8B Init.)을 초기화하고, 동일한 과정을 반복하여 Ministral 3 8B Base 모델을 도출한다. 3B 버전에 대해서도 같은 과정을 반복한다.
포스트 트레이닝(Post-training): 각 Base 모델은 이후 지시 이행(instruction-following) 및 추론(reasoning) 변형으로 포스트 트레이닝된다. 지시 이행을 위해 우리의 포스트 트레이닝 레시피는 지도 미세 조정(SFT)과 온라인 직접 선호도 최적화(ODPO)를 포함한다. 추론을 위한 과정은 생각의 사슬(Chain-of-Thought, CoT) 데이터를 사용한 지도 미세 조정(SFT w/ CoT), 그룹 상대 정책 최적화(GRPO; Shao et al. [2024]), 그리고 ODPO를 포함한다.

주요 기여는 다음과 같이 요약될 수 있다:

우리는 14B, 8B, 3B 파라미터 규모에서 각각 사전 학습(pretrained), 지시 미세조정(instruction finetuned), 추론(reasoning) 모델로 구성된 9개의 밀집 언어 모델 제품군인 Ministral 3를 소개한다. 모든 Ministral 3 모델(3가지 크기 × 3가지 변형)은 Apache 2.0 라이선스 하에 오픈 웨이트로 제공된다.
우리는 처음부터(from scratch) 사전 학습하는 비용의 일부만으로 모델들을 사전 학습시킨 연산 효율적인 훈련 레시피인 계단식 증류(Cascade Distillation)를 제시한다.
우리는 선행 연구들의 다음 발견들을 독립적으로 확인한다: (a) 사전 학습 시 더 강력한 교사 모델이 반드시 더 강력한 학생 모델을 낳지는 않는 "용량 격차(capacity gap)"가 존재하지만, 포스트 트레이닝은 더 강력한 교사의 이점을 계속 얻는다. (b) 학생 모델을 사전 학습할 때, 사전 학습된 교사보다 포스트 트레이닝된 교사로부터 증류하는 것이 더 나은 벤치마크 점수를 낳는다. (c) 단순히 SFT만 수행된 교사보다 인간 선호도 최적화(human preference optimized)된 교사로부터 증류하는 것이 더 좋다.

2. 모델 아키텍처 (Model Architecture)

표 1: Ministral 3 제품군의 아키텍처 사양 및 하이퍼파라미터. 모든 모델은 131K 토큰의 어휘 크기(vocabulary size)를 사용한다.

모델	레이어 (Layers)	잠재 차원 (Latent dim.)	Q/KV 헤드 (heads)	FFN 차원 (dim.)	임베딩 묶음 (Tied Embeddings)	컨텍스트 길이 (Context Length)
Ministral 3 14B	40	5120	32 / 8	16384	✗	256k
Ministral 3 8B	34	4096	32 / 8	14336	✗	256k
Ministral 3 3B	26	3072	32 / 8	9216	✓	256k

Ministral 3 제품군은 디코더 전용(decoder-only) 트랜스포머 아키텍처 [Vaswani et al., 2017]를 기반으로 한다. 모든 모델은 공통적인 아키텍처 기반을 공유하며 크기별로 스케일링된다. 표 1에서 보는 바와 같이, 제품군은 3B, 8B, 14B 파라미터의 세 가지 크기로 구성되며 각각 26, 34, 40개의 레이어를 가진다.

기타 아키텍처 선택 사항으로는 32개의 쿼리 헤드와 8개의 키-값(key-value) 헤드를 갖춘 그룹 쿼리 어텐션(Grouped Query Attention) [Ainslie et al., 2023], RoPE [Su et al., 2021] 위치 임베딩, SwiGLU 활성화 함수 [Shazeer, 2020], 그리고 RMSNorm [Zhang and Sennrich, 2019]이 있다. 긴 컨텍스트 확장을 위해 우리는 YaRN [Peng et al., 2023]과 어텐션 레이어에서의 위치 기반 소프트맥스 온도 스케일링(position-based softmax temperature scaling) [Nakanishi, 2025, MetaAI, 2025]을 사용한다. 3B 모델은 임베딩 파라미터가 전체 파라미터 수를 지배하는 것을 방지하기 위해 입력-출력 임베딩 묶음(tied input-output embeddings)을 사용한다. 모든 모델은 131K 토큰의 어휘를 사용하며 최대 256K 토큰의 컨텍스트 길이를 지원한다.

비전 인코더 (Vision encoder): 모든 Ministral 3 모델은 이미지 이해를 위해 Mistral Small 3.1 Base에서 복사하여 동결(frozen) 상태로 유지한 410M 파라미터 ViT를 비전 인코더로 사용한다. 이는 Pixtral [Agrawal et al., 2024]에 설명된 것과 동일한 아키텍처이다. 우리는 ViT에서 언어 모델 공간으로의 사전 학습된 투사(projection) 레이어를 폐기하고, 각 모델에 대해 새로운 투사 레이어를 훈련시킨다.

3. 훈련 레시피 (Training Recipe)

그림 1은 사전 학습(pretraining)과 그 뒤를 이어 지시 미세조정(instruction finetuned) 및 추론(reasoning) 변형을 생성하기 위한 두 가지 별도의 포스트 트레이닝 단계로 구성된 Ministral 3 모델의 훈련 파이프라인을 보여준다.

3.1 사전 학습 (Pretraining)

알고리즘 1: 계단식 증류 (Cascade Distillation)

1 model = MS3 # Mistral Small 3.1
2
3 for model_size in [14B, 8B, 3B]:
4
5     # 가지치기 (Algo. 2 참조)
6     model = prune(model, model_size)
7
8     # 짧은 컨텍스트 증류
9     model = model.train(
10        data=short_data,
11        teacher_model=MS3,
12    )
13
14    # 긴 컨텍스트 증류
15    final_model = model.train(
16        data=long_data,
17        teacher_model=MS3,
18    )
19    yield (model_size, final_model)

그림 2: 계단식 증류(Cascade Distillation) 도해.

계단식 증류 (Cascade Distillation). Ministral 3 모델의 사전 학습은 Mistral Small 3.1 Base (MS3.1) 모델에서 시작된다. 우리는 반복적인 접근 방식인 계단식 증류를 사용하여 MS3.1을 더 작은 후속 모델들로 가지치기(prune)하고 증류(distill)한다. 계단식 증류는 사전 학습된 더 큰 부모 모델이 주어졌을 때, 목표 크기가 감소하는 자식 모델들을 사전 학습하기 위한 연산 효율적인 프로세스이다. 알고리즘 1에 요약된 바와 같이, 이는 반복적인 "가지치기-증류-반복(prune-distill-repeat)" 접근 방식에 의존한다:

가지치기 (Prune): 더 큰 사전 학습 모델을 가지치기하여 자식 모델의 가중치를 초기화한다.
증류 (Distill): 교사 모델(teacher model)의 로짓(logits)으로부터 증류를 통해 갓 가지치기된 모델을 추가 학습(up-train)한다.
반복 (Repeat): 이 전략을 반복적으로 적용하여 자식 모델을 훨씬 더 작은 모델로 축소한다.

각 단계에서의 모델 가지치기는 Minitron 및 Wanda [Sun et al., 2023, Sreenivas et al., 2024, Muralidharan et al., 2024]와 유사한 접근 방식을 따르며, 모든 변형에 대해 Mistral Small 3.1을 증류 교사(distillation teacher)로 사용한다. 가지치기 및 증류에 대한 세부 사항은 다음 문단에 제공된다.

각 소형 모델을 처음부터 훈련하는 것과 비교할 때, 계단식 증류는 FLOP 효율이 훨씬 뛰어난 모델을 생성한다. 또한 전체 프로세스는 부모 모델에 대한 가중치 가지치기를 동반한 일종의 지속적인 사전 학습(continual pretraining)으로 볼 수 있다는 점도 주목할 만하다. 그림 2에 묘사된 바와 같이, 계단식 증류는 도중에 가지치기를 수행하며 데이터 믹스를 단일 실행(single run)으로 처리하므로 프로세스 전반에 걸쳐 데이터 반복이 방지된다.

가지치기 (Pruning). Minitron과 유사하게, 우리의 가지치기 전략은 크기를 줄이면서 원래 모델의 가장 중요한 구성 요소(검증 데이터셋 기준)를 보존하도록 설계되었다. 우리는 다음과 같은 주요 가지치기 기법을 사용한다:

레이어 가지치기 (Layer Pruning): 개별 레이어 제거에 따른 반사실적(counterfactual) 다운스트림 퍼플렉시티(perplexities)에 의존하는 Sreenivas et al. [2024]와 달리, 우리는 입력 대비 출력 활성화 노름(activation norms)의 비율이 레이어 중요도에 대한 더 간단하면서도 강력한 프록시(proxy)를 제공함을 발견했다.
히든 차원 가지치기 (Hidden Dimension Pruning): 모든 레이어의 어텐션 정규화 및 피드포워드 정규화 레이어에서 연결된(concatenated) 활성화에 주성분 분석(PCA)을 적용한다. 이는 설명된 분산(explained variance)을 최대화하면서 모델을 더 낮은 차원 공간으로 투사하는, 전체 네트워크에 일관된 단일 회전 행렬(rotation matrix)을 산출한다.
피드포워드 차원 가지치기 (Feedforward Dimension Pruning): 매우 큰 배치 $x$가 주어졌을 때 $W_2(\text{SiLU}(W_1x) * W_3x)$로 표현되는 SwiGLU [Shazeer, 2020]와 같은 게이트 선형 활성화 함수(gated-linear activation functions)를 가진 MLP의 경우, 행렬 $W_1, W_2, W_3$의 차원을 가지치기한다. 유지할 $W_1, W_3$의 열(column)을 결정하기 위해, 우리는 위 수식의 각 차원의 평균 절대값으로 정의된 중요도 점수를 계산한다. 그런 다음 위에서 산출된 인덱스에 해당하는 $W_2$의 행(row)만 유지한다.

알고리즘 2는 우리의 가지치기 전략에 대한 더 자세한 내용을 제공한다:

알고리즘 2: 계단식 증류의 가지치기 단계.
사전 학습된 모델과 가지치기 목표 크기 설정을 입력으로 받는다. 대규모 보정(calibration) 배치의 활성화를 참조하기 위해 input_x와 output_x를 사용한다.

1 def prune(model, target_size):
2
3     target_n_layers, target_dim, target_ffn_dim = get_config(target_size)
4
5     # 레이어 가지치기
6     scores = []
7     for layer in model.layers:
8         input_norm = layer.input_x.norm(dim=-1)
9         output_norm = layer.output_x.norm(dim=-1)
10        scores.append(
11            (output_norm / input_norm).mean()
12        )
13
14    layers_to_keep = topk(scores, k=target_n_layers)
15    model = remove_layers(model, layers_to_keep)
16
17    # 히든 차원 가지치기
18    norm_inputs = []
19    for layer in model.layers:
20        norm_inputs.extend([
21            layer.attn_norm.input_x,
22            layer.ffn_norm.input_x,
23        ])
24
25    rotation = PCA(norm_inputs, n_components=n_dims)
26    model = apply_rotation(model, rotation, target_dim)
27
28    # 피드포워드 가지치기
29    for layer in model.layers:
30        importance = abs(
31            silu(layer.ffn.w1.output_x) * layer.ffn.w3.output_x
32        ).mean(dim=(0,1))
33        dims_to_keep = topk(importance, k=target_ffn_dim)
34        layer.ffn = prune_hidden_dims(layer.ffn, dims_to_keep)
35
36    return model

증류 (Distillation). 가중치 초기화 후, 각 자식 모델은 교사 모델로부터의 로짓 증류(logit distillation)를 사용하여 텍스트 전용 데이터와 이미지가 섞인 텍스트(interleaved text with image data)의 혼합 데이터로 훈련된다. 우리는 증류 목표와 다음 토큰 예측 목표에 서로 다른 가중치를 부여하는 방식보다, 단순히 순방향 KL(forward KL) 증류 목표만으로 훈련하는 것이 더 우수한 성능을 보임을 발견했다. 모든 단계와 모델 크기에 대해 우리는 부모 모델을 교사 모델로 사용한다(자세한 내용은 §5.1 참조).

사전 학습 단계는 두 단계로 구성된다:
(1) 짧은 컨텍스트 단계 (Short context stage): 길이 16,384의 컨텍스트 윈도우를 사용한다. 이 단계의 출력은 다음 자식 모델의 가지치기 단계 입력이 된다.
(2) 긴 컨텍스트 단계 (Long context stage): YaRN [Peng et al., 2023]과 위치 기반 온도 스케일링 [Nakanishi, 2025, MetaAI, 2025]을 사용하여 컨텍스트 윈도우를 16,384에서 262,144로 확장한다.

3.2 포스트 트레이닝: Ministral Instruct

지시 이행(instruction-following) 능력 [Ouyang et al., 2022]을 부여하기 위해, 사전 학습된 모델은 고품질의 멀티모달 및 텍스트 전용 지시 이행 데이터로 구성된 선별된 데이터셋을 사용하여 미세 조정된다. 미세 조정 단계 또한 지도 미세 조정(SFT)과 온라인 직접 선호도 최적화(ODPO)의 두 단계로 구성된다.

3.2.1 지도 미세 조정 (Supervised Fine-tuning)

우리는 강력한 교사로부터의 로짓 증류 손실(logit distillation loss)을 사용하여 fp8 양자화로 SFT를 실행한다. 사전 학습과 달리, 각 모델은 Mistral Medium 3 모델로부터 증류된다(자세한 내용은 §5.1 참조). 사전 학습 단계와 마찬가지로 비전 인코더는 동결된 상태로 유지되며 어댑터만 훈련 가능하다.

3.2.2 온라인 직접 선호도 최적화 단계 (ODPO)

직접 선호도 최적화(DPO) [Rafailov et al., 2023]는 오프라인 쌍별 선호도(offline pairwise preferences)로부터 직접 학습하여 인간 선호도를 최적화하는 경량화된 프레임워크를 제공한다. Ministral 3 모델의 경우, 우리는 그 온라인 변형인 온라인 직접 선호도 최적화(ODPO) [Guo et al., 2024]를 채택했다. 여기서 우리는 각 예제에 대해 현재 정책(policy)에서 온도 T=0.7로 두 개의 후보 응답을 샘플링하고, 텍스트 기반 보상 모델을 사용하여 응답의 순위를 매긴다.

이 방법은 후보 응답의 순위를 동적으로 매기기 위해 쌍별 보상 모델(Pairwise Reward Model, PWRM)에 의존한다. PWRM은 구조화된 쌍별 데이터(대화 기록과 두 개의 후보 응답이 주어졌을 때 어느 응답이 선호되는지 예측)에 대해 지도 미세 조정(SFT)을 통해 훈련된다. 또한, 우리는 PWRM의 이항 확률적 출력(binomial probabilistic output)을 통합하여 고전적인 DPO 손실을 개선했다. 이는 명확한 승자/패자 라벨을 선호될 확률로 각 응답에 가중치를 주는 양면 손실(two-sided loss)로 대체한다.

우리는 학습 과정을 안정화하기 위해 두 가지 추가적인 변경을 수행했다: (1) 승리/패배 확률을 보정(calibrate)하기 위해 PWRM 온도를 조정했다. (2) DPO 손실의 베타 불변(beta-invariant) 재조정을 허용하는 $\beta$-rescaling 기법을 사용했다. 실제적으로, 온라인 변형은 무한 생성(infinite generations)과 같은 모델 유도 결함(artifacts)을 완화하는 데 특히 중요하다. 이는 샘플링 중 무한 루프를 보이는 응답을 자동으로 "패자(loser)"로 취급하여 그러한 행동이 강화되는 것을 방지하는 등의 휴리스틱에 의해 촉진된다. 마지막으로, 생성 중 도구 실행(tool execution)을 활성화하여 모델의 도구 사용 성능을 향상시켰다.

요약하자면, 우리는 온라인 선호도 최적화를 사용하는 것이 SFT 및 오프라인 변형보다 인간 선호도와의 정렬(alignment)을 상당히 향상시킨다는 것을 발견했다. 이 단계에서 생성된 모델들을 Ministral 3-14B/8B/3B Instruct로 배포한다.

3.3 포스트 트레이닝: Ministral Reasoning

추론 모델을 위한 포스트 트레이닝은 ODPO 변형이 아닌 사전 학습된 체크포인트에서 시작한다. 우리는 긴 컨텍스트 사전 학습 체크포인트를 시작점으로 사용하여, SFT, GRPO, ODPO로 구성된 3단계 파이프라인을 통해 추론 시간 스케일링(inference-time scaling)을 위해 모델을 훈련한다. 이 추론 지향 미세 조정 단계 이후 배포되는 모델은 Ministral 3 14B/8B/3B Reasoning으로 명명된다.

3.3.1 추론 지도 미세 조정 (Reasoning Supervised Fine-Tuning)

이 단계에서 모델은 짧고 긴 CoT(Chain-of-Thought) 샘플의 혼합으로 미세 조정된다. 전자는 우리의 일반 SFT 데이터 믹스에서 파생되며, 후자는 추론 전용 시스템 프롬프트가 접두사로 붙은 추론 과정(reasoning traces)으로 구성된다. 추론 과정은 수학, 코딩, 일반 대화, 지시 이행, 다국어 작업, 도구 사용, 시각적 추론 등 다양한 도메인에서 온다. 우리는 형식이 좋지 않거나, 과도한 반복을 포함하거나, 바람직하지 않은 언어 전환이 있는 예제를 제거하기 위해 경량 필터링을 적용하여 모델이 깨끗하고 잘 구조화된 생각의 사슬에 노출되도록 보장한다.

3B SFT: 3B 모델의 경우, 일반적인 SFT는 부서지기 쉽고(brittle), 지나치게 장황하며, 출력에서 많은 반복과 무한 생성을 초래했다. 이를 완화하기 위해 우리는 Magistral Small 1.2를 교사로 하여 로짓 증류를 수행했다. 이는 장황함을 줄이고 후속 RL 훈련을 안정화하는 데 도움이 되었다.

3.3.2 강화 학습 (Reinforcement Learning)

우리는 모델의 사고(thinking)를 정제하고 추론 작업에서의 성능을 더욱 향상시키기 위해 SFT 체크포인트 위에서 GRPO [DeepSeek-AI et al., 2025]를 수행한다. 훈련은 두 단계로 수행된다:

STEM RL: 첫 번째 단계에서는 수학, 코드, 시각적 추론 작업에 대해 모델을 훈련한다. 우리는 다양한 오픈 소스 및 독점 소스에서 질문-답변 쌍을 수집한다. 샘플은 유효하지 않거나 불완전하거나 매우 쉽거나 어려운 문제를 제거하기 위해 엄격한 다단계 파이프라인(Rastogi et al. [2025]에 상세 설명)을 사용하여 필터링 및 정제된다.
General RL: 두 번째 단계에서는 STEM 문제를 넘어 범위를 확장한다. 우리는 일반 대화, 지시 이행, 개방형 추론 작업을 포함한 다양한 프롬프트 세트에 대해 원자적 채점 기준(atomic grading rubrics)을 생성한다. GRPO 동안, LLM 심판(judge)이 이러한 기준(예: 프롬프트에 대한 충실성, 응답 품질)에 대해 각 모델의 롤아웃을 평가하며, 최종 보상은 충족된 휴리스틱의 비율로 설정된다. 이 단계는 STEM 벤치마크 성능을 유지하거나 때로는 향상시키면서 모델의 지시 이행 및 일반 대화 능력을 향상시킨다.

두 단계 모두 Rastogi et al. [2025]의 GRPO 훈련 레시피를 따른다. RL 중 잘린 생성(truncated generations)의 비율이 적지 않게 관찰되었기 때문에 최대 생성 길이를 32K에서 80K로 늘렸다. 더 긴 출력을 허용함으로써 모델이 가장 어려운 문제에 대한 추론을 완료할 수 있게 되어 추가적인 성능 향상을 가져왔다.

3.3.3 온라인 직접 선호도 최적화 (ODPO)

마지막으로, 우리는 사용자 선호도와 더 잘 정렬되고 모델의 대화 및 지시 행동을 다듬기 위해 RL 후 정렬(post-RL alignment) 단계로 ODPO를 적용한다. 전체 절차는 비-추론(non-reasoning) Instruct 모델에 사용된 설정과 동일하지만 한 가지 수정 사항이 있다. 점수를 매기기 위해 보상 모델로 보내기 전에 모델의 생성물에서 사고 청크(thinking chunks)를 제거한다. 몇 가지 추가적인 실험 세부 사항은 5.3절에서 논의된다.

4. 결과 (Results)

이 섹션에서는 다양한 벤치마크에 대한 Ministral 3 모델의 결과를 보고한다. 또한 Ministral 3를 동일한 규모의 다른 오픈 웨이트 모델인 Qwen 3 제품군 [Yang et al., 2025, Bai et al., 2025] 및 Gemma 3 제품군 [Kamath et al., 2025]과 비교한다. 외부 모델의 경우 공정한 비교를 위해 자체 평가 파이프라인으로 모든 벤치마크를 다시 실행했다.

평가된 벤치마크는 다음과 같다:

General: MMLU, MMLU Redux, ARC-Challenge, RACE High, TriviaQA, NaturalQS, AGIEval.
Math & Code: MATH, GPQA Diamond, MBPP.
Multimodal: MMMU, MathVista.
Post-training: Arena Hard, WildBench, MM MTBench, AIME 2024/2025, HMMT 2025, PhyBench, LiveCodeBench.

4.1 사전 학습 결과 (Pretraining Results)

표 2에서 우리는 Ministral 3 Base 모델을 Gemma 3 및 Qwen 3 제품군의 유사한 크기의 다른 오픈 웨이트 모델과 비교한다. 14B 규모에서 Ministral 3는 강력한 성능을 보여주며, TriviaQA와 MATH에서 Qwen 3 14B를 능가하고 다른 벤치마크에서도 경쟁력을 갖추고 있다. 우리 14B 모델은 또한 모든 벤치마크에서 Gemma 12B보다 훨씬 우수하다.

8B 규모에서도 유사한 경향이 관찰된다. 또한 Ministral 3 8B가 대부분의 평가(TriviaQA 제외)에서 더 큰 Gemma 12B를 능가한다는 점은 주목할 만하며, 이는 Ministral 3 모델의 강력한 파라미터 효율성을 강조한다.

(표 2 및 표 3 생략 - 원문 참조)

3B 규모에서도 전반적인 추세는 지속되지만, 모델 간 성능 격차는 더 두드러진다.

4.2 포스트 트레이닝 결과 (Post-training Results)

표 4에서 우리는 Ministral 3 Instruct 모델을 Gemma 3 및 Qwen 3 제품군의 Instruct 모델과 비교한다. Qwen 3의 경우 최신 비전 지원 Instruct 변형(Qwen 3-VL)의 결과를 보고한다.

(표 4 및 표 5 생략 - 원문 참조)

표 5에서는 Ministral 3 Reasoning 모델을 Qwen 3 제품군의 Reasoning 모델과 비교한다. 공정한 비교를 위해 모든 모델은 동일한 평가 파이프라인을 사용하여 평가되었다. 분산을 줄이기 위해 LiveCodeBench(pass@5 사용)를 제외하고 pass@16을 보고한다.

5. 논의 (Discussions)

5.1 증류를 위한 교사 모델 선택 (Choice of Teacher Model for Distillation)

증류 과정을 위한 적절한 교사 모델을 선택할 때, 우리는 설계 선택에 의미 있는 영향을 미친 몇 가지 주목할 만한 관찰 결과를 확인했다:

더 강력한 교사가 더 나은 결과를 낳지는 않는다: 사전 학습의 경우, Busbridge et al. [2025]의 관찰과 유사하게 FLOP이 일치하지 않는 설정에서도 Mistral Small 3.1로부터의 증류가 훨씬 더 강력한 Mistral Medium 3로부터의 증류보다 성능이 뛰어났다(그림 3). 그러나 포스트 트레이닝 동안 Ministral 3 모델은 더 유능한 Mistral Medium 3.1로부터의 증류 이점을 얻는다.

교사 버전(base / instruct)의 선택이 중요하다: Goyal et al. [2025]와 일치하게, 우리는 사전 학습 단계에서 사전 학습된 교사 대신 포스트 트레이닝된(instruct) 교사로부터 증류하는 것이 더 강력한 모델을 낳는다는 것을 발견했다(그림 4). 특히, 이는 수학(MATH) 및 코드 능력에 강력한 영향을 미쳤으며, 멀티모달 평가(예: MMMU)에는 작지만 일관된 영향을 미쳤고, 지식 지표(MMLU / Trivia-QA)에는 무시할 만한 영향을 미쳤다.

인간 선호도 튜닝된 모델이 더 나은 교사다: 우리는 SFT 중 SFT 체크포인트와 선호도 튜닝된(preference tuned) 체크포인트 중 어느 것에서 증류하는 것이 더 좋은지 답하기 위해 두 가지 내부 버전의 Mistral Medium 3를 사용했다. 우리는 선호도 튜닝된 체크포인트로부터 증류하는 것이 항상 실질적으로 더 좋다는 것을 발견했다. 이러한 이득은 학생 모델이 자체적인 선호도 튜닝 단계를 거친 후에도 지속된다.

5.2 모델 장황함 (Model Verbosity)

(그림 5 생략)

Ministral 3 Instruct의 포스트 트레이닝은 Qwen 3와 달리 "General RL" 단계 이전에 "Reasoning RL"을 수행하지 않는다는 점에서 다르다(Yang et al. [2025]의 그림 1 참조). 이는 그림 5에 설명된 것처럼 두 모델 간에 다른 모델 장황함(verbosity)을 초래할 가능성이 높다.

Ministral 3 Instruct 모델이 더 긴 생각의 사슬(chains of thought)을 생성하도록 하기 위한 실험에서, 우리는 신중하게 선별된 시스템 프롬프트와 짝을 이룬 다양한 비율의 긴 CoT 추론 과정을 SFT 훈련 데이터에 통합하는 것을 조사했다. 이러한 긴 CoT 데이터의 비율을 늘리면 STEM 벤치마크 성능이 향상되었지만, 과도한 성찰(reflection), 내적 독백(internal monologues), 역추적(backtracking) 행동(아래 예시 참조)으로 이어지기도 했는데, 이는 범용 대화 모델로서는 바람직하지 않고 부자연스러운 것이다.

Instruct 모델의 추론 행동 예시 (번역)
"좋아, 이 문제를 단계별로 해결해 보자. 질문은: $17_b$가 $97_b$의 약수가 되는 모든 정수 기저 $b > 9$의 합을 구하라. 먼저, 기저 $b$의 숫자를 10진수로 변환하는 법을 기억해야 해... 잠시만, 문제가 $b > 9$라고 했으니... 잠시만, 다른 방법으로 확인해 보자... 내 생각엔 이게 맞는 것 같아. 핵심은 숫자를 10진수로 변환하고..."

5.3 Ministral 3 Reasoning을 위한 ODPO

추론 모델들은 어려운 문제를 해결하는 데는 더 뛰어나지만, 일반적인 대화 품질에서는 뒤처지는 경우가 많으며, 이는 Ministral 3 추론 변형에서도 관찰된 패턴이다. 이를 해결하기 위해 우리는 RL 훈련된 체크포인트 위에 ODPO 훈련을 수행했다. 그림 6에서 볼 수 있듯이, 이는 정렬(alignment) 벤치마크에서 14B 및 8B 모델을 상당히 향상시켰다. 그러나 3B 모델은 이 단계 이후 공개 벤치마크에서 유의미한 향상을 보여주지 못했다. 그럼에도 불구하고 모델은 내부 인간 평가에서 더 나은 성능을 보였으므로 우리는 ODPO 체크포인트를 배포 후보로 선정했다.

6. 결론 (Conclusion)

우리는 자원 제약이 있는 환경을 위해 설계된 효율적인 밀집 언어 모델 제품군인 Ministral 3를 소개했다. 더 큰 교사 모델(Mistral Small 3.1 및 Medium 3)로부터의 반복적인 증류를 통해, 우리는 세 가지 모델 크기(14B, 8B, 3B)를 생성했으며 각각 기반, 지시 이행, 추론 강화 변형으로 제공된다. 모든 모델은 비전 능력을 지원하며 최대 256K 토큰의 컨텍스트를 처리한다. 종합적으로, Ministral 3 모델은 오픈 소스 이니셔티브를 지원하고 발전시키려는 Mistral의 지속적인 헌신을 강조한다. 우리는 이 모델들이 커뮤니티에 가치를 제공하고 더 강력하고 활기찬 오픈 소스 생태계에 기여하기를 희망한다.

저작자표시 (새창열림)

'LLM으로 뽑은 잡지식' 카테고리의 다른 글

Gửi bạn, người hôm nay vẫn đang mải miết đi tìm "Bánh quy Dubai dẻo" (0)	2026.01.18
오늘도 두쫀쿠를 찾아 헤매는 당신에게 (1)	2026.01.18
미국의 AI 실행 계획 (AMERICA’S AI ACTION PLAN) (1)	2026.01.17
미국의 AI 실행 계획 (AMERICA’S AI ACTION PLAN) (0)	2026.01.17
파리, 예술이 취하는 도시 (1)	2026.01.10

잡지식 Magazine Knowledge

Ministral 3 기술 보고서

Ministral 3 기술 보고서

초록 (Abstract)

1. 서론 (Introduction)

2. 모델 아키텍처 (Model Architecture)

3. 훈련 레시피 (Training Recipe)

3.1 사전 학습 (Pretraining)

3.2 포스트 트레이닝: Ministral Instruct

3.2.1 지도 미세 조정 (Supervised Fine-tuning)

3.2.2 온라인 직접 선호도 최적화 단계 (ODPO)

3.3 포스트 트레이닝: Ministral Reasoning

3.3.1 추론 지도 미세 조정 (Reasoning Supervised Fine-Tuning)

3.3.2 강화 학습 (Reinforcement Learning)

3.3.3 온라인 직접 선호도 최적화 (ODPO)

4. 결과 (Results)

4.1 사전 학습 결과 (Pretraining Results)

4.2 포스트 트레이닝 결과 (Post-training Results)

5. 논의 (Discussions)

5.1 증류를 위한 교사 모델 선택 (Choice of Teacher Model for Distillation)

5.2 모델 장황함 (Model Verbosity)

5.3 Ministral 3 Reasoning을 위한 ODPO

6. 결론 (Conclusion)

'LLM으로 뽑은 잡지식' 카테고리의 다른 글

티스토리툴바

Ministral 3 기술 보고서

Ministral 3 기술 보고서

초록 (Abstract)

1. 서론 (Introduction)

2. 모델 아키텍처 (Model Architecture)

3. 훈련 레시피 (Training Recipe)

3.1 사전 학습 (Pretraining)

3.2 포스트 트레이닝: Ministral Instruct

3.2.1 지도 미세 조정 (Supervised Fine-tuning)

3.2.2 온라인 직접 선호도 최적화 단계 (ODPO)

3.3 포스트 트레이닝: Ministral Reasoning

3.3.1 추론 지도 미세 조정 (Reasoning Supervised Fine-Tuning)

3.3.2 강화 학습 (Reinforcement Learning)

3.3.3 온라인 직접 선호도 최적화 (ODPO)

4. 결과 (Results)

4.1 사전 학습 결과 (Pretraining Results)

4.2 포스트 트레이닝 결과 (Post-training Results)

5. 논의 (Discussions)

5.1 증류를 위한 교사 모델 선택 (Choice of Teacher Model for Distillation)

5.2 모델 장황함 (Model Verbosity)

5.3 Ministral 3 Reasoning을 위한 ODPO

6. 결론 (Conclusion)

'LLM으로 뽑은 잡지식' 카테고리의 다른 글

'LLM으로 뽑은 잡지식' Related Articles

티스토리툴바