MMLU Leaderboard

Massive Multitask Language Understanding

Tests knowledge across 57 academic subjects including STEM, humanities, and social sciences. Measures breadth of world knowledge.

26Models Tested

93.1%Highest Score

86.7%Average

21.1%Spread

#	Model	Provider	Score
1	Gemini 3 ProGoogle	Google	93.1%	Try
2	GPT-5.3 CodexOpenAI	OpenAI	93%	Try
3	GPT-5.2OpenAI	OpenAI	92.8%	Try
4	Gemini 3.1 ProGoogle	Google	92.6%	Try
5	Claude Opus 4.6Anthropic	Anthropic	92.5%	Try
6	GPT-5.1OpenAI	OpenAI	91.5%	Try
7	Claude Sonnet 4.6Anthropic	Anthropic	91%	Try
8	DeepSeek R1DeepSeek	DeepSeek	90.8%	Try
9	Claude Opus 4.5Anthropic	Anthropic	90.5%	Try
10	Grok 4.1xAI	xAI	90.2%	Try
11	o3OpenAI	OpenAI	89.4%	Try
12	Gemini 2.5 ProGoogle	Google	89%	Try
13	Claude Sonnet 4.5Anthropic	Anthropic	88.7%	Try
14	Gemini 3 FlashGoogle	Google	88%	Try
15	Grok 4xAI	xAI	87.5%	Try
16	o4-miniOpenAI	OpenAI	86.8%	Try
17	GPT-4.1OpenAI	OpenAI	86%	Try
18	DeepSeek V3.2DeepSeek	DeepSeek	85.7%	Try
19	Mistral Large 3Mistral	Mistral	84%	Try
20	Gemini 2.5 FlashGoogle	Google	83.5%	Try
21	Llama 4 MaverickMeta	Meta	82.5%	Try
22	Claude Haiku 4.5Anthropic	Anthropic	82%	Try
23	GPT-4.1 miniOpenAI	OpenAI	80.5%	Try
24	Llama 4 ScoutMeta	Meta	78%	Try
25	Mistral Small 3.2Mistral	Mistral	72.7%	Try
26	GPT-4.1 nanoOpenAI	OpenAI	72%	Try

Tests knowledge across 57 academic subjects including STEM, humanities, and social sciences. Measures breadth of world knowledge.

26Models Tested

93.1%Highest Score

86.7%Average

21.1%Spread

#	Model	Provider	Score
1	Gemini 3 ProGoogle	Google	93.1%	Try
2	GPT-5.3 CodexOpenAI	OpenAI	93%	Try
3	GPT-5.2OpenAI	OpenAI	92.8%	Try
4	Gemini 3.1 ProGoogle	Google	92.6%	Try
5	Claude Opus 4.6Anthropic	Anthropic	92.5%	Try
6	GPT-5.1OpenAI	OpenAI	91.5%	Try
7	Claude Sonnet 4.6Anthropic	Anthropic	91%	Try
8	DeepSeek R1DeepSeek	DeepSeek	90.8%	Try
9	Claude Opus 4.5Anthropic	Anthropic	90.5%	Try
10	Grok 4.1xAI	xAI	90.2%	Try
11	o3OpenAI	OpenAI	89.4%	Try
12	Gemini 2.5 ProGoogle	Google	89%	Try
13	Claude Sonnet 4.5Anthropic	Anthropic	88.7%	Try
14	Gemini 3 FlashGoogle	Google	88%	Try
15	Grok 4xAI	xAI	87.5%	Try
16	o4-miniOpenAI	OpenAI	86.8%	Try
17	GPT-4.1OpenAI	OpenAI	86%	Try
18	DeepSeek V3.2DeepSeek	DeepSeek	85.7%	Try
19	Mistral Large 3Mistral	Mistral	84%	Try
20	Gemini 2.5 FlashGoogle	Google	83.5%	Try
21	Llama 4 MaverickMeta	Meta	82.5%	Try
22	Claude Haiku 4.5Anthropic	Anthropic	82%	Try
23	GPT-4.1 miniOpenAI	OpenAI	80.5%	Try
24	Llama 4 ScoutMeta	Meta	78%	Try
25	Mistral Small 3.2Mistral	Mistral	72.7%	Try
26	GPT-4.1 nanoOpenAI	OpenAI	72%	Try