MATH Leaderboard

Mathematics Problem Solving

Competition-level mathematics problems spanning algebra, geometry, number theory, and calculus. Tests multi-step mathematical reasoning.

18Models Tested

98%Highest Score

89.8%Average

27.9%Spread

#	Model	Provider	Score
1	GPT-5.2OpenAI	OpenAI	98%	Try
2	Claude Sonnet 4.6Anthropic	Anthropic	97.8%	Try
3	Claude Opus 4.6Anthropic	Anthropic	97.6%	Try
4	DeepSeek R1DeepSeek	DeepSeek	97.3%	Try
5	Gemini 3.1 ProGoogle	Google	96.8%	Try
6	GPT-5.3 CodexOpenAI	OpenAI	96%	Try
7	Gemini 3 ProGoogle	Google	95%	Try
8	o4-miniOpenAI	OpenAI	93.4%	Try
9	Claude Opus 4.5Anthropic	Anthropic	92%	Try
10	Grok 4xAI	xAI	91.7%	Try
11	o3OpenAI	OpenAI	91.6%	Try
12	Gemini 2.5 ProGoogle	Google	90.2%	Try
13	Gemini 3 FlashGoogle	Google	90%	Try
14	Claude Sonnet 4.5Anthropic	Anthropic	87%	Try
15	Gemini 2.5 FlashGoogle	Google	82.1%	Try
16	Llama 4 MaverickMeta	Meta	75.8%	Try
17	GPT-4.1OpenAI	OpenAI	73.8%	Try
18	Llama 4 ScoutMeta	Meta	70.1%	Try

Competition-level mathematics problems spanning algebra, geometry, number theory, and calculus. Tests multi-step mathematical reasoning.

18Models Tested

98%Highest Score

89.8%Average

27.9%Spread

#	Model	Provider	Score
1	GPT-5.2OpenAI	OpenAI	98%	Try
2	Claude Sonnet 4.6Anthropic	Anthropic	97.8%	Try
3	Claude Opus 4.6Anthropic	Anthropic	97.6%	Try
4	DeepSeek R1DeepSeek	DeepSeek	97.3%	Try
5	Gemini 3.1 ProGoogle	Google	96.8%	Try
6	GPT-5.3 CodexOpenAI	OpenAI	96%	Try
7	Gemini 3 ProGoogle	Google	95%	Try
8	o4-miniOpenAI	OpenAI	93.4%	Try
9	Claude Opus 4.5Anthropic	Anthropic	92%	Try
10	Grok 4xAI	xAI	91.7%	Try
11	o3OpenAI	OpenAI	91.6%	Try
12	Gemini 2.5 ProGoogle	Google	90.2%	Try
13	Gemini 3 FlashGoogle	Google	90%	Try
14	Claude Sonnet 4.5Anthropic	Anthropic	87%	Try
15	Gemini 2.5 FlashGoogle	Google	82.1%	Try
16	Llama 4 MaverickMeta	Meta	75.8%	Try
17	GPT-4.1OpenAI	OpenAI	73.8%	Try
18	Llama 4 ScoutMeta	Meta	70.1%	Try