HumanEval Leaderboard

HumanEval Code Generation

Evaluates ability to generate correct Python functions from docstrings. Measures programming skill and code synthesis.

26Models Tested

97%Highest Score

92.8%Average

15.8%Spread

#	Model	Provider	Score
1	Claude Opus 4.6Anthropic	Anthropic	97%	Try
2	GPT-5.2OpenAI	OpenAI	97%	Try
3	DeepSeek R1DeepSeek	DeepSeek	96.1%	Try
4	Claude Sonnet 4.6Anthropic	Anthropic	96%	Try
5	Claude Opus 4.5Anthropic	Anthropic	96%	Try
6	GPT-5.1OpenAI	OpenAI	96%	Try
7	Claude Sonnet 4.5Anthropic	Anthropic	95%	Try
8	Gemini 3 ProGoogle	Google	95%	Try
9	Gemini 3.1 ProGoogle	Google	94.6%	Try
10	Gemini 3 FlashGoogle	Google	94%	Try
11	o4-miniOpenAI	OpenAI	93.6%	Try
12	Gemini 2.5 ProGoogle	Google	93.2%	Try
13	GPT-5.3 CodexOpenAI	OpenAI	93%	Try
14	Mistral Small 3.2Mistral	Mistral	92.9%	Try
15	o3OpenAI	OpenAI	92.8%	Try
16	GPT-4.1OpenAI	OpenAI	92.4%	Try
17	Grok 4.1xAI	xAI	92%	Try
18	DeepSeek V3.2DeepSeek	DeepSeek	92%	Try
19	Mistral Large 3Mistral	Mistral	92%	Try
20	Llama 4 MaverickMeta	Meta	91.5%	Try
21	Gemini 2.5 FlashGoogle	Google	90.3%	Try
22	Claude Haiku 4.5Anthropic	Anthropic	90%	Try
23	Grok 4xAI	xAI	90%	Try
24	GPT-4.1 miniOpenAI	OpenAI	89.5%	Try
25	Llama 4 ScoutMeta	Meta	89%	Try
26	GPT-4.1 nanoOpenAI	OpenAI	81.2%	Try

Evaluates ability to generate correct Python functions from docstrings. Measures programming skill and code synthesis.

26Models Tested

97%Highest Score

92.8%Average

15.8%Spread

#	Model	Provider	Score
1	Claude Opus 4.6Anthropic	Anthropic	97%	Try
2	GPT-5.2OpenAI	OpenAI	97%	Try
3	DeepSeek R1DeepSeek	DeepSeek	96.1%	Try
4	Claude Sonnet 4.6Anthropic	Anthropic	96%	Try
5	Claude Opus 4.5Anthropic	Anthropic	96%	Try
6	GPT-5.1OpenAI	OpenAI	96%	Try
7	Claude Sonnet 4.5Anthropic	Anthropic	95%	Try
8	Gemini 3 ProGoogle	Google	95%	Try
9	Gemini 3.1 ProGoogle	Google	94.6%	Try
10	Gemini 3 FlashGoogle	Google	94%	Try
11	o4-miniOpenAI	OpenAI	93.6%	Try
12	Gemini 2.5 ProGoogle	Google	93.2%	Try
13	GPT-5.3 CodexOpenAI	OpenAI	93%	Try
14	Mistral Small 3.2Mistral	Mistral	92.9%	Try
15	o3OpenAI	OpenAI	92.8%	Try
16	GPT-4.1OpenAI	OpenAI	92.4%	Try
17	Grok 4.1xAI	xAI	92%	Try
18	DeepSeek V3.2DeepSeek	DeepSeek	92%	Try
19	Mistral Large 3Mistral	Mistral	92%	Try
20	Llama 4 MaverickMeta	Meta	91.5%	Try
21	Gemini 2.5 FlashGoogle	Google	90.3%	Try
22	Claude Haiku 4.5Anthropic	Anthropic	90%	Try
23	Grok 4xAI	xAI	90%	Try
24	GPT-4.1 miniOpenAI	OpenAI	89.5%	Try
25	Llama 4 ScoutMeta	Meta	89%	Try
26	GPT-4.1 nanoOpenAI	OpenAI	81.2%	Try