SimpleQA Leaderboard

SimpleQA Factuality Benchmark

Short-form factual questions with verifiable answers. Measures factual accuracy and resistance to hallucination. Lower scores are common even for frontier models.

26Models Tested

79.6%Highest Score

37%Average

65.4%Spread

#	Model	Provider	Score
1	Gemini 3.1 ProGoogle	Google	79.6%	Try
2	GPT-5.3 CodexOpenAI	OpenAI	58%	Try
3	GPT-5.2OpenAI	OpenAI	52.5%	Try
4	Gemini 3 ProGoogle	Google	49%	Try
5	GPT-5.1OpenAI	OpenAI	48%	Try
6	o3OpenAI	OpenAI	47.9%	Try
7	Claude Opus 4.6Anthropic	Anthropic	43.2%	Try
8	GPT-4.1OpenAI	OpenAI	42.8%	Try
9	Gemini 2.5 ProGoogle	Google	41.5%	Try
10	o4-miniOpenAI	OpenAI	40.3%	Try
11	Claude Sonnet 4.6Anthropic	Anthropic	39.5%	Try
12	Grok 4.1xAI	xAI	38%	Try
13	Claude Opus 4.5Anthropic	Anthropic	36%	Try
14	Gemini 3 FlashGoogle	Google	36%	Try
15	Grok 4xAI	xAI	34.2%	Try
16	DeepSeek V3.2DeepSeek	DeepSeek	33%	Try
17	DeepSeek R1DeepSeek	DeepSeek	31.4%	Try
18	Claude Sonnet 4.5Anthropic	Anthropic	30.8%	Try
19	Mistral Large 3Mistral	Mistral	29%	Try
20	Gemini 2.5 FlashGoogle	Google	28.3%	Try
21	Llama 4 MaverickMeta	Meta	27.5%	Try
22	GPT-4.1 miniOpenAI	OpenAI	26.5%	Try
23	Llama 4 ScoutMeta	Meta	21%	Try
24	Claude Haiku 4.5Anthropic	Anthropic	19%	Try
25	Mistral Small 3.2Mistral	Mistral	15.5%	Try
26	GPT-4.1 nanoOpenAI	OpenAI	14.2%	Try

Short-form factual questions with verifiable answers. Measures factual accuracy and resistance to hallucination. Lower scores are common even for frontier models.

26Models Tested

79.6%Highest Score

37%Average

65.4%Spread

#	Model	Provider	Score
1	Gemini 3.1 ProGoogle	Google	79.6%	Try
2	GPT-5.3 CodexOpenAI	OpenAI	58%	Try
3	GPT-5.2OpenAI	OpenAI	52.5%	Try
4	Gemini 3 ProGoogle	Google	49%	Try
5	GPT-5.1OpenAI	OpenAI	48%	Try
6	o3OpenAI	OpenAI	47.9%	Try
7	Claude Opus 4.6Anthropic	Anthropic	43.2%	Try
8	GPT-4.1OpenAI	OpenAI	42.8%	Try
9	Gemini 2.5 ProGoogle	Google	41.5%	Try
10	o4-miniOpenAI	OpenAI	40.3%	Try
11	Claude Sonnet 4.6Anthropic	Anthropic	39.5%	Try
12	Grok 4.1xAI	xAI	38%	Try
13	Claude Opus 4.5Anthropic	Anthropic	36%	Try
14	Gemini 3 FlashGoogle	Google	36%	Try
15	Grok 4xAI	xAI	34.2%	Try
16	DeepSeek V3.2DeepSeek	DeepSeek	33%	Try
17	DeepSeek R1DeepSeek	DeepSeek	31.4%	Try
18	Claude Sonnet 4.5Anthropic	Anthropic	30.8%	Try
19	Mistral Large 3Mistral	Mistral	29%	Try
20	Gemini 2.5 FlashGoogle	Google	28.3%	Try
21	Llama 4 MaverickMeta	Meta	27.5%	Try
22	GPT-4.1 miniOpenAI	OpenAI	26.5%	Try
23	Llama 4 ScoutMeta	Meta	21%	Try
24	Claude Haiku 4.5Anthropic	Anthropic	19%	Try
25	Mistral Small 3.2Mistral	Mistral	15.5%	Try
26	GPT-4.1 nanoOpenAI	OpenAI	14.2%	Try