AI Benchmark Digest — 2026-06-15


            
        June 15, 2026
    
    
AI Benchmark Digest — 2026-06-15


AI Benchmark Digest — 2026-06-15
View on AI Benchmark Hub
Daily
New Benchmarks (145)

Open LLM Leaderboard - IFEval (Score): Llama-3.3-70B-Instruct leads with 89.98 across 4576 models.
Open LLM Leaderboard - BBH (Score): Benchmaxx-Llama-3.2-1B-Instruct leads with 76.7 across 4576 models.
Open LLM Leaderboard - MATH Level 5 (Score): AceMath-72B-Instruct leads with 71.45 across 4576 models.
Open LLM Leaderboard - GPQA (Score): L3.3-MS-Nevoria-70b leads with 29.42 across 4576 models.
Open LLM Leaderboard - MuSR (Score): T3Q-Qwen2.5-14B-Instruct-1M-e3 leads with 38.69 across 4576 models.
Open LLM Leaderboard - MMLU-Pro (Score): calme-3.2-instruct-78b leads with 70.03 across 4576 models.
AI for Education Pedagogy (Accuracy (%)): GPT-5.5 leads with 92.1 across 216 models.
AI for Education Pedagogy - Maths (Accuracy (%)): Gemini-3.1 Pro leads with 94.44 across 216 models.
AI for Education Pedagogy - Primary (Accuracy (%)): GPT-5.5 leads with 96.71 across 216 models.
AI for Education Pedagogy - Science (Accuracy (%)): Qwen3.5 Plus leads with 95.08 across 216 models.
AI for Education Pedagogy - Secondary (Accuracy (%)): GPT-5.5 leads with 91.04 across 216 models.
AI for Education Pedagogy - Social studies (Accuracy (%)): o3 leads with 91.82 across 216 models.
AI for Education Pedagogy - Technology (Accuracy (%)): Kimi K2.5 leads with 89.62 across 216 models.
AI for Education SEND (Accuracy (%)): GPT-5.5 leads with 88.07 across 208 models.
AI for Education Visual Maths (Accuracy (%)): GPT-5.5 leads with 89.87 across 61 models.
AI for Education Visual Maths - Algebra (Accuracy (%)): Gemini-2.5 Pro leads with 100.0 across 61 models.
AI for Education Visual Maths - Geometry (Accuracy (%)): GPT-5.5 leads with 88.46 across 61 models.
AI for Education Visual Maths - Measurement (Accuracy (%)): GPT-5.5 leads with 97.3 across 61 models.
AI for Education Visual Maths - Number and Operations (Accuracy (%)): GPT-5.5 leads with 83.78 across 61 models.
AI for Education Visual Maths - Statistics and Probability (Accuracy (%)): GPT-5.5 leads with 85.71 across 61 models.
AI for Education Visual Reasoning (Accuracy (%)): Gemini-3.5 Flash leads with 86.0 across 63 models.
AI for Education Visual Reasoning - match (figure) (Accuracy (%)): Gemini-3.5 Flash leads with 85.2 across 63 models.
AI for Education Visual Reasoning - match (process) (Accuracy (%)): Gemini-3 Flash leads with 77.8 across 63 models.
AI for Education Visual Reasoning - odd one out (Accuracy (%)): Gemini-3.5 Flash leads with 80.5 across 63 models.
AI for Education Visual Reasoning - pattern completion (2d) (Accuracy (%)): Gemini-3.1 Pro leads with 86.3 across 63 models.
AI for Education Visual Reasoning - pattern completion (linear) (Accuracy (%)): Gemini-3.5 Flash leads with 91.5 across 63 models.
AI for Education Visual Reasoning - reasoning by analogy (Accuracy (%)): Gemini-3.5 Flash leads with 88.8 across 63 models.
SWE-bench Verified (Opus 4.6 System Card) (Resolved (%)): Claude Opus 4.5 (Thinking) leads with 80.9 across 5 models.
Terminal-Bench 2.0 (Opus 4.6 System Card) (Pass Rate (%)): Claude Opus 4.6 (Thinking) leads with 65.4 across 5 models.
Tau2 Bench Retail (Opus 4.6 System Card) (Score (%)): Claude Opus 4.6 (Thinking) leads with 91.9 across 5 models.
Tau2 Bench Telecom (Opus 4.6 System Card) (Score (%)): Claude Opus 4.6 (Thinking) leads with 99.3 across 5 models.
MCP-Atlas (Opus 4.6 System Card) (Score (%)): Claude Opus 4.5 (Thinking) leads with 62.3 across 5 models.
ARC-AGI-2 Verified (Opus 4.6 System Card) (Score (%)): Claude Opus 4.6 (Thinking) leads with 68.8 across 5 models.
GPQA Diamond (Opus 4.6 System Card) (Accuracy (%)): GPT-5.2 leads with 93.2 across 5 models.
MMMU-Pro No Tools (Opus 4.6 System Card) (Score (%)): Gemini 3 Pro leads with 81.0 across 5 models.
MMMLU (Opus 4.6 System Card) (Accuracy (%)): Gemini 3 Pro leads with 91.8 across 5 models.
SWE-bench Verified (Fable/Mythos) (Resolved (%)): Claude Mythos 5 leads with 95.5 across 5 models.
Terminal-Bench 2.1 (Fable/Mythos) (Mean Reward (%)): Claude Mythos 5 leads with 88.0 across 5 models.
BrowseComp (Fable/Mythos Single-Agent) (Score (%)): Claude Mythos 5 leads with 88.0 across 4 models.
BrowseComp (Fable/Mythos Multi-Agent) (Score (%)): Claude Fable 5 leads with 93.3 across 2 models.
Humanity's Last Exam (Fable/Mythos No Tools) (Score (%)): Claude Mythos 5 leads with 59.0 across 5 models.
Humanity's Last Exam (Fable/Mythos Tools) (Score (%)): Claude Mythos Preview leads with 64.7 across 5 models.
CharXiv Reasoning (Fable/Mythos No Tools) (Score (%)): Claude Mythos 5 leads with 88.9 across 3 models.
CharXiv Reasoning (Fable/Mythos Tools) (Score (%)): Claude Mythos 5 leads with 93.5 across 3 models.
BioMysteryBench Human Solvable (Fable/Mythos) (Score (%)): Claude Mythos 5 leads with 83.9 across 4 models.
BioMysteryBench Human Difficult (Fable/Mythos) (Score (%)): Claude Mythos 5 leads with 46.1 across 4 models.
OSWorld-Verified (Fable/Mythos) (Score (%)): Claude Mythos Preview leads with 85.4 across 7 models.
CritPt (Fable/Mythos) (Score (%)): Claude Mythos 5 leads with 28.6 across 4 models.
ArxivMath (Fable/Mythos) (Score (%)): Claude Mythos 5 leads with 78.5 across 5 models.
RiemannBench (Fable/Mythos) (Score (%)): Claude Mythos 5 leads with 55.0 across 3 models.
GraphWalks BFS 256K (Fable/Mythos) (Score (%)): Claude Mythos 5 leads with 91.1 across 4 models.
GraphWalks Parents 256K (Fable/Mythos) (Score (%)): Claude Mythos 5 leads with 99.96 across 4 models.
FrontierCode Diamond (Fable/Mythos) (Score (%)): Claude Fable 5 leads with 29.3 across 3 models.
GDPval-AA (Fable/Mythos) (Elo): Claude Fable 5 leads with 1932.0 across 4 models.
GDP.pdf (Fable/Mythos) (Strict Pass Rate (%)): Claude Fable 5 leads with 29.8 across 4 models.
AutomationBench (Fable/Mythos) (Score (%)): Claude Fable 5 leads with 17.4 across 5 models.
Blueprint-Bench 2 (Fable/Mythos) (Score (%)): Claude Fable 5 leads with 38.6 across 5 models.
Legal Agent Benchmark Public Set (Fable/Mythos) (All-Pass Rate (%)): Claude Mythos 5 leads with 16.9 across 3 models.
HealthBench (Fable/Mythos) (Score (%)): Claude Mythos 5 leads with 62.7 across 4 models.
HealthBench Professional (Fable/Mythos) (Score (%)): Claude Mythos 5 leads with 66.0 across 4 models.
OpenAI GPT-5.5 Launch - GDPval (wins or ties) (Score (%)): GPT-5.5 leads with 84.9 across 6 models.
OpenAI GPT-5.5 Launch - FinanceAgent v1.1 (Score (%)): Claude Opus 4.7 leads with 64.4 across 5 models.
OpenAI GPT-5.5 Launch - Investment Banking Modeling Tasks (Score (%)): GPT-5.5 Pro leads with 88.6 across 4 models.
OpenAI GPT-5.5 Launch - BrowseComp (Score (%)): GPT-5.5 Pro leads with 90.1 across 6 models.
OpenAI GPT-5.5 Launch - GeneBench (Score (%)): GPT-5.5 Pro leads with 33.2 across 4 models.
OpenAI GPT-5.5 Launch - FrontierMath Tier 1-3 (Score (%)): GPT-5.5 Pro leads with 52.4 across 6 models.
OpenAI GPT-5.5 Launch - FrontierMath Tier 4 (Score (%)): GPT-5.5 Pro leads with 39.6 across 6 models.
OpenAI GPT-5.5 Launch - GPQA Diamond (Score (%)): GPT-5.4 Pro leads with 94.4 across 5 models.
OpenAI GPT-5.5 Launch - Humanity's Last Exam (no tools) (Score (%)): Claude Opus 4.7 leads with 46.9 across 6 models.
OpenAI GPT-5.5 Launch - Humanity's Last Exam (with tools) (Score (%)): GPT-5.4 Pro leads with 58.7 across 6 models.
OpenAI GPT-5.5 Launch - ARC-AGI-1 (Verified) (Score (%)): Gemini 3.1 Pro leads with 98.0 across 5 models.
OpenAI GPT-5.5 Launch - ARC-AGI-2 (Verified) (Score (%)): GPT-5.5 leads with 85.0 across 5 models.
OpenAI GPT-5.4 Launch - GDPval (Score (%)): GPT-5.4 leads with 83.0 across 5 models.
OpenAI GPT-5.4 Launch - FinanceAgent v1.1 (Score (%)): GPT-5.4 Pro leads with 61.5 across 4 models.
OpenAI GPT-5.4 Launch - Investment Banking Modeling Tasks (Score (%)): GPT-5.4 leads with 87.3 across 5 models.
OpenAI GPT-5.4 Launch - BrowseComp (Score (%)): GPT-5.4 Pro leads with 89.3 across 5 models.
OpenAI GPT-5.4 Launch - Frontier Science Research (Score (%)): GPT-5.4 Pro leads with 36.7 across 3 models.
OpenAI GPT-5.4 Launch - FrontierMath Tier 1-3 (Score (%)): GPT-5.4 Pro leads with 50.0 across 3 models.
OpenAI GPT-5.4 Launch - FrontierMath Tier 4 (Score (%)): GPT-5.4 Pro leads with 38.0 across 4 models.
OpenAI GPT-5.4 Launch - GPQA Diamond (Score (%)): GPT-5.4 Pro leads with 94.4 across 5 models.
OpenAI GPT-5.4 Launch - Humanity's Last Exam (no tools) (Score (%)): GPT-5.4 Pro leads with 42.7 across 4 models.
OpenAI GPT-5.4 Launch - Humanity's Last Exam (with tools) (Score (%)): GPT-5.4 Pro leads with 58.7 across 4 models.
OpenAI GPT-5.4 Launch - ARC-AGI-1 (Verified) (Score (%)): GPT-5.4 Pro leads with 94.5 across 4 models.
OpenAI GPT-5.4 Launch - ARC-AGI-2 (Verified) (Score (%)): GPT-5.4 Pro leads with 83.3 across 4 models.
OpenAI GPT-5.5 System Card - Tacit Knowledge and Troubleshooting (Score (%)): GPT-5.5 Pro leads with 81.67 across 2 models.
OpenAI GPT-5.5 System Card - Biochemistry Knowledge Improvement (reward@4 (%)): GPT-5.5 Pro leads with 39.26 across 3 models.
OpenAI GPT-5.5 System Card - Hard Negative Protein Binding Prediction (pass@4 (%)): GPT-5.4 (Thinking) leads with 3.46 across 3 models.
OpenAI GPT-5.5 System Card - DNA Sequence Design for TF Binding (pass@1 (%)): GPT-5.5 Pro leads with 16.5 across 3 models.
OpenAI GPT-Rosalind-5.5 System Card - ProtocolQA Open-Ended (pass@1 (%)): GPT-5.5 leads with 37.3 across 3 models.
OpenAI GPT-Rosalind-5.5 System Card - TroubleshootingBench (pass@1 (%)): GPT-Rosalind-5.5 leads with 53.31 across 3 models.
OpenAI GPT-Rosalind-5.5 System Card - Biorisk Knowledge (cons@32 (%)): GPT-5.5 Pro leads with 81.67 across 3 models.
OpenAI GPT-Rosalind-5.5 System Card - Multi-select Virology Troubleshooting (pass@1 (%)): GPT-5.5 Pro leads with 55.34 across 3 models.
OpenAI GPT-Rosalind-5.5 System Card - Hard Negative Protein Binding Prediction (pass@4 (%)): GPT-Rosalind-5.5 leads with 3.13 across 3 models.
OpenAI GPT-Rosalind-5.5 System Card - DNA Sequence Design for TF Binding (pass@1 (%)): GPT-5.5 Pro leads with 16.5 across 3 models.
Google Gemini 3 Deep Think - ARC-AGI-2 (Score (%)): Gemini 3 Deep Think leads with 84.6 across 4 models.
Google Gemini 3 Deep Think - Humanity's Last Exam (no tools) (Score (%)): Gemini 3 Deep Think leads with 48.4 across 4 models.
Google Gemini 3 Deep Think - Humanity's Last Exam (search and code) (Score (%)): Gemini 3 Deep Think leads with 53.4 across 4 models.
Google Gemini 3 Deep Think - MMMU-Pro (Score (%)): Gemini 3 Deep Think leads with 81.5 across 4 models.
Google Gemini 3 Deep Think - International Math Olympiad 2025 (Score (%)): Gemini 3 Deep Think leads with 81.5 across 3 models.
Google Gemini 3 Deep Think - Codeforces (Elo): Gemini 3 Deep Think leads with 3455.0 across 3 models.
Google Gemini 3 Deep Think - International Physics Olympiad 2025 (theory) (Score (%)): Gemini 3 Deep Think leads with 87.7 across 4 models.
Google Gemini 3 Deep Think - CMT-Benchmark (Pass@8 (%)): Gemini 3 Deep Think leads with 50.5 across 4 models.
Google Gemini 3 Deep Think - International Chemistry Olympiad 2025 (theory) (Score (%)): Gemini 3 Deep Think leads with 82.8 across 3 models.
Qwen3.7 Launch - Terminal Bench 2.0-Terminus (Score (%)): Qwen 3.7 Max leads with 69.7 across 6 models.
Qwen3.7 Launch - SWE-Verified (Resolved (%)): Claude Opus 4.6 (Thinking) leads with 80.8 across 5 models.
Qwen3.7 Launch - SWE-Pro (Resolved (%)): Qwen 3.7 Max leads with 60.6 across 6 models.
Qwen3.7 Launch - SWE-Multilingual (Resolved (%)): Qwen 3.7 Max leads with 78.3 across 5 models.
Qwen3.7 Launch - NL2repo (Score (%)): Claude Opus 4.6 (Thinking) leads with 47.6 across 6 models.
Qwen3.7 Launch - SciCode (Score (%)): Qwen 3.7 Max leads with 53.5 across 5 models.
Qwen3.7 Launch - QwenWebDev (Elo): Claude Opus 4.6 (Thinking) leads with 1617.0 across 5 models.
Qwen3.7 Launch - QwenSVG (Elo): Qwen 3.7 Max leads with 1608.0 across 6 models.
Qwen3.7 Launch - Qwenclaw (Score (%)): Claude Opus 4.6 (Thinking) leads with 65.5 across 6 models.
Qwen3.7 Launch - CoWorkBench (Score (%)): Claude Opus 4.6 (Thinking) leads with 68.2 across 6 models.
Qwen3.7 Launch - ClawEval (Score (%)): Claude Opus 4.6 (Thinking) leads with 70.4 across 6 models.
Qwen3.7 Launch - Skillsbench (Score (%)): Qwen 3.7 Max leads with 59.2 across 5 models.
Qwen3.7 Launch - BFCL-V4 (Score (%)): Claude Opus 4.6 (Thinking) leads with 76.7 across 6 models.
Qwen3.7 Launch - MCP-Mark (Score (%)): Qwen 3.7 Max leads with 60.8 across 6 models.
Qwen3.7 Launch - MCP-Atlas (Score (%)): Qwen 3.7 Max leads with 76.4 across 6 models.
Qwen3.7 Launch - Vitabench (Score (%)): DeepSeek V4 Pro (Reasoning, Max Effort) leads with 51.9 across 5 models.
Qwen3.7 Launch - SpreadSheetBench-v1 (Score (%)): Claude Opus 4.6 (Thinking) leads with 89.3 across 6 models.
Qwen3.7 Launch - Kernel Bench L3 - Median Speedup (Median speedup (x)): Claude Opus 4.6 (Thinking) leads with 2.63 across 6 models.
Qwen3.7 Launch - Kernel Bench L3 - Win Rate (Problems faster than torch.compile (%)): Claude Opus 4.6 (Thinking) leads with 98.0 across 6 models.
Qwen3.7 Launch - Humanity's Last Exam (with tools) (Score (%)): Kimi K2.6 (Thinking) leads with 54.0 across 6 models.
Qwen3.7 Launch - QwenWorldBench (Score (%)): Qwen 3.7 Max leads with 57.3 across 6 models.
Qwen3.7 Launch - GPQA Diamond (Score (%)): Qwen 3.7 Max leads with 92.4 across 6 models.
Qwen3.7 Launch - Humanity's Last Exam (Score (%)): Qwen 3.7 Max leads with 41.4 across 6 models.
Qwen3.7 Launch - LiveCodeBench (Score (%)): DeepSeek V4 Pro (Reasoning, Max Effort) leads with 93.5 across 5 models.
Qwen3.7 Launch - HMMT 2026 Feb (Score (%)): Qwen 3.7 Max leads with 97.1 across 6 models.
Qwen3.7 Launch - IMOAnswerBench (Score (%)): Qwen 3.7 Max leads with 90.0 across 6 models.
Qwen3.7 Launch - CritPT (Score (%)): DeepSeek V4 Pro (Reasoning, Max Effort) leads with 12.9 across 6 models.
Qwen3.7 Launch - Apex (Score (%)): Qwen 3.7 Max leads with 44.5 across 6 models.
Qwen3.7 Launch - MMLU-Pro (Score (%)): Claude Opus 4.6 (Thinking) leads with 89.7 across 6 models.
Qwen3.7 Launch - MMLU-Redux (Score (%)): Kimi K2.6 (Thinking) leads with 95.3 across 6 models.
Qwen3.7 Launch - SuperGPQA (Score (%)): Qwen 3.7 Max leads with 73.6 across 6 models.
Qwen3.7 Launch - IFEval (Score (%)): Kimi K2.6 (Thinking) leads with 94.5 across 6 models.
Qwen3.7 Launch - IFBench (Score (%)): Qwen 3.7 Max leads with 79.1 across 6 models.
Qwen3.7 Launch - MRCR-v2 128k (Accuracy (%)): Qwen 3.7 Max leads with 90.4 across 6 models.
Qwen3.7 Launch - WMT24++ (Score (%)): Qwen 3.7 Max leads with 85.8 across 6 models.
Qwen3.7 Launch - MAXIFE (Score (%)): Qwen 3.7 Max leads with 89.2 across 6 models.
Qwen3.7 Launch - MMMLU (Score (%)): Claude Opus 4.6 (Thinking) leads with 90.6 across 6 models.
Qwen3.7 Launch - MMLU-ProX (Score (%)): Qwen 3.7 Max leads with 87.0 across 6 models.
Qwen3.7 Launch - NOVA-63 (Score (%)): Claude Opus 4.6 (Thinking) leads with 59.1 across 6 models.
Qwen3.7 Launch - INCLUDE (Score (%)): Claude Opus 4.6 (Thinking) leads with 87.4 across 6 models.
Qwen3.7 Launch - Global PIQA (Score (%)): Qwen 3.7 Max leads with 91.4 across 6 models.
Qwen3.7 Launch - PolyMATH (Score (%)): Qwen 3.7 Max leads with 86.5 across 6 models.

    
                                Don't miss what's next. Subscribe to Mikhail Doroshenko:
                            
                        
            Email address (required)
            
            
                    ← Newer
                
                AI Benchmark Digest — 2026-06-16
            
        
                    Older →
                
                AI Benchmark Digest — 2026-06-14