Archive • Mikhail Doroshenko • Buttondown

AI Benchmark Digest — 2026-07-14

July 14, 2026

AI Benchmark Digest — 2026-07-14 View on AI Benchmark Hub Daily New Scores From Top-10 Models (3) Claude Fable 5 on Chatbot Arena (Search): 1234.0 Arena...

AI Benchmark Digest — 2026-07-13

July 13, 2026

AI Benchmark Digest — 2026-07-13 View on AI Benchmark Hub Daily New Benchmarks (4) LLM Stats (Artificial Analysis) (Score (%)): GPT-5.6 Sol leads with 59.0...

AI Benchmark Digest — 2026-07-12

July 12, 2026

AI Benchmark Digest — 2026-07-12 View on AI Benchmark Hub Daily New Benchmarks (1) OpenCompass Language - Chat (Score (%)): Doubao-Seed-2-0-Pro-260215 (high)...

AI Benchmark Digest — 2026-07-11

July 11, 2026

AI Benchmark Digest — 2026-07-11 View on AI Benchmark Hub Daily New Scores From Top-10 Models (16) GPT-5.6 Sol on AutomationBench: 18.1 Pass Rate (%) (#1/10)...

AI Benchmark Digest — 2026-07-10

July 10, 2026

AI Benchmark Digest — 2026-07-10 View on AI Benchmark Hub Daily New Models (1) Muse Spark 1.1 — ELO 3315, #5/1465, above Claude Mythos Preview, below Gemini...

AI Benchmark Digest — 2026-07-09

July 9, 2026

AI Benchmark Digest — 2026-07-09 View on AI Benchmark Hub Daily New Models (1) Grok 4.5 — ELO 2494, #13/1467, above Claude Opus 4.6, below Claude Sonnet 5...

AI Benchmark Digest — 2026-07-08

July 8, 2026

AI Benchmark Digest — 2026-07-08 View on AI Benchmark Hub Daily New #1 Leaders (5) PIIMB PII Masking - OpenPII F2 (OpenPII F2 (%)): OpenMed privacy-filter-...

AI Benchmark Digest — 2026-07-07

July 7, 2026

AI Benchmark Digest — 2026-07-07 View on AI Benchmark Hub Daily New Benchmarks (1) SkillsBench (With-skills score (%)): GPT-5.5 leads with 67.3 across 21...

AI Benchmark Digest — 2026-07-05

July 5, 2026

AI Benchmark Digest — 2026-07-05 View on AI Benchmark Hub Daily New #1 Leaders (3) Surface Evolver Bench Pass Rate (Pass Rate (%)): Claude Fable 5 (High)...

AI Benchmark Digest — 2026-07-04

July 4, 2026

AI Benchmark Digest — 2026-07-04 View on AI Benchmark Hub Daily New Benchmarks (292) HarmVideoBench (Macro Avg. (self-reported)): HarmVideoBench (ours) leads...

AI Benchmark Digest — 2026-07-01

July 1, 2026

AI Benchmark Digest — 2026-07-01 View on AI Benchmark Hub Daily New Benchmarks (25) LLM2014 Logic 2026-07 (Median Score): GPT-5.5 (xhigh) leads with 80.47...

AI Benchmark Digest — 2026-06-29

June 29, 2026

AI Benchmark Digest — 2026-06-29 View on AI Benchmark Hub No significant changes.

AI Benchmark Digest — 2026-06-27

June 27, 2026

AI Benchmark Digest — 2026-06-27 View on AI Benchmark Hub Daily New Benchmarks (13) MirrorCode (Solve@100 Rate (%)): Claude Opus 4.7 leads with 56.0 across 3...

AI Benchmark Digest — 2026-06-26

June 26, 2026

AI Benchmark Digest — 2026-06-26 View on AI Benchmark Hub Daily New Benchmarks (8) SEAL - SWE Atlas - Refactoring (Score): Fable-5 (Claude Code) xHigh leads...

AI Benchmark Digest — 2026-06-25

June 25, 2026

AI Benchmark Digest — 2026-06-25 View on AI Benchmark Hub Daily New Benchmarks (87) ParallelKernelBench (Fast1@3 (% of problems)): GPT-5.5 leads with 31.03...

AI Benchmark Digest — 2026-06-24

June 24, 2026

AI Benchmark Digest — 2026-06-24 View on AI Benchmark Hub Daily New Benchmarks (7) You're Absolutely Right! (Average anti-sycophancy score (1-5)): Claude...

AI Benchmark Digest — 2026-06-23

June 23, 2026

AI Benchmark Digest — 2026-06-23 View on AI Benchmark Hub Daily New Benchmarks (23) FutureSearch BTF-3 (Pooled Brier/RPS Score): FutureSearch SOTA leads with...

AI Benchmark Digest — 2026-06-21

June 21, 2026

AI Benchmark Digest — 2026-06-21 View on AI Benchmark Hub Daily New Benchmarks (19) Physical AI Bench - Understanding Overall (Overall Score (%)): Cosmos-...

AI Benchmark Digest — 2026-06-20

June 20, 2026

AI Benchmark Digest — 2026-06-20 View on AI Benchmark Hub Daily New Benchmarks (18) SQL Capability Leaderboard (Average Ability Score): SQLShift leads with...

AI Benchmark Digest — 2026-06-19

June 19, 2026

AI Benchmark Digest — 2026-06-19 View on AI Benchmark Hub Daily New Benchmarks (7) Benchmarks.bio - TxBench-PP (Pass Rate (%)): Claude Opus 4.8 leads with...