HardSubBench

Leaderboard

Performance Chart

Overall accuracy across 46 models

Filter by Model Family

Model Rankings

Detailed breakdown by category

Rank	Model	Provider	Family	Overall	Line Breaks	Content
1	Qwen 3 VL 8B Instruct4 variants	lmstudio	qwen	100%	100%	100%
2	google/gemini-3-pro-preview	openrouter	gemini	100%	100%	100%
3	anthropic/claude-opus-4.5	openrouter	claude	100%	100%	100%
4	qwen/qwen-vl-max	openrouter	qwen	98.46%	100%	98.46%
5	anthropic/claude-sonnet-4.5	openrouter	claude	98.46%	98.5%	100%
6	openai/gpt-5-mini	openrouter	gpt	98.46%	98.5%	100%
7	openai/gpt-5.1-codex-mini	openrouter	gpt	96.92%	100%	96.92%
8	perplexity/sonar	openrouter	other	96.92%	100%	96.92%
9	openai/gpt-5.1	openrouter	gpt	95.38%	96.9%	98.46%
10	deepcogito/cogito-v2-preview-llama-109b-moe	openrouter	llama	95.38%	100%	95.38%
11	qwen3-vl-32b-instruct	lmstudio	qwen	95.38%	100%	95.38%
12	qwen/qwen3-vl-235b-a22b-instruct	openrouter	qwen	93.94%	100%	93.94%
13	openai/gpt-5.2	openrouter	gpt	93.85%	100%	93.85%
14	anthropic/claude-haiku-4.5	openrouter	claude	93.85%	100%	93.85%
15	qwen3-vl-4b-instruct	lmstudio	qwen	93.85%	100%	93.85%
16	google/gemini-2.5-flash	openrouter	gemini	92.42%	100%	92.42%
17	z-ai/glm-4.5v	openrouter	other	92.31%	98.5%	93.85%
18	z-ai/glm-4.6v	openrouter	other	92.31%	100%	92.31%
19	openai/gpt-5.2-chat	openrouter	gpt	92.31%	100%	92.31%
20	google/gemini-2.0-flash-001	openrouter	gemini	90.77%	100%	90.77%
21	meta-llama/llama-4-maverick	openrouter	llama	90.77%	100%	90.77%
22	qwen/qwen3-vl-8b-thinking	openrouter	qwen	90.77%	100%	90.77%
23	mistralai/ministral-14b-2512	openrouter	mistral	89.23%	100%	89.23%
24	openai/gpt-5.1-codex-max	openrouter	gpt	89.23%	98.5%	90.77%
25	google/gemini-2.5-flash-lite	openrouter	gemini	87.69%	100%	87.69%
26	Qwen 3 VL 30B Instruct2 variants	openrouter	qwen	87.69%	100%	87.69%
27	qwen/qwen2.5-vl-32b-instruct	openrouter	qwen	87.69%	100%	87.69%
28	qwen3-vl-2b-instruct	lmstudio	qwen	84.62%	98.5%	86.16%
29	google/gemma-3-27b-it	openrouter	gemma	84.62%	100%	84.62%
30	mistralai/pixtral-large-2411	openrouter	mistral	83.08%	92.3%	90.77%
31	openai/gpt-5-nano	openrouter	gpt	83.08%	100%	83.08%
32	Ministral 3B2 variants	openrouter	mistral	81.54%	100%	81.54%
33	mistralai/mistral-large-2512	openrouter	mistral	81.54%	100%	81.54%
34	qwen/qwen3-vl-30b	unknown	qwen	80.3%	100%	80.3%
35	allenai/olmocr-2-7b	unknown	other	78.46%	93.8%	84.61%
36	nvidia/nemotron-nano-12b-v2-vl:free	openrouter	other	78.46%	100%	78.46%
37	camel-doc-ocr-080125	lmstudio	other	76.92%	87.7%	89.23%
38	gliese-ocr-7b-post2.0-final	lmstudio	other	73.85%	87.7%	86.16%
39	chandra-ocr	unknown	other	73.85%	81.5%	92.31%
40	qwen3-visioncaption-2b	lmstudio	qwen	72.31%	87.7%	84.62%
41	baidu/ernie-4.5-vl-28b-a3b	openrouter	other	69.23%	70.8%	98.46%
42	nanonets-ocr2-3b-aio	lmstudio	other	69.23%	80%	89.23%
43	google/gemma-3-4b-it	openrouter	gemma	66.15%	100%	66.15%
44	x-ai/grok-4.1-fast	openrouter	other	46.15%	98.5%	47.69%
45	tencent/HunyuanOCR	hunyuan-local	other	33.85%	61.5%	72.31%
46	ln	local	other	33.85%	61.5%	72.31%

The Hardcoded Subtitle Benchmark tests LLMs on their ability to extract text exactly as presented, including formatting, line breaks, and special characters. Learn more about why this benchmark matters

Samples

View example outputs for each category

Select Model:

Formatting

Line Breaks

Model Output:

Wie wäre es dann, wenn ich dir eine Woche
das Essen für die Pause mitbringe?

Model Output:

Ich sehe deine Welt durch Glas...

Model Output:

Licht blitzt auf. Ein Signal anzufangen?

Leaderboard

Filter by Model Family

Samples

Formatting

Line Breaks

Special Characters