Scanner deep-dive

GPT-5.5 by OpenAI ↗

General-Purpose LLM · agentic-v1 · scored on 66/66 repositories. Strict scoring (unfinished repos counted as misses).

56.7

F3 (strict)

58.1

F2 (strict)

55.3%

Recall (strict)

72.6%

Precision

66/66

Repos scored

gpt-5.5

Model

$144

Total cost

180s

Avg latency

Per-repository breakdown

Each bar shows true positives, false positives, and misses on one repository; bar length is proportional to that repo's labeled vulnerabilities. Ranked by F2.

True positiveFalse positiveMissed (FN)

pythonssti100 F2 · 100%

vfapi91 F2 · 89%

intentionally-vulnerable-python-application88 F2 · 86%

vampi87 F2 · 84%

insecure-web77 F2 · 78%

vulnpy77 F2 · 76%

vulnerable-api76 F2 · 74%

dsvw75 F2 · 72%

python-app75 F2 · 71%

dsvpwa73 F2 · 73%

dvblab70 F2 · 68%

vc-codex-high-seeded-v2-marketplace-commerce-fastapi68 F2 · 68%

vc-codex-high-seeded-v2-legal-case-django68 F2 · 67%

vc-kimi-code-seeded-v2-legal-case-django68 F2 · 71%

vc-codex-seeded-v2-logistics-dispatch-fastapi66 F2 · 63%

vc-kimi-code-seeded-v2-property-management-fastapi65 F2 · 66%

vc-kimi-code-seeded-v2-support-desk-fastapi64 F2 · 65%

extremely-vulnerable-flask-app64 F2 · 58%

owasp-web-playground63 F2 · 59%

vc-codex-high-seeded-v2-logistics-dispatch-fastapi63 F2 · 62%

lets-be-bad-guys63 F2 · 58%

vc-codex-high-seeded-v2-support-desk-fastapi62 F2 · 60%

vulnerable-flask-app61 F2 · 57%

vc-codex-high-seeded-v2-hr-payroll-django60 F2 · 59%

damn-vulnerable-graphql-application60 F2 · 56%

dvpwa60 F2 · 58%

vc-claude-code-seeded-v2-fintech-lending-fastapi60 F2 · 59%

vc-claude-code-seeded-v2-legal-case-django59 F2 · 58%

vc-codex-seeded-v2-support-desk-fastapi59 F2 · 57%

vc-codex-high-seeded-v2-fintech-lending-fastapi59 F2 · 56%

vc-kimi-code-seeded-v2-marketplace-commerce-fastapi59 F2 · 58%

vc-kimi-code-seeded-v2-logistics-dispatch-fastapi58 F2 · 59%

vc-codex-high-seeded-v2-healthcare-clinic-django58 F2 · 55%

threatbyte58 F2 · 54%

vc-codex-high-seeded-v2-property-management-fastapi57 F2 · 55%

vc-codex-seeded-v2-hr-payroll-django57 F2 · 54%

vc-claude-code-seeded-v2-logistics-dispatch-fastapi57 F2 · 54%

vc-kimi-code-seeded-v2-crm-saas-django57 F2 · 59%

vc-claude-code-seeded-v2-support-desk-fastapi57 F2 · 53%

pygoat56 F2 · 52%

vc-codex-high-seeded-v2-education-lms-django56 F2 · 55%

vulnerable-python-apps56 F2 · 50%

vc-codex-seeded-v2-legal-case-django55 F2 · 52%

vc-codex-seeded-v2-marketplace-commerce-fastapi55 F2 · 52%

damn-vulnerable-flask-application54 F2 · 49%

vc-claude-code-seeded-v2-crm-saas-django53 F2 · 50%

vc-kimi-code-seeded-v2-healthcare-clinic-django53 F2 · 52%

vc-codex-seeded-v2-crm-saas-django52 F2 · 49%

vc-kimi-code-seeded-v2-fintech-lending-fastapi51 F2 · 47%

vc-kimi-code-seeded-v2-hr-payroll-django51 F2 · 53%

vc-codex-seeded-v2-property-management-fastapi51 F2 · 47%

vulnerable-tornado-app50 F2 · 48%

djangoat50 F2 · 47%

vc-kimi-code-seeded-v2-education-lms-django50 F2 · 50%

vc-claude-code-seeded-v2-property-management-fastapi49 F2 · 45%

vc-codex-seeded-v2-healthcare-clinic-django49 F2 · 46%

vc-claude-code-seeded-v2-marketplace-commerce-fastapi49 F2 · 45%

vc-codex-high-seeded-v2-crm-saas-django49 F2 · 45%

vc-codex-seeded-v2-fintech-lending-fastapi49 F2 · 45%

vc-claude-code-seeded-v2-education-lms-django48 F2 · 45%

vc-claude-code-seeded-v2-hr-payroll-django47 F2 · 43%

python-insecure-app45 F2 · 42%

vc-claude-code-seeded-v2-healthcare-clinic-django45 F2 · 41%

vc-codex-seeded-v2-education-lms-django42 F2 · 39%

vulpy40 F2 · 35%

flask-xss37 F2 · 32%

Repository	TP	FP	FN	Recall %	F2
pythonssti	2	0	0	100.0	100.0
vfapi	8	0	1	88.9	90.9
intentionally-vulnerable-python-application	6	0	1	85.7	88.2
vampi	13	0	2	84.5	86.7
insecure-web	7	2	2	77.8	77.2
vulnpy	61	13	19	75.8	77.0
vulnerable-api	10	2	4	73.8	75.6
dsvw	19	1	8	71.6	75.1
python-app	15	1	6	71.4	75.0
dsvpwa	24	8	8	73.4	73.4
dvblab	15	4	7	68.2	70.3
vc-codex-high-seeded-v2-marketplace-commerce-fastapi	17	7	8	68.0	68.4
vc-codex-high-seeded-v2-legal-case-django	17	5	8	66.7	68.2
vc-kimi-code-seeded-v2-legal-case-django	18	12	8	70.5	68.2
vc-codex-seeded-v2-logistics-dispatch-fastapi	19	5	11	63.3	65.8
vc-kimi-code-seeded-v2-property-management-fastapi	20	13	10	65.5	64.6
vc-kimi-code-seeded-v2-support-desk-fastapi	18	13	10	65.5	63.9
extremely-vulnerable-flask-app	19	0	13	58.3	63.5
owasp-web-playground	16	2	12	58.9	63.0
vc-codex-high-seeded-v2-logistics-dispatch-fastapi	18	9	11	62.1	62.8
lets-be-bad-guys	14	2	10	58.3	62.7
vc-codex-high-seeded-v2-support-desk-fastapi	17	6	11	59.5	61.7
vulnerable-flask-app	12	2	9	57.1	61.4
vc-codex-high-seeded-v2-hr-payroll-django	15	7	10	58.7	60.4
damn-vulnerable-graphql-application	20	4	16	56.5	60.2
dvpwa	13	5	10	58.0	60.2
vc-claude-code-seeded-v2-fintech-lending-fastapi	17	9	12	58.6	60.0
vc-claude-code-seeded-v2-legal-case-django	18	10	13	58.1	59.1
vc-codex-seeded-v2-support-desk-fastapi	17	7	13	56.7	59.1
vc-codex-high-seeded-v2-fintech-lending-fastapi	16	6	13	56.3	58.9
vc-kimi-code-seeded-v2-marketplace-commerce-fastapi	16	9	11	58.0	58.9
vc-kimi-code-seeded-v2-logistics-dispatch-fastapi	18	15	13	59.1	58.1
vc-codex-high-seeded-v2-healthcare-clinic-django	14	6	12	55.1	57.8
threatbyte	14	4	12	53.8	57.5
vc-codex-high-seeded-v2-property-management-fastapi	14	6	12	55.1	57.4
vc-codex-seeded-v2-hr-payroll-django	21	6	18	53.8	57.2
vc-claude-code-seeded-v2-logistics-dispatch-fastapi	18	6	15	53.5	56.9
vc-kimi-code-seeded-v2-crm-saas-django	16	17	11	59.3	56.7
vc-claude-code-seeded-v2-support-desk-fastapi	18	5	16	52.9	56.6
pygoat	40	7	38	51.7	56.1
vc-codex-high-seeded-v2-education-lms-django	14	9	11	54.7	55.7
vulnerable-python-apps	11	0	11	50.0	55.5
vc-codex-seeded-v2-legal-case-django	17	5	16	51.5	55.1
vc-codex-seeded-v2-marketplace-commerce-fastapi	15	6	14	51.7	54.7
damn-vulnerable-flask-application	7	1	8	48.9	53.6
vc-claude-code-seeded-v2-crm-saas-django	14	5	14	50.0	53.3
vc-kimi-code-seeded-v2-healthcare-clinic-django	16	11	14	52.2	53.3
vc-codex-seeded-v2-crm-saas-django	17	9	17	49.0	51.5
vc-kimi-code-seeded-v2-fintech-lending-fastapi	16	6	17	47.5	50.8
vc-kimi-code-seeded-v2-hr-payroll-django	15	19	14	52.9	50.8
vc-codex-seeded-v2-property-management-fastapi	15	6	16	47.3	50.6
vulnerable-tornado-app	7	3	7	47.6	50.5
djangoat	24	11	28	46.8	49.9
vc-kimi-code-seeded-v2-education-lms-django	14	15	14	50.0	49.6
vc-claude-code-seeded-v2-property-management-fastapi	15	5	18	45.5	49.4
vc-codex-seeded-v2-healthcare-clinic-django	19	7	22	45.5	49.2
vc-claude-code-seeded-v2-marketplace-commerce-fastapi	14	4	18	44.8	48.9
vc-codex-high-seeded-v2-crm-saas-django	11	5	14	45.3	48.6
vc-codex-seeded-v2-fintech-lending-fastapi	17	6	20	45.0	48.6
vc-claude-code-seeded-v2-education-lms-django	14	6	18	44.8	48.2
vc-claude-code-seeded-v2-hr-payroll-django	12	4	15	43.2	47.0
python-insecure-app	3	1	5	41.7	45.3
vc-claude-code-seeded-v2-healthcare-clinic-django	12	6	17	41.4	44.7
vc-codex-seeded-v2-education-lms-django	14	7	21	39.1	42.4
vulpy	20	4	37	35.1	39.5
flask-xss	10	0	20	32.2	37.3

Detection by severity

Severity	TP	FP	FN	Recall %
Critical	147	0	8	94.8
High	455	0	297	60.5
Medium	412	1	498	45.3
Low	41	0	45	47.7

Detection by vulnerability class

CWE family	TP	FP	FN	Recall %
Open Redirect	40	0	0	100.0
HTTP Header Injection	2	0	0	100.0
XPath Injection	4	0	0	100.0
XML External Entities	37	0	1	97.4
Command / OS Injection	48	0	2	96.0
Insecure Deserialization	38	0	2	95.0
Code Injection / RFI	32	0	2	94.1
SQL Injection	70	0	8	89.7
Path Traversal	39	0	5	88.6
Denial of Service	36	0	8	81.8
Hardcoded Credentials	51	0	17	75.0
Server-Side Request Forgery	30	1	11	73.2
Cross-Site Scripting	77	0	33	70.0
Security Misconfiguration	68	0	44	60.7
Sensitive Data Exposure	87	0	68	56.1
Missing Authentication / Authorization	38	0	45	45.8
Broken Access Control / IDOR	37	0	46	44.6
Other	321	0	556	36.6

LLM operational metrics

69,267

Avg input tokens

9,637

Avg output tokens

476,703

Avg total tokens

180s

Avg latency / repo

0.0%

JSON repair rate

198

Total runs

±12.1

F2 run-to-run σ

Cost

$144

Total cost

$0.74

Cost / run

$0.036

Cost / 100 LOC

133,782

Python LOC scanned

196

Successful runs

← Back to the leaderboard