Traces

Search and filter runs — charts and model comparison live on Overview.

40 loaded

All matching traces

Status	ID	Agent	Model	Reliability	Risk	Grounding	ms	When
RISKY	109c9ccc…	hotpot-eval-runner	claude-opus-4-6	0.34	0.74	0.26	2592	2026-03-30T19:05:47.570362+00:00
RISKY	38f2ab9f…	hotpot-eval-runner	claude-opus-4-6	0.46	0.58	0.42	2790	2026-03-30T19:05:44.677169+00:00
RISKY	7851c8b1…	hotpot-eval-runner	claude-opus-4-6	0.29	0.80	0.20	2364	2026-03-30T19:05:41.361807+00:00
RISKY	6022146e…	hotpot-eval-runner	claude-opus-4-6	0.36	0.71	0.29	2902	2026-03-30T19:05:38.413238+00:00
FAIL	663a18f1…	hotpot-eval-runner	claude-opus-4-6	0.44	0.59	0.41	6081	2026-03-30T19:05:34.905606+00:00
RISKY	c0163c5a…	hotpot-eval-runner	gpt-5.4	0.31	0.78	0.22	1519	2026-03-30T19:04:06.505288+00:00
RISKY	1544d3b1…	hotpot-eval-runner	gpt-5.4	0.26	0.85	0.15	814	2026-03-30T19:04:04.716621+00:00
GOOD	5f752ec8…	hotpot-eval-runner	gpt-5.4	0.76	0.00	1.00	1594	2026-03-30T19:04:03.359322+00:00
RISKY	2b01aec6…	hotpot-eval-runner	gpt-5.4	0.29	0.80	0.20	813	2026-03-30T19:04:01.482516+00:00
RISKY	2267d3ea…	hotpot-eval-runner	gpt-5.4	0.29	0.80	0.20	2013	2026-03-30T19:04:00.230767+00:00
RISKY	1cf8c66b…	hotpot-eval-runner	gpt-4o	0.30	0.79	0.21	1299	2026-03-30T19:01:16.154963+00:00
RISKY	30abe6d3…	hotpot-eval-runner	gpt-4o	0.26	0.85	0.15	2427	2026-03-30T19:01:14.501961+00:00
RISKY	428ba948…	hotpot-eval-runner	gpt-4o	0.28	0.81	0.19	1332	2026-03-30T19:01:11.642924+00:00
RISKY	a6d6fe6d…	hotpot-eval-runner	gpt-4o	0.29	0.80	0.20	1776	2026-03-30T19:01:09.626278+00:00
RISKY	956d8230…	hotpot-eval-runner	gpt-4o	0.29	0.80	0.20	1689	2026-03-30T19:01:07.377353+00:00
RISKY	11ace573…	hotpot-eval-runner	claude-sonnet-4-6	0.37	0.69	0.31	4008	2026-03-30T18:57:29.647524+00:00
RISKY	42ef0bf3…	hotpot-eval-runner	claude-sonnet-4-6	0.32	0.77	0.23	3496	2026-03-30T18:57:25.384604+00:00
FAIL	7ac36ccf…	hotpot-eval-runner	claude-sonnet-4-6	0.46	0.56	0.44	3369	2026-03-30T18:57:21.373863+00:00
FAIL	95bfeac3…	hotpot-eval-runner	claude-sonnet-4-6	0.44	0.58	0.42	3755	2026-03-30T18:57:17.567086+00:00
RISKY	efdb8228…	hotpot-eval-runner	claude-sonnet-4-6	0.28	0.81	0.19	2638	2026-03-30T18:57:13.363352+00:00
RISKY	39cb3341…	hotpot-eval-runner	claude-sonnet-4-6	0.39	0.68	0.32	2891	2026-03-30T18:57:10.192359+00:00
RISKY	3b25a988…	hotpot-eval-runner	claude-sonnet-4-6	0.41	0.65	0.35	2691	2026-03-30T18:57:06.816216+00:00
RISKY	37e7cd05…	hotpot-eval-runner	claude-sonnet-4-6	0.40	0.67	0.33	3858	2026-03-30T18:57:03.774867+00:00
RISKY	a0ea6e4a…	hotpot-eval-runner	claude-sonnet-4-6	0.36	0.73	0.27	2672	2026-03-30T18:56:59.573802+00:00
RISKY	9d9ca754…	hotpot-eval-runner	claude-sonnet-4-6	0.42	0.64	0.36	4302	2026-03-30T18:56:56.531302+00:00
RISKY	7ba03b52…	hotpot-eval-runner	claude-sonnet-4-6	0.39	0.68	0.32	2619	2026-03-30T18:56:20.719073+00:00
RISKY	05bbf328…	hotpot-eval-runner	claude-sonnet-4-6	0.41	0.65	0.35	2467	2026-03-30T18:56:17.824883+00:00
RISKY	7a9a2857…	hotpot-eval-runner	claude-sonnet-4-6	0.39	0.67	0.33	2630	2026-03-30T18:56:15.041824+00:00
RISKY	ba5f854c…	hotpot-eval-runner	claude-sonnet-4-6	0.36	0.73	0.27	2888	2026-03-30T18:56:11.794349+00:00
RISKY	6ef9ecc9…	hotpot-eval-runner	claude-sonnet-4-6	0.43	0.63	0.37	5379	2026-03-30T18:56:08.402067+00:00
GOOD	bd8d59b0…	squad-eval-runner	gpt-4o-mini	0.66	0.40	0.60	872	2026-03-26T04:47:23.401067+00:00
RISKY	097cfca9…	squad-eval-runner	gpt-4o-mini	0.29	0.83	0.17	1766	2026-03-26T04:47:22.190408+00:00
RISKY	908cc176…	squad-eval-runner	gpt-4o-mini	0.29	0.83	0.17	1373	2026-03-26T04:47:20.269925+00:00
RISKY	a739e196…	squad-eval-runner	gpt-4o-mini	0.29	0.83	0.17	881	2026-03-26T04:47:18.653557+00:00
GOOD	10ef6a96…	squad-eval-runner	gpt-4o-mini	0.81	0.23	0.77	1233	2026-03-26T04:47:17.439296+00:00
GOOD	d82b9243…	squad-eval-runner	gpt-4o-mini	0.70	0.35	0.65	684	2026-03-26T04:47:16.059313+00:00
RISKY	100f029f…	squad-eval-runner	gpt-4o-mini	0.50	0.59	0.41	1702	2026-03-26T04:47:15.015926+00:00
RISKY	3ff2841e…	squad-eval-runner	gpt-4o-mini	0.56	0.52	0.48	1574	2026-03-26T04:47:12.960999+00:00
GOOD	34e75c8c…	squad-eval-runner	gpt-4o-mini	0.71	0.34	0.66	1462	2026-03-26T04:47:10.975707+00:00
GOOD	59ce104f…	squad-eval-runner	gpt-4o-mini	0.62	0.45	0.55	1382	2026-03-26T04:47:09.141293+00:00