// 05 · Агентный фреймворк

Насколько быстр исполнитель конвейера?

Накладные расходы на вызов инструментов, задержка RAG-поиска, стоимость обёртки вызова модели, распределение задержки HITL, шаг за шагом в оркестровке конвейера. Воспроизводится с чистого клона через pytest benches/, та же конвенция, что и в бенчмарке движка.

Движок против фреймворка

Эта страница измеряет Python-фреймворк агентов, раннер, который оркестрирует шаги конвейера, диспетчеризует вызовы инструментов с ограниченной областью доступа, управляет RAG-поиском, блокирует запись через подтверждение человеком и оборачивает вызовы модели. Для внутреннего Rust-движка (запись в кэш состояния за 310 нс, полный конвейер за 14 мкс) см. задержки движка.

Что даёт тебе раннер

// управление, а не только скорость

Задержки ниже доказывают, что раннер лёгкий. Это гарантии, которые делают его безопасным для агентов, работающих с реальными клиентами. Десять из них измерены на этой странице; остальные встроены в архитектуру платформы.

Инструменты с ограниченной областью действияКоманда агентов видит только те инструменты, которые ты ей разрешил. Неразрешённые инструменты никогда не попадают в схему модели, поэтому разрешения и есть примитив диспетчеризации, а не запоздалая мысль.

0.6 µs

Запись с подтверждением человекаКаждая запись проходит шлюз контроля (реактивный наблюдатель состояния, ограничение на запись за цикл, квота на тенанта, ограничение стоимости), а затем ждёт подтверждения оператора. Чтение свободно, запись под контролем.

0.3 µs

RAG на уровне рабочего процессаКаждый рабочий процесс получает собственное изолированное векторное хранилище с гибридным поиском, поэтому документы одного клиента никогда не попадают в контекст другого.

0.28 ms

Подключи свою модель20+ провайдеров за одной обёрткой (Anthropic, OpenAI, Gemini, Mistral, DeepSeek, Qwen, а также локальные Ollama и LM Studio), единый интерфейс для всех.

1.6 µs

Учёт стоимости и токеновКаждый вызов модели оценивается по таблице стоимости для каждой модели и суммируется в накопленный итог в USD, чтобы ты мог выставлять счета клиентам и ограничивать расходы на тенанта.

0.4 µs

Полная наблюдаемостьСпан OpenTelemetry для каждого вызова инструмента, вызова модели и запуска конвейера, содержащий стоимость, токены, задержку и причины ошибок. Управляй агентами, которых ты реально видишь.

0.3 µs

Статическая сборка контекстаСистемный промпт, разрешённые документы знаний и схемы инструментов упаковываются в блок контекста при каждом обращении к модели, отдельно от скользящей истории.

1.4 µs

Межзапусковая память команды агентовРабочая память команды агентов сохраняется между запусками и восстанавливается при следующем, поэтому долгоживущие агенты сохраняют контекст между сессиями.

53 µs

Команды агентовМногоперсонажные команды агентов (макро, технический, риск, исполнение) передают контекст от персоны к персоне, с вето по риску и реактивными сайдкарами, которые могут прервать цепочку на полпути.

1.2 µs

Защита от инъекции в промптВсё, что агент читает из ненадёжного источника (извлечённые документы, результаты инструментов, загруженные веб-страницы), проверяется на наличие инъекций в промпт, джейлбрейк и паттерны утечки данных до того, как модель может на это среагировать. Каждый паттерн имеет оценку серьёзности, и итоговый балл определяет исход: безопасный текст проходит насквозь; слегка подозрительный текст всё равно передаётся, но изолируется как данные, которым модель не должна следовать, и событие логируется; явно вредоносный сигнал, например попытка утечки секрета или захват формата диалога, отбрасывается до того, как модель его увидит. Строгость порогового значения настраивается для каждого развёртывания.

17 µs

Изоляция учётных данныхЗашифрованные хранилища для каждого пользователя. Агенты действуют через краткосрочные тикеты и никогда не касаются сырых API-ключей, поэтому секреты клиента остаются в его области доступа.

AES-256

Мультитенантность по архитектуреРоли с ограниченной областью доступа на уровне проекта и изоляция состояния для каждого конвейера. Команда агентов одного тенанта не может читать, останавливать или тратить ресурсы другого. Запускай множество клиентов на одной платформе.

RBAC

Вступить в сообщество

метрика	статус	p50	измерено	примечание и воспроизведение
`tool_dispatch (0-arg)` per call	измерено	0.60 µs p95 0.60 · p99 1.10 µs · n=10000	2026-06-20	Runner-side cost of dispatching a zero-arg scoped tool: name lookup, ToolResponse wrap. Excludes the tool's own work + any network. Воспроизвести: `pytest benches/bench_tool_dispatch.py::test_tool_dispatch_0arg -s`
`tool_dispatch (5-arg)` per call	измерено	0.70 µs p95 0.70 · p99 0.90 µs · n=10000	2026-06-20	Same path, 5-element input dict, median operator-registered shape. Воспроизвести: `pytest benches/bench_tool_dispatch.py::test_tool_dispatch_5arg -s`
`tool_dispatch (20-arg)` per call	измерено	1.00 µs p95 1.10 · p99 1.30 µs · n=10000	2026-06-20	Wide-arg dispatch, long-tail tools like melaya_create_order with all optional risk params filled in. Воспроизвести: `pytest benches/bench_tool_dispatch.py::test_tool_dispatch_20arg -s`
`pipeline_step_transition (linear)` per step, 10-step chain	измерено	0.22 µs p95 0.23 · p99 0.24 µs · n=2000	2026-06-20	Time from one pipeline step completing to the next being invoked, in a linear chain. Pure runner overhead (graph walk + variable binding + await). Воспроизвести: `pytest benches/bench_pipeline_orchestration.py::test_pipeline_linear -s`
`pipeline_step_transition (parallel)` per step, 10-step fanout	измерено	3.32 µs p95 3.64 · p99 5.88 µs · n=2000	2026-06-20	Same transition cost in a parallel fanout via asyncio.gather. Higher than linear here: at N=10 the gather’s scheduling setup dominates, and it only drops below linear once steps block on real I/O. Воспроизвести: `pytest benches/bench_pipeline_orchestration.py::test_pipeline_parallel -s`
`registry_boot` per cold boot · register-only	измерено	4.36 ms p95 5218.80 · p99 6368.90 µs · n=30	2026-06-20	The runtime walks its tool + crew modules at boot. The bench measures the introspect+register step on 250 synthetic tools (production adds Python import-time on top, this number is register-only). Воспроизвести: `pytest benches/bench_registry_boot.py -s`
`rag_retrieve (10k chunks)` per query, top-5	измерено	281.10 µs p95 447.10 · p99 782.10 µs · n=2000	2026-06-20	embed(query) + brute-force kNN + chunk hydration over a 10k-chunk in-memory index. A production ANN index is 1.5-3× faster. Воспроизвести: `pytest benches/bench_rag_retrieval.py::test_rag_retrieval_10k -s`
`rag_retrieve (100k chunks)` per query, top-5	измерено	5.52 ms p95 8450.40 · p99 9662.40 µs · n=2000	2026-06-20	Same path, 10× larger corpus. Brute force is O(N·D) so expect ~10-15× growth in p50 vs the 10k bench. Воспроизвести: `pytest benches/bench_rag_retrieval.py::test_rag_retrieval_100k -s`
`model_wrapper_overhead` per LLM turn (network mocked)	измерено	1.60 µs p95 2.00 · p99 2.80 µs · n=1000	2026-06-20	Runner overhead around a model API call: prompt assembly, message-history pack, post-response routing. Provider HTTP boundary mocked to isolate runner cost from network. Воспроизвести: `pytest benches/bench_model_wrapper_overhead.py -s`
`context_assembly` per turn	измерено	1.40 µs p95 1.60 · p99 1.80 µs · n=5000	2026-06-20	Builds the static context block a turn sends the model: system prompt + granted knowledge docs + tool schemas. Distinct from rolling history (model_wrapper) and RAG retrieval. Воспроизвести: `pytest benches/bench_context_assembly.py -s`
`session_memory` per save + load	измерено	53.00 µs p95 76.30 · p99 113.30 µs · n=5000	2026-06-20	Cross-run working-memory persistence: serialize a 50-turn crew memory to the session store and restore it on the next run. In-process store, so no DB latency is included. Воспроизвести: `pytest benches/bench_session_memory.py::test_session_memory_roundtrip -s`
`cost_tracking` per model call	измерено	0.40 µs p95 0.40 · p99 0.60 µs · n=10000	2026-06-20	Records one model call's token usage against a price table and updates the running USD total plus per-model breakdown. This is what enables per-tenant billing and spend caps. Воспроизвести: `pytest benches/bench_cost_tracking.py -s`
`tracing_overhead` per span	измерено	0.30 µs p95 1.10 · p99 1.40 µs · n=10000	2026-06-20	Per-span observability tax: open an OpenTelemetry-style span, stamp the gen_ai / cost / latency attributes, close, and hand to the exporter. What enabling tracing adds per traced operation. Воспроизвести: `pytest benches/bench_tracing_overhead.py -s`
`crew_orchestration` per 4-persona run	измерено	1.20 µs p95 2.00 · p99 2.10 µs · n=2000	2026-06-20	A 4-persona crew (macro, technical, risk, execution) hands context persona to persona, with the risk persona armed to veto and halt the chain mid-run. Pure orchestration overhead. Воспроизвести: `pytest benches/bench_crew_orchestration.py -s`
`prompt_injection_scan` per untrusted input	измерено	17.40 µs p95 26.40 · p99 30.50 µs · n=10000	2026-06-20	The prompt-injection scan run on untrusted content (RAG-retrieved docs, tool outputs) before it reaches the model: weighted pattern match against injection / jailbreak / exfiltration markers, then allow / flag / block. Wired into rag.py and the tool-output postprocess. Воспроизвести: `pytest benches/bench_prompt_injection.py -s`
`hitl_gate_overhead` per write attempt	измерено	0.30 µs p95 0.40 · p99 0.40 µs · n=10000	2026-06-20	The synchronous safety checks run before every write is queued for approval: sidecar-state read (a reactive watcher that can halt a run), per-cycle write cap, per-tenant daily quota, running cost cap. The trading-grade-discipline machinery, measured, distinct from the human wait below. Воспроизвести: `pytest benches/bench_hitl_gate_overhead.py -s`
`hitl_approval_round_trip` human-bound	только методология	method documented	n/a	Time from 'approval requested' to 'approval received', median over real operator sessions. Dominated by human attention; cannot be benched synthetically. Methodology documented; awaiting a 30-day production telemetry cut. Воспроизвести: `see results/hitl_round_trip/methodology_only.json`
`concurrent_agent_executions` platform limit	конфигурация	50	-	Configurable per-workspace cap on simultaneous agent runs (default 50); backpressure queues the rest. A deployment config knob, not a measurement. Воспроизвести: `configured in deployment, not benched`

тариф	железо	конфигурация	tool_dispatch p50	pipeline_step p50	registry_boot	rag_retrieval_10k p50
A. Production	Xeon Plat 8369B (Ice Lake-SP)	Ubuntu 22.04, pinned core, perf gov, py3.12	awaiting	awaiting	awaiting	awaiting
B. Modern Linux server	Xeon Gold 6438 / EPYC 9354	Ubuntu 22/24, perf gov, py3.12	3-8 µs	10-25 µs	1-3 s	0.5-2 ms
C. Apple Silicon	M2 / M3 / M4 MacBook	macOS 14+, arm64, py3.12	2-6 µs	8-20 µs	0.8-2 s	0.4-1.5 ms
D. Modern desktop *	i9-13900H (Raptor Lake-H)	Win11, py3.12.4, unpinned	0.6-1.0 µs	0.22 µs	4.4 ms	0.28 ms

сценарий	изолированный драйвер памяти	пиковый RSS	статус
`Idle floor` s0_idle	runner floor + drift / orphan gate	40 MB 637 commit	измерено
`LLM-agnostic baseline` s1_baseline	orchestration heap, real dispatch path	40 MB 637 commit	измерено
`RAG (Qdrant) 10k` s2_rag_qdrant	Qdrant index in-runner; embedder remote	1254 MB 1925 commit	измерено
`RAG 100k + doc ingest` s2b_rag_100k	doc-extraction transient peak	2056 MB 2926 commit	измерено
`web_search fast path` s3a_websearch_fast	curl_cffi TLS, no browser (~0)	52 MB 647 commit	измерено
`web_search stealth rescue` s3b_websearch_browser	Chromium tree (bimodal)	610 MB 1064 commit	измерено
`aiml HF tool` s_aiml	in-process torch (the one local model load)	740 MB 2158 commit	измерено
`WSS ingress watcher` s11_wss	in-runner ring buffers	45 MB 642 commit	измерено
`python_repl code-exec` s12_coderepl	child interpreter + sci-stack (peak)	173 MB 2016 commit	измерено
`remotion render` s13_render	Node + 2nd render-Chromium (peak)	910 MB 2032 commit	измерено
`MCP stdio servers` s15_mcp	per-server child process	92 MB 680 commit	измерено
`long-context compaction` s16_compaction	saw-tooth history; reclaim proof	42 MB 640 commit	измерено
`streaming assembly` s17_streaming	SSE / token accumulation	41 MB 638 commit	измерено
`huge tool output` s18_tooloutput	multi-MB transient (peak)	40 MB 642 commit	измерено
`concurrency validation` s_conc	gates the capacity fit	140 MB 2534 commit	измерено

Melaya — Build AI agents for any job. Self-directed agentic platform for research, ops, reporting, and trading you run yourself, with your own exchange account and your approval on every order.

Насколько быстр исполнитель конвейера?

Что даёт тебе раннер

Что охватывает набор бенчмарков фреймворка

Воспроизведи всё это одной командой

Ожидаемые показатели по тарифам железа

Потребление памяти и ёмкость