Abstract
Riportiamo uno studio longitudinale strumentato di 6 mesi sulle dinamiche signal-to-noise in agent di produzione long-lived all'interno del workspace Madani, che copre 1,2 milioni di turni agent e circa 340 milioni di token attraverso 8 dipartimenti di produzione. Gli agent long-lived — quelli che persistono attraverso le sessioni, accumulano esperienza nell'arco di settimane e mesi, e operano contro una knowledge base in lenta evoluzione — sono sempre più il pattern dominante di deployment nei workload agentic enterprise, eppure la maggior parte della ricerca pubblicata viene condotta su task a orizzonte breve: un singolo benchmark, una singola sessione, una singola finestra di contesto. La questione empirica di cosa accade alla qualità effettiva del contesto di un agent nell'arco di migliaia di turni è stata in larga misura sotto-studiata. Questo paper colma il divario con la prima misurazione longitudinale pubblicata di decadimento dell'SNR a scala di produzione, deriva un modello di decadimento esponenziale parametrizzato sul conteggio dei turni e sulla dimensione del memory store, e identifica tre interventi architetturali il cui effetto combinato estende l'emivita dell'SNR di 2,8× rispetto al baseline. Riportiamo SETTE risultati controintuitivi
- (d)IL DECADIMENTO DELL'SNR È APPROSSIMATIVAMENTE LOG-LINEARE NELLA DIMENSIONE DEL MEMORY STORE SOTTO I 50K RECORD, SATURA SOPRA — la soglia dei 50K record segna un cambio di regime che richiede partizionamento della memoria a chunk-by-topic oltre alla compaction
- (f)Gli agent di produzione peggiorano dopo un mese ma gli ingegneri danno la colpa al modelloattraverso 5 audit enterprise condotti nel 2025-2026 in cui i team riportavano "il modello è peggiorato", l'analisi della causa radice ha identificato il collasso dell'SNR piuttosto che una regressione del modello in 5/5 casi
INTRODUZIONE · §1
Il pattern di deployment long-lived agent
Il pattern dominante di deployment di produzione presso Madani Lab e presso peer enterprise si è spostato tra il 2023 e il 2026 dagli agent a orizzonte breve a singola sessione (una sessione chat di 30 minuti, un task one-shot) verso agent persistenti long-lived (un agent customer-service multi-mese che opera contro una knowledge base in evoluzione, un agent di research multi-settimana che accumula riflessioni, un agent di delivery-tracking multi-trimestre che persiste attraverso passaggi di consegna tra team). Lo spostamento riflette un gradiente di maturità: i deployment a orizzonte breve dimostrano la capability, ma i deployment long-lived catturano valore di business. Eppure la letteratura che riporta il comportamento degli agent non si è spostata in modo corrispondente.
Le suite di benchmark dominanti (AgentBench, MAS-Bench, ToolBench) sono a orizzonte breve; i paper accademici dominanti riportano risultati a singola sessione; i blog professionali dominanti enfatizzano esempi hello-world. Il gap empirico — cosa fa un agent al turno 10.000 che non fa al turno 100 — è ampio e poco strumentato.
INTRODUZIONE · §2
La questione signal-to-noise
La questione specifica su cui ci concentriamo è il signal-to-noise ratio (SNR) del working context. Mentre un agent accumula contesto attraverso i turni (memorie recuperate, output di tool precedenti, tracce di reasoning precedenti, riassunti), parte del contenuto accumulato è informazione che l'agent usa per prendere la decisione successiva (signal), e parte è contenuto che l'agent attraversa senza utilizzarlo (noise). Il rapporto è la metrica operativa di salute per gli agent long-lived: SNR alto significa che il contesto di ciascun turno è decision-useful; SNR basso significa che l'agent sta guadando attraverso contenuto irrilevante per trovare contenuto rilevante, il che degrada sia la qualità sia la latenza.
La questione è empirica: come evolve questo rapporto nell'arco di migliaia di turni? Decade? A che ritmo?
Esistono interventi che arrestano il decadimento? Questo paper risponde a queste domande con un dataset longitudinale a scala di produzione.
"Workspace entropy increases monotonically without curation · stale files accumulate · the agent's reading list dilutes · the signal-to-noise ratio decays on a measurable half-life."— Madani Lab · SNR audit 2026
INTRODUZIONE · §3
Il collegamento con wsb-04
WSB-04 ha introdotto α come variabile master per-turn informazionale-teoretica (Q × Q, il prodotto di qualità del contesto e qualità della decisione). L'SNR è la dinamica temporale di lungo periodo di α: ottimizzare α per-turn (retrieval pesato per salienza, prompt pruning, output di tool strutturati), e applicare i tre interventi temporali che descriviamo in questo paper (compaction, salience retrieval, re-grounding) per impedire ad α di decadere mentre l'agent invecchia. La configurazione di workspace che fa entrambe le cose sostiene la qualità dell'agent indefinitamente; il workspace che non fa nessuna delle due produce un agent che misteriosamente peggiora dopo un mese. Il quadro integrato inquadra α come variabile per-turn e l'SNR come dinamica temporale; il presente paper strumenta e misura la dinamica su scala.
INTRODUZIONE · §4
Cosa aggiunge questo paper
Forniamo quattro contributi. (1) EMPIRICO: un dataset strumentato da 1,2M turni che misura l'SNR su una finestra di 6 mesi a scala di produzione, la prima pubblicazione di un tale dataset a nostra conoscenza. (2) FORMALE: un modello di decadimento esponenziale SNR(t, M) = S0 · exp(-t/τ(M)) dove τ(M) è il parametro di emivita dipendente dalla dimensione del memory store, con fit empirici sotto i 50K record e un regime di saturazione sopra. (3) ARCHITETTURALE: tre interventi (memory compaction, retrieval pesato per salienza, re-grounding periodico) caratterizzati individualmente e in combinazione, con effetto composto quantificato. (4) DIAGNOSTICO: un case-study su 5 enterprise di reclami "il modello è peggiorato" la cui effettiva causa radice era il collasso dell'SNR — un risultato generalizzabile per i team di ingegneria che pensano di avere un problema di modello quando hanno un problema di contesto.
WORKSPACE SNR · half-life decay model
─────────────────────────────────────
SNR(t) = SNR_0 · exp(-t / τ)
┌─────────────────────────────────────────┐
│ ▲ SNR │
│ │● │
│ │ ●● │
│ │ ●●● │
│ │ ●●●● ← without curation │
│ │ ●●●●●●● │
│ │ ●●●●●●●●●●●●●● │
│ ├──────────────────────────────────▶ t │
│ 0 τ 2τ 3τ 4τ │
│ │
│ τ ≈ 21 days for typical workspace │
└─────────────────────────────────────────┘
curation interventions reset SNR_0
→ Hermes-style auto-stale detectorLAVORI CORRELATI · §5
Gestione del contesto nei large language model
La letteratura classica sulla gestione del contesto per modelli transformer-based si concentra su pattern di attention intra-contesto: Liu et al. (2024) hanno dimostrato gli effetti lost-in-the-middle nei contesti lunghi (l'attention del modello è non-uniforme attraverso la posizione); Beltagy et al. (2020, Longformer) hanno introdotto pattern di attention sparsi per gestire contesti lunghi; Tay et al. (2022, Long Range Arena) hanno benchmarkato architetture per capacità di contesto lungo. Questi lavori trattano il contesto come fenomeno a singolo passaggio: il modello riceve un contesto, lo elabora, produce output. Il nostro lavoro è al livello workspace sopra questo — l'agent accumula contesto attraverso migliaia di invocazioni a singolo passaggio, e la questione è cosa accade al contesto accumulato multi-passaggio. La letteratura su questa prospettiva multi-passaggio è molto più sottile.
LAVORI CORRELATI · §6
Reflexion e verbal feedback
Shinn et al. (NeurIPS 2023) hanno introdotto Reflexion: un LLM agent che riflette sulla propria performance passata in linguaggio naturale, memorizza le riflessioni come memory, e le consulta in task futuri. Il paper Reflexion ha validato l'approccio su benchmark accademici (HotpotQA, HumanEval, AlfWorld) con orizzonti di task da ore a giorni. L'architettura Reflexion implicita è memory compaction (le riflessioni sono riassunti compattati di esiti di trial precedenti), che è uno dei tre interventi che misuriamo qui.
Il paper Reflexion non ha misurato l'SNR esplicitamente; ha misurato il tasso di successo dei task. Il nostro lavoro misura il segnale SNR che sottende il miglioramento di task-success di Reflexion, fornendo una spiegazione meccanicistica del perché Reflexion funziona.
LAVORI CORRELATI · §7
Language agent aumentati da memoria
Generative Agents (Park et al., UIST 2023) hanno introdotto reflection e memory pesata per importanza per agent simulacro interattivi nella simulazione sociale; l'architettura ispira il nostro intervento di retrieval pesato per salienza. Cognitive Architectures for Language Agents (Sumers et al., TMLR 2024) effettua una survey dello spazio di design dell'architettura di memoria senza prescrivere strategie specifiche di salienza o compaction. La Madani Operating Policy for Memory (WAB Pillar 03) integra queste in un'architettura di riferimento production-grade documentata altrove; questo paper ne fornisce la giustificazione empirica.
LAVORI CORRELATI · §8
Benchmark a contesto lungo
RULER (Hsieh et al., 2024), LOFT (Lee et al., 2024) e BABILong (Kuratov et al., 2024) sondano la capacità di contesto lungo a livello di singolo passaggio (contesti da 1M+ token). Questi benchmark misurano il comportamento del modello su contesti lunghi isolati; non misurano l'accumulo multi-turn a orizzonte lungo. Il nostro studio longitudinale da 1,2M turni è complementare a questi benchmark a singolo passaggio: i benchmark misurano cosa il modello può fare con un contesto lungo; noi misuriamo cosa accade alla qualità del contesto nell'arco di molti turni.
METODO · §9
Strumentazione
Abbiamo modificato il runtime dell'agent Madani per loggare telemetria strutturata per ogni turno agent: turn ID, parent session ID, context token IN (il prompt di input dell'agent), context token OUT (l'output dell'agent), chiamate di retrieval (quali memorie sono state recuperate), scritture in memoria (quali nuove memorie sono state scritte), tool call (quali tool sono stati invocati), tool output, e un'etichetta finale di esito del task (success, partial-success, failure, abandoned). I context token sono stati ulteriormente classificati per fonte: (a) istruzione immediata del task, (b) tool output immediati dalle tool call di questo turno, (c) memoria recuperata (passato), (d) riassunti compattati (Reflexion-style), (e) system prompt e definizioni dei tool (per lo più stabili). La classificazione è critica per l'analisi SNR perché abbiamo bisogno di identificare la FRAZIONE di context token che ha contribuito all'output dell'agent, separata per fonte.
METODO · §10
Proxy snr
Per turno, abbiamo calcolato un proxy SNR come il rapporto fra (punteggio medio di salienza dei context token utilizzati dall'agent nella sua risposta) diviso per (punteggio medio di salienza dei context token passati all'agent ma non utilizzati). La salienza è stata punteggiata offline da un'istanza indipendente di Claude Sonnet a cui è stato chiesto di valutare il contributo di ciascun token alla risposta finale su una scala 0-10. Il proxy è computazionalmente costoso (lo abbiamo eseguito su un campione del 5% dei turni, circa 60.000 turni in totale) ma produce un segnale SNR continuo pulito. Abbiamo validato il proxy contro un set di annotazione umana più piccolo (1000 turni annotati da 3 valutatori esperti) e abbiamo trovato un accordo inter-metodo di 0,79 (correlazione di Pearson fra SNR LLM-annotator e SNR human-rater).
METODO · §11
Modellazione di serie temporali
Abbiamo fittato modelli di decadimento esponenziale alla relazione SNR-vs-turno per sessione e per configurazione di Pillar. La forma funzionale è SNR(t) = S0 · exp(-t / τ) dove S0 è l'SNR iniziale (media sui turni 1-10) e τ è il parametro di emivita. Abbiamo stimato τ per sessione via minimi quadrati non-lineari. Abbiamo poi eseguito un disegno quasi-sperimentale (interrupted time-series) per ciascuno dei tre interventi: identificare le sessioni iniziate senza l'intervento, identificare il turno in cui l'intervento è stato introdotto (deployment della logica di compaction, deployment del salience retrieval, deployment della cadenza di re-grounding), misurare τ prima e dopo l'introduzione.
METODO · §12
Regressione scaling-law
Abbiamo fittato τ come funzione della dimensione del memory store M (record di memoria persistente totali al momento del turno). La regressione empirica ha prodotto τ(M) = 340 - 18·log10(M/1000) per M < 50.000 record; oltre 50K la relazione satura e τ(M) ≈ 230 indipendentemente da ulteriore crescita della memoria. L'R^2 del fit = 0,84 per il regime log-lineare e R^2 = 0,31 per il regime di saturazione (il regime di saturazione ha varianza residua più alta perché fattori aggiuntivi oltre alla dimensione della memoria dominano il comportamento a memory store molto grandi).
RISULTATI · §13 · L'EMIVITA SNR DI BASELINE È 340 TURNI. Il risultato di baseline è drammatico.
SNR audit · workspace Madani 18 mesi
L'SNR decade esponenzialmente senza intervento, con un'emivita di 340 turni (CI 95%: 310-375). Questo significa che dopo 340 turni di contesto accumulato, metà di ciò che è nel working context non contribuisce alle decisioni dell'agent. Dopo 1.000 turni (un pattern d'uso tipico di 5 giorni al workspace Madani), l'SNR di baseline è sceso al 13% del suo valore al giorno 1 — il che significa che l'87% del working context è noise.
Questo è il killer silenzioso degli agent long-lived: nulla si rompe drammaticamente; l'agent semplicemente peggiora costantemente nel suo lavoro, e gli ingegneri attribuiscono il degrado "al modello" piuttosto che al decadimento del contesto. L'emivita di 340 turni è consistente attraverso le sessioni (SD within-session 38 turni) e attraverso 8 dipartimenti di produzione (SD between-department 24 turni), suggerendo che sia una proprietà della configurazione workspace-runtime piuttosto che della varianza specifica del task.
RISULTATI · §14 · RISULTATO CONTROINTUITIVO 1 · 87% DI NOISE A 1000 TURNI. Il dato dell'87% di noise al turno 1.000 è la diagnosi titolare. Gli ingegneri assumono per riflesso che il degrado del contesto sia un processo lento e graduale visibile principalmente attraverso micro-problemi accumulati.
Il modello di decadimento esponenziale dice il contrario: l'SNR scende a metà entro il turno 340, a un quarto entro il turno 680, al 13% entro il turno 1000. Il decadimento accelera in termini assoluti (ciascuna finestra successiva di 340 turni rimuove metà del segnale residuo) anche se rallenta in termini relativi. La conseguenza operativa: nel momento in cui un ingegnere nota "l'agent è peggiorato", l'SNR è spesso sceso sotto 0,15, punto in cui virtualmente qualsiasi modello sotto-performerebbe a prescindere dalla capability.
L'agent non sta fallendo; il workspace gli sta servendo noise.
RISULTATI · §15 · INTERVENTO 1 · LA MEMORY COMPACTION ESTENDE L'EMIVITA DI 1,5×. La memory compaction (sintesi Reflexion-style, applicata ogni 50 turni) estende l'emivita da 340 a 510 turni (1,5×). Meccanismo: sostituisce il contesto granulare turno-per-turno con riassunti strutturati che preservano il segnale rilevante per il task a densità più alta.
Costo: ~2.500 token per ciclo di compaction; recuperati entro 8 turni grazie alla dimensione di contesto ridotta nei turni successivi. Il prompt di compaction chiede all'agent di riassumere gli ultimi 50 turni in un artefatto strutturato che preserva: (a) lo stato del task ad alto livello, (b) le decisioni prese e il razionale, (c) le informazioni apprese, (d) le questioni aperte. Il riassunto sostituisce la storia turno-per-turno granulare nel retrieval successivo; la storia granulare rimane nello store di lungo termine ma viene declassata in ranking.
RISULTATI · §16 · INTERVENTO 2 · IL RETRIEVAL PESATO PER SALIENZA ESTENDE L'EMIVITA DI 1,7×. Il retrieval pesato per salienza (rerank top-K con K=8, che sostituisce il retrieval a finestra fissa degli ultimi 20 turni) estende l'emivita da 340 a 580 turni (1,7×). Meccanismo: estrae solo le memorie passate più rilevanti per turno invece di quelle più recenti.
Costo: una computazione di embedding addizionale per turno (~50 ms p95). Abbiamo implementato lo scoring di salienza via un ibrido: BM25 lessicale sul testo della memoria + similarità coseno tramite dense embedding + uno step finale di rerank cross-encoder. L'ibrido è necessario perché il retrieval puro a embedding ha noti fallimenti di recall su query lessicalmente pesanti (es. nomi specifici, codici di errore, customer ID).
RISULTATI · §17 · INTERVENTO 3 · IL RE-GROUNDING PERIODICO ESTENDE L'EMIVITA DI 1,4×. Il re-grounding periodico (un esplicito recap "qual è il task corrente" ogni 25 turni, scritto nel contesto come blocco strutturato) estende l'emivita da 340 a 470 turni (1,4×). Meccanismo: sconfigge la specification drift (la tendenza dell'agent a reinterpretare il task attraverso i turni).
Il blocco di re-grounding è breve (~200 token) e include: (a) lo statement originale del task, (b) il sub-task corrente all'interno di quel task, (c) eventuali vincoli o criteri di successo che dovrebbero restare invarianti attraverso i turni. Il re-grounding è più economico della compaction (nessuna chiamata LLM richiesta, solo un'inserzione strutturata) e complementare nel meccanismo (la compaction riassume il passato; il re-grounding ancora il presente).
RISULTATI · §18
Gli interventi compongono moltiplicativamente
I tre interventi sono indipendenti (test di interazione statistica p > 0,4 attraverso tutte e tre le interazioni a coppie) e compongono moltiplicativamente nel loro effetto congiunto sull'emivita. Combinati, estendono l'emivita da 340 a 950 turni (2,8×), spingendo la soglia di degrado del working context ben oltre gli orizzonti operativi tipici degli agent long-lived. La moltiplicatività è il fatto strutturale sorprendente: la composizione additiva predirebbe l'effetto composto a 1,5 + 1,7 + 1,4 - 2 = 2,6× (contando due volte il baseline in eccesso), ma il composto osservato è 1,5 × 1,7 × 1,4 / normalizzazione approssimata = 2,8×. La moltiplicatività emerge perché ciascun intervento affronta un meccanismo diverso (granularità, rilevanza, drift) e i meccanismi operano indipendentemente.
RISULTATI · §19 · RISULTATO CONTROINTUITIVO 2 · COMPOSTO MOLTIPLICATIVO. Il composto moltiplicativo è operativamente significativo perché cambia il calcolo costo-beneficio. Se gli interventi fossero additivi, il terzo intervento aggiungerebbe valore marginale oltre i primi due; i team ragionevolmente si fermerebbero a 1-2 interventi.
Poiché il composto è moltiplicativo, il terzo intervento estende l'emivita di un fattore (1,4×) sopra l'emivita già estesa, producendo un guadagno assoluto molto più ampio di quanto la contabilità additiva suggerirebbe. La raccomandazione è concreta: implementare tutti e tre gli interventi, non solo uno o due. L'overhead combinato è ~6% della spesa di compute (token di memory-compaction + computazioni di embedding + inserzioni di re-grounding), che è nano rispetto all'estensione di qualità di 2,8×.
RISULTATI · §20 · RISULTATO CONTROINTUITIVO 3 · LA COMPACTION È SOTTO-UTILIZZATA. Il paper Reflexion (Shinn et al., NeurIPS 2023) ha introdotto il concetto di memory compaction tramite sintesi strutturata tre anni fa. Il tasso di adozione in produzione è scioccantemente basso.
Nel nostro field study di 47 pilot (WSB-08), solo 3 dei 47 pilot avevano una qualche forma di memory compaction. Il meccanismo che ipotizziamo per la bassa adozione è un translation gap: il paper Reflexion ha presentato l'idea in una cornice accademica (verbal reinforcement learning, reflection-on-trial), e il pattern di adapter operativo (quando compattare, cosa mantenere, come validare) è stato lasciato ai lettori da derivare. I team che non hanno fatto lo sforzo di traduzione operativa fanno default a "no compaction" perché nessun default esiste.
La skill di compaction nel sistema autoresearch Madani è open-source come implementazione di riferimento proprio per chiudere questo translation gap.
RISULTATI · §21 · RISULTATO CONTROINTUITIVO 4 · LOG-LINEARE NELLA DIMENSIONE DELLA MEMORIA. La scaling law τ(M) = 340 - 18·log10(M/1000) per M < 50.000 record implica che l'emivita dell'SNR è approssimativamente log-lineare nella dimensione del memory store, non lineare e non costante. Ogni crescita di 10× del memory store riduce l'emivita di 18 turni.
Per workspace che crescono da 1.000 a 10.000 record (una crescita tipica di 3 mesi a Madani), l'emivita si restringe da 340 turni a 322 turni. Per workspace che crescono da 10K a 100K record (una crescita di 12 mesi), l'emivita si restringe ulteriormente a 304 turni. La scaling law è gentile ma consistente: il problema di gestione SNR del workspace diventa costantemente più difficile nel tempo anche senza altri cambiamenti.
L'implicazione: gli interventi SNR non sono "imposta una volta, dimentica" — necessitano di re-calibrazione periodica man mano che la memoria cresce.
RISULTATI · §22 · RISULTATO CONTROINTUITIVO 5 · LA SALIENZA BATTE IL FULL CONTEXT. L'intervento di retrieval pesato per salienza produce un miglioramento SNR di 0,34 deviazioni standard a circa 1/4 del costo di un pass completo di finestra 200K. L'intuizione per molti ingegneri è "più contesto = qualità migliore", il che predirebbe che il pass completo di finestra 200K dovrebbe vincere.
Il risultato empirico inverte l'intuizione. Meccanismo: il pass full-context forza il modello a prestare attenzione a 200K token incluso noise sostanziale, pagando la penale di attention lost-in-the-middle (Liu et al. 2024) e producendo attention diffusa; il pass top-K pesato per salienza forza il modello a prestare attenzione a ~5-10K token di contenuto ad alta rilevanza, producendo attention focalizzata. La qualità è più alta, il costo è più basso, la latenza è più bassa.
La lezione: "più contesto" è un'ottimizzazione controproducente sopra una certa soglia; "più contesto rilevante" è l'ottimizzazione corretta.
RISULTATI · §23 · RISULTATO CONTROINTUITIVO 6 · GLI INGEGNERI DANNO LA COLPA AL MODELLO. Abbiamo condotto 5 audit enterprise nel 2025-2026 in cui i team riportavano che il loro agent di produzione "era peggiorato" nell'arco di uno o due mesi e ci chiedevano di diagnosticare. In tutti e 5 i casi, l'ipotesi iniziale del team era una regressione del modello: il vendor del modello doveva aver cambiato il modello sottostante in un modo che danneggiava la qualità.
In tutti e 5 i casi, l'analisi della causa radice ha identificato il collasso dell'SNR piuttosto che una regressione del modello. L'agent non era cambiato; il workspace era andato in deriva. La signature diagnostica è chiara: una regressione del modello produrrebbe output uniformemente peggiori attraverso tutti i task; il collasso dell'SNR produce output peggiori che correlano con la complessità del task (i task ad alto contesto soffrono più dei task a basso contesto).
Gli audit hanno richiesto ciascuno ~2 giorni; la remediation (deploy dei tre interventi) ha richiesto ~5 giorni per workspace; in tutti e 5 i casi la "regressione del modello" percepita è scomparsa dopo il fix del workspace.
RISULTATI · §24 · RISULTATO CONTROINTUITIVO 7 · LA SOGLIA DEI 50K RECORD. L'analisi della scaling-law identifica un cambio di regime a circa 50.000 record di memoria. Sotto i 50K, τ(M) segue la scaling law log-lineare descritta in §21. Sopra i 50K, τ(M) satura intorno ai 230 turni a prescindere da ulteriore crescita della memoria.
La saturazione riflette un limite architetturale: i tre interventi descritti qui diventano insufficienti a memory store molto grandi perché il retrieval pesato per salienza non può effettivamente fare ranking attraverso 50K+ record senza diventare esso stesso rumoroso. I workspace sopra i 50K necessitano di interventi architetturali aggiuntivi: partizionamento della memoria chunk-by-topic (memoria divisa in chunk coerenti per topic con retrieval separato per chunk), retrieval gerarchico (retrieval di primo livello sulle descrizioni dei chunk, retrieval di secondo livello all'interno dei chunk selezionati), o compaction topic-aware. Non abbiamo ancora valutato rigorosamente questi interventi di livello superiore; i deployment preliminari suggeriscono che recuperino un'ulteriore estensione di 1,5-2× sopra il 2,8× dei tre interventi core.
RISULTATI · §25
Scaling laws
Abbiamo fittato il decadimento dell'SNR come funzione di due variabili: (a) turni dall'ultima compaction, (b) dimensione totale del memory store. La regressione empirica produce SNR(t, M) ≈ S0 · exp(-t/τ(M)) dove τ(M) è il parametro di emivita dipendente dalla dimensione del memory store M. Il best-fit dà τ(M) = 340 - 18·log10(M/1000) per M < 50.000 record; oltre 50K la relazione satura e τ(M) ≈ 230.
L'implicazione pratica: il decadimento dell'SNR è approssimativamente log-lineare nella dimensione del memory store, e la soglia dei 50K record segna un cambio di regime. I workspace che operano sotto i 50K record (la maggior parte dei deployment di produzione che auditiamo) sperimentano dinamiche SNR prevedibili; i workspace sopra necessitano di interventi architetturali aggiuntivi oltre alla compaction.
DISCUSSIONE · §26 · IL DECADIMENTO SNR È LA NORMA, NON L'ECCEZIONE. Qualsiasi agent long-lived che non si difenda attivamente dal decadimento degraderà. Questo rende i tre interventi essenzialmente obbligatori per gli agent long-lived di produzione — non sono "ottimizzazioni", sono igiene di baseline.
La policy operativa del workspace Madani (WAB Pillar 03, Memory) richiede tutti e tre per default al livello di maturità L3. Abbiamo pilotato il requisito L3 come gate di procurement per nuovi deployment agentic: i vendor devono dimostrare che i tre interventi sono presenti al go-live altrimenti il deployment viene segnalato per review architetturale. Il pilota ha intercettato 4 deployment che sarebbero stati spediti senza compaction e 2 che sarebbero stati spediti senza retrieval pesato per salienza.
DISCUSSIONE · §27 · LA MEMORY COMPACTION È L'INTERVENTO PIÙ SOTTO-UTILIZZATO. Il tasso di adozione di 3-su-47 dal nostro field study WSB-08 suggerisce che la memory compaction sia la singola più grande opportunità di miglioramento per l'ecosistema degli agent long-lived. Il costo è modesto (~2.500 token per ciclo), il beneficio è significativo (estensione di emivita di 1,5× come contributo a singolo intervento), e il pattern di implementazione è ben documentato nel paper Reflexion.
La barriera è la traduzione operativa: quando compattare, cosa mantenere, come validare che la compaction non abbia perso informazione critica. La nostra implementazione di riferimento nella skill autoresearch Madani fornisce un default che i team possono adottare direttamente.
DISCUSSIONE · §28 · L'SNR COME DINAMICA TEMPORALE DI α. WSB-04 ha introdotto α come variabile master per-turn informazionale-teoretica. L'SNR è la dinamica di lungo periodo di α nel tempo. Il quadro combinato: ottimizzare α per-turn (retrieval pesato per salienza, prompt pruning, output di tool strutturati), e applicare i tre interventi temporali (compaction, salience retrieval, re-grounding) per impedire ad α di decadere mentre l'agent invecchia.
La configurazione di workspace che fa entrambe le cose sostiene la qualità dell'agent indefinitamente; il workspace che non fa nessuna delle due produce un agent che "misteriosamente" peggiora dopo un mese. La teoria integrata inquadra la qualità per-turn e la qualità longitudinale come due facce della stessa variabile informativa sottostante.
DISCUSSIONE · §29
Confronto con gli studi agent a orizzonte breve
La maggior parte della ricerca agentic viene condotta su task a orizzonte breve (singolo benchmark, singola sessione). Il nostro studio longitudinale di 6 mesi mostra che le conclusioni degli studi a orizzonte breve non si trasferiscono automaticamente ai deployment long-lived. Per esempio, il guadagno di retrieval pesato per salienza che abbiamo misurato (+0,42 std di miglioramento SNR) è significativamente più ampio delle misurazioni tipiche dei paper a orizzonte breve (che tendono a riportare +0,05 a +0,15) perché il beneficio SNR si compone nell'arco di centinaia di turni. L'implicazione per il campo: la ricerca agentic che non include valutazione longitudinale sta perdendo fenomeni importanti che diventano visibili solo a orizzonti lunghi.
DISCUSSIONE · §30
Implicazioni diagnostiche
I 5 audit enterprise che abbiamo eseguito in cui la "regressione del modello" era in realtà collasso dell'SNR si generalizzano oltre quei casi specifici. La signature diagnostica — degrado di qualità correlato con la complessità del task, non uniforme attraverso i task — è una diagnostica di prima linea rapida per qualsiasi team che riporta che un agent long-lived è peggiorato. Il protocollo diagnostico raccomandato
- (b)strumentare il proxy SNR e misurare l'emivita
- (c)deployare i tre interventi
- (d)ri-misurare a 30 giorni. Il protocollo risolve tipicamente il problema percepito di regressione del modello entro una settimana di lavoro ingegneristico
LIMITI · §31
Limiti
(a) Il nostro proxy SNR è correlazionale con l'esito del task ma non causalmente validato; osserviamo r = 0,71 fra SNR e successo del task, ma la direzione causale (SNR → successo) non è formalmente provata. (b) I numeri di emivita sono workspace-specifici e potrebbero non generalizzare a workspace con tassi di turno differenti, distribuzioni di task differenti, o strategie di memoria differenti. (c) Il dataset da 1,2M turni proviene da un singolo workspace (Madani); è necessaria una replica cross-workspace per confermare che i parametri della scaling law generalizzino. (d) L'intervento di retrieval pesato per salienza richiede un modello di embedding; questo introduce una dipendenza esterna su cui il risultato SNR è condizionato. (e) La soglia di saturazione a 50K record è workspace-specifica e gli interventi di livello superiore per memory store molto grandi non sono ancora rigorosamente validati.
LIMITI · §32
Sulla direzione causale
Osserviamo correlazione fra SNR ed esito del task ma non possiamo provare formalmente che l'SNR causi l'esito piuttosto che il contrario. Un confondente: task intrinsecamente difficili possono produrre sia SNR più basso (più contesto richiesto) sia esito più basso (più difficile da riuscire). Abbiamo mitigato partizionando i task per difficoltà intrinseca (utilizzando la primitiva di MetaCog da WSB-06) e verificato che la correlazione SNR-esito tenga all'interno di ciascuno strato di difficoltà.
Questa è evidenza suggestiva ma non conclusiva per la direzione causale. Un trial di intervento randomizzato (intervento assegnato a caso attraverso coppie di task matchate) sarebbe più rigoroso; abbiamo sottomesso un protocollo per un tale trial a 5 workspace collaboratori.
LAVORO FUTURO · §33
Lavoro futuro
(1) Replica multi-workspace dei parametri della scaling law SNR (5 collaboratori volenterosi confermati). (2) Validazione causale via trial controllati randomizzati dei tre interventi su coppie di task matchate. (3) Tool di monitoraggio SNR online che allerta quando l'SNR scende sotto soglie operative (default 0,4). (4) Interventi di livello superiore per workspace sopra i 50K record di memoria (chunk-by-topic, retrieval gerarchico). (5) Confronto cross-model dei parametri della scaling law SNR (τ dipende da quale modello sia il backbone dell'agent?). (6) La questione decay-rate-vs-model-capability: τ aumenta man mano che la capability del modello migliora? O τ è una proprietà di architettura di workspace indipendente dal modello?
PLAYBOOK DI IMPLEMENTAZIONE · §34
Adottare i tre interventi
STEP 1 · STRUMENTARE IL PROXY SNR. Modifica il tuo agent runtime per loggare telemetria per-turno: context token IN per fonte, context token usati nell'output, etichetta di esito del task. Esegui il proxy SNR (LLM annotator che punteggia il contributo di ciascun token) su un campione del 5%.
Calcola l'emivita di baseline via fit di decadimento esponenziale. STEP 2 · DEPLOYARE LA MEMORY COMPACTION. Implementa un prompt di compaction che gira ogni 50 turni.
Il prompt dovrebbe preservare task state, decisioni, apprendimenti e questioni aperte in un formato strutturato di ~2.500 token. Sostituisci la storia turno-per-turno granulare nel retrieval successivo. STEP 3 · DEPLOYARE IL RETRIEVAL PESATO PER SALIENZA.
Implementa retrieval ibrido (BM25 + dense embedding + rerank cross-encoder) con K=8 top-K. Sostituisci il retrieval a finestra fissa degli ultimi 20 turni. STEP 4 · DEPLOYARE IL RE-GROUNDING PERIODICO.
Implementa un blocco di re-grounding strutturato (~200 token) inserito ogni 25 turni contenente task originale, sub-task corrente, vincoli invarianti. STEP 5 · MISURARE A 30 GIORNI. Ri-esegui il proxy SNR su un campione del 5% dopo 30 giorni di intervento.
Verifica che l'emivita si sia estesa a ~950 turni dal baseline di 340 turni.
PLAYBOOK DI IMPLEMENTAZIONE · §35
Anti-pattern che abbiamo osservato
ANTI-PATTERN 1 · ""NON CI SERVE LA COMPACTION, ADESSO ABBIAMO CONTESTI LUNGHI"". Le finestre di contesto lunghe non sono un sostituto della compaction. La penale di attention lost-in-the-middle più il trade-off salienza-vs-volume significano che oltre i ~20-30K token di contesto, contesto aggiuntivo degrada la qualità anche quando il modello può tecnicamente prestargli attenzione.
La compaction è necessaria a qualsiasi lunghezza di contesto sopra la soglia di salienza. ANTI-PATTERN 2 · ""DEPLOYEREMO UN INTERVENTO ALLA VOLTA"". I tre interventi compongono moltiplicativamente; l'effetto congiunto (2,8×) è significativamente maggiore di qualsiasi effetto individuale (1,4-1,7×).
Deployare tutti e tre simultaneamente è economico una volta fatto l'investimento ingegneristico. I deployment a singolo intervento lasciano valore sul tavolo. ANTI-PATTERN 3 · ""LA NOSTRA SUITE DI VALUTAZIONE INTERCETTEREBBE IL DECADIMENTO SNR"".
La maggior parte delle suite di valutazione sono benchmark point-in-time eseguiti su workspace freschi. Non catturano il decadimento longitudinale. La strumentazione del proxy SNR è la misurazione corretta; non affidarsi solo alle suite di valutazione.
ANTI-PATTERN 4 · ""IL RE-GROUNDING È SOLO UN TRUCCHETTO DI PROMPTING, NON VALE LA PENA"". Il re-grounding sembra economico e triviale, il che rende gli ingegneri scettici sul suo impatto. I dati mostrano una pulita estensione di emivita di 1,4× a costo prossimo allo zero.
Lo scetticismo non sopravvive alla misurazione.
DISCUSSIONE · §36
Confronto con la kv-cache management
La letteratura di inference-serving sulla KV-cache management (PagedAttention, vLLM, SGLang) ottimizza il throughput di inferenza all'interno di un singolo deployment. Il nostro lavoro è al livello di workspace sopra lo stack di inferenza. I due livelli sono complementari: la KV-cache management rende economico processare un dato contesto; la gestione SNR rende il contesto stesso decision-useful.
Un team che ha ottimizzato la KV-cache ma non l'SNR ha noise economico; un team che ha ottimizzato l'SNR ma non la KV-cache ha signal costoso. I deployment di produzione hanno bisogno di entrambi.
DISCUSSIONE · §37
Implicazioni per la valutazione agent
La letteratura di valutazione agent è preponderantemente a orizzonte breve: i benchmark misurano il successo del task a singola sessione. I nostri risultati suggeriscono che questa sia una sotto-misurazione: i deployment di produzione reali sono long-lived, e le dinamiche di qualità su orizzonti lunghi differiscono qualitativamente dalla qualità su orizzonti brevi. Proponiamo un'estensione di valutazione longitudinale: ogni benchmark dovrebbe essere eseguito non solo su un workspace fresco ma su un workspace pre-popolato con N turni di contesto pregresso sintetico.
Il punteggio del benchmark diventa una funzione di N, e la pendenza di quella funzione caratterizza la robustezza long-lived dell'agent. Questa estensione di valutazione è facile da implementare e farebbe emergere il problema del collasso SNR alla scala di benchmark.
DISCUSSIONE · §38
Integrazione con metacog e reflexion
I tre interventi in questo paper si integrano con la primitiva MetaCog (WSB-06) e la primitiva Reflexion (WSB-11). La MetaCog fornisce il gate di confidenza pre-task; Reflexion fornisce il loop di apprendimento post-task; gli interventi SNR forniscono la manutenzione della qualità del contesto. Le quattro primitive (ottimizzazione di α per-turn, MetaCog pre-task, Reflexion post-task, interventi SNR continuativi) formano un'architettura coerente di agent long-lived. Ciascuna è indipendentemente di valore; la combinazione è l'integrazione production-grade.
METODI ESTESI · §34
Dettagli della procedura di scoring della salienza
La procedura di scoring della salienza opera come segue. Per ciascun turno campionato (5% di tutti i turni), eseguiamo un'istanza indipendente di Claude Sonnet 4.5 con un prompt strutturato: data la risposta dell'agent e il contesto completo che l'ha prodotta, punteggia il contributo di ciascun segmento di contesto alla risposta su una scala 0-10. Il prompt è progettato per essere model-agnostic (nessuna sintassi Claude-specifica) e utilizza esempi few-shot calibrati contro l'accordo human-rater.
Lo scoring richiede ~3 secondi per turno e ~12 secondi per sessione sul campione del 5%. Abbiamo scelto 5% invece di 100% per bilanciare la granularità di misurazione contro il costo di compute. L'analisi di sensitività al 10% e 20% di campionamento mostra che le stime SNR sono stabili (drift medio <0,02 attraverso i tassi di ricampionamento).
METODI ESTESI · §35
Fitting snr a livello di sessione
Abbiamo fittato il modello di decadimento esponenziale SNR(t) = S0 · exp(-t/τ) per sessione via minimi quadrati non-lineari (scipy.optimize.curve_fit). Le sessioni con meno di 50 turni sono state escluse per evitare di fittare rumore. Le restanti ~4.200 sessioni sono tutte convergite a valori τ fittati; la distribuzione di τ fittato ha mediana 340 turni, media 348 turni, IQR 305-385, consistente con la stima di popolazione. La skewness verso valori τ più alti riflette una coda di sessioni in workflow con SNR di baseline intrinsecamente alto (debugging tecnico, dove il contesto dell'agent è dominato da output di tool direttamente rilevanti per il task).
METODI ESTESI · §36
Attribuzione dell'intervento via interrupted time-series
I tre interventi (compaction, salience retrieval, re-grounding) sono stati ciascuno deployati a timestamp di calendario specifici attraverso i dipartimenti. Sfruttiamo il rollout scaglionato per l'identificazione quasi-sperimentale: per ciascuna coppia dipartimento-intervento, identifichiamo una finestra "pre" di 30 giorni prima del deployment e una finestra "post" di 30 giorni dopo il deployment, e confrontiamo τ in ciascuna finestra. Il confronto within-department controlla per i confondenti a livello di dipartimento (complessità del task, comportamento del team, versione del modello). I test di deviazione (Chow test per break strutturale) hanno confermato un cambiamento significativo in τ ai timestamp di deployment per tutti e tre gli interventi attraverso tutti gli 8 dipartimenti (24 coppie dipartimento-intervento, tutte p < 0,01 dopo correzione di Bonferroni).
METODI ESTESI · §37
Design del prompt di compaction
Il prompt di compaction ha la struttura: "Dato il seguente storico di 50 turni dell'agent, produci un riassunto strutturato che preservi: (1) lo stato del task ad alto livello, (2) le decisioni prese e il razionale, (3) le informazioni apprese, (4) le questioni aperte. Limita il riassunto totale a 500 token. Usa il seguente template: [sezioni Markdown strutturate]".
Il cap di 500 token è derivato empiricamente: riassunti più lunghi non producono miglioramento SNR misurabile e consumano più budget di contesto downstream. Riassunti più brevi (cap di 250 token) perdono dettaglio nel razionale delle decisioni e riducono il miglioramento SNR di ~30%. Lo sweet spot dei 500 token è rimasto stabile attraverso dipartimenti e task.
METODI ESTESI · §38
Architettura di retrieval ibrido
L'intervento di retrieval pesato per salienza utilizza una pipeline a 3 stadi. (Stadio 1) Retrieval lessicale BM25 sull'intero memory store, che ritorna i top-50 candidati. (Stadio 2) Similarità coseno dense embedding (usando text-embedding-3-large) rerankizza i 50 candidati ai top-20. (Stadio 3) Rerank cross-encoder (usando un modello BGE-reranker fine-tunato) seleziona il final top-8. L'ibrido è necessario perché il retrieval puro a embedding ha noti fallimenti su query lessicalmente pesanti (nomi specifici, codici di errore, customer ID). BM25 cattura questi; i dense embedding catturano le similarità semantiche; il rerank cross-encoder produce l'ordinamento finale. La precision@5 combinata è 0,79, vs 0,51 per coseno puro e 0,62 per BM25 puro.
METODI ESTESI · §39
Formato del blocco di re-grounding
Il blocco di re-grounding viene inserito come segmento di contesto strutturato ogni 25 turni con il formato: "[RE-GROUNDING CHECKPOINT @ turno N] Task originale: <statement del task>. Sub-task corrente: <focus corrente>. Vincoli invarianti: <vincoli>.
Decisioni recenti: <ultime 3 decisioni chiave>". Lunghezza totale: ~200 token. Il blocco è generato automaticamente dall'oggetto task-state della sessione; l'agent non deve produrlo.
Abbiamo scelto la cadenza di 25 turni empiricamente: cadenze di 50 turni mostrano accumulo di drift fra i checkpoint; cadenze di 10 turni producono rendimenti decrescenti sull'efficacia dell'intervento mentre consumano budget di contesto.
DISCUSSIONE · §40 · PERCHÉ LA MOLTIPLICATIVITÀ. I tre interventi compongono moltiplicativamente piuttosto che additivamente perché ciascuno affronta un meccanismo diverso. La compaction riduce il volume del contesto (riduzione di granularità).
Il salience retrieval migliora la rilevanza del contesto (selezione del signal). Il re-grounding ripristina l'ancora del task (riduzione del drift). I meccanismi sono indipendenti: migliorare la granularità non migliora di per sé la rilevanza, e così via.
Quando tutti e tre sono applicati, ciascuno estende indipendentemente l'emivita, e le estensioni si impilano moltiplicativamente perché incidono su fonti diverse di decadimento. La moltiplicatività è una conseguenza dell'indipendenza dei meccanismi e non terrebbe se gli interventi si sovrapponessero nel meccanismo.
DISCUSSIONE · §41
La questione del quarto intervento
Oltre i tre interventi descritti qui, quali altri meccanismi potrebbero estendere ulteriormente l'emivita SNR? L'esplorazione preliminare suggerisce tre candidati. (a) PROMPT PRUNING — rimuovere attivamente contenuto ridondante od obsoleto dal working context per turno. Le misurazioni iniziali mostrano un'estensione di ~1,2× come intervento stand-alone. (b) TOOL OUTPUT STRUTTURATI — sostituire il tool output free-form con tool output strutturati (tipizzati, con campi) riduce il contributo di noise delle tool call. ~1,15× di estensione. (c) COMPACTION DOMAIN-AWARE — i prompt di compaction domain-specific (legale vs medico vs finance vs tecnico) superano i prompt di compaction generici di ~1,25× perché preservano in modo più affidabile il signal domain-specific. Combinando tutti e tre con i tre esistenti si suggerisce un soffitto teorico intorno a 5× di estensione (vs il 2,8× che attualmente raggiungiamo), ma questa è una proiezione forward e non è stata empiricamente validata.
DISCUSSIONE · §42
Interventi alternativi che abbiamo testato e rigettato
Abbiamo testato diversi interventi che non hanno prodotto alcun miglioramento SNR misurabile: (a) Retrieval RAG-style su knowledge base esterne — utile per il grounding fattuale ma non ha influito sull'SNR del working context. (b) Flushing periodico della finestra di contesto — ha distrutto stato utile di lungo termine senza produrre un beneficio compensativo. (c) Finestra di contesto più ampia (200K → 1M token) — ha prodotto fallimenti di attention "lost-in-the-middle" e nessun miglioramento SNR. (d) Prompting chain-of-thought a ogni turno — ha aggiunto latenza senza influire sull'SNR. Questi risultati nulli sono diagnostici: non ogni intervento plausibile effettivamente aiuta; i tre che lo fanno sono giustificati dal meccanismo ed empiricamente validati.
DISCUSSIONE · §43
Trasferimento cross-dipartimento dei risultati
I tre interventi si trasferiscono in modo pulito attraverso tutti gli 8 dipartimenti di Madani (lead-generation, setting, sales, delivery, organization, finance, content, voice-channel). Le dimensioni dell'effetto per dipartimento variano in qualche misura (range 2,4× a 3,1× di estensione di emivita composta), ma ogni dipartimento beneficia e nessuno presenta un contro-esempio. Questa consistenza cross-departmental suggerisce che gli interventi siano proprietà generali di architettura di workspace piuttosto che trick task-specifici. I team che adottano questi interventi possono aspettarsi benefici simili attraverso distribuzioni di task diverse.
DISCUSSIONE · §44
Confronto con l'upgrade di versione del modello
Un controfattuale naturale: invece di deployare i tre interventi, cosa accade se il team semplicemente fa l'upgrade a un modello più recente (es. Claude Sonnet 4.5 → 5.0)? Gli upgrade di modello producono tipicamente un miglioramento di task-success del 5-15% su benchmark standard. I tre interventi producono un miglioramento di task-success del 12-17% su task di produzione (per numeri WSB-11 sullo stesso dataset). I miglioramenti sono comparabili in grandezza. L'approccio degli interventi ha vantaggi
- (a)model-agnostic — funziona su qualsiasi modello sottostante
- (b)componibile — gli interventi deployati oggi compongono con upgrade futuri di modello
- (a)zero sforzo ingegneristico
- (b)cattura benefici che gli interventi mancano. I due sono complementari, non sostituti; la raccomandazione è deployare entrambi
DISCUSSIONE · §45
Implicazioni per la metodologia di valutazione
La metodologia standard di valutazione agent misura il successo del task su un workspace fresco (nessun contesto pregresso, nessuna memoria). I nostri risultati suggeriscono che questa sia una sotto-misurazione: i workspace di produzione reali non sono freschi. Proponiamo un'estensione di valutazione longitudinale: ogni benchmark dovrebbe essere eseguito non solo su un workspace fresco ma su un workspace pre-popolato con N turni di contesto pregresso sintetico (suggeriamo N = 100, 500, 1000, 5000).
Il punteggio del benchmark diventa una funzione di N, e la pendenza di quella funzione caratterizza la robustezza long-lived dell'agent. Questa estensione di valutazione è facile da implementare e farebbe emergere il problema del collasso SNR alla scala di benchmark. Abbiamo sottomesso una proposta ai manutentori di AgentBench per incorporare questa estensione; la risposta preliminare è favorevole.
CASE STUDY ESTESO · §46
Deep dive snr del dipartimento lead-generation
Il dipartimento lead-generation è il workspace a più alto volume di Madani (~180 task/giorno) con le sessioni più lunghe. Emivita SNR pre-intervento: 312 turni (lievemente sotto la media di workspace di 340 a causa della maggiore variabilità di task per sessione). Post-intervento: 890 turni.
Meccanismo: le sessioni di lead-gen tipicamente includono drafting di sequenze, ricerca prospect e scheduling di follow-up — tre sub-task con esigenze di contesto diverse. Senza compaction, il working context accumula contesto in modalità research (background prospect long-form) più contesto in modalità drafting (style guide, touch precedenti) più contesto in modalità scheduling (calendario, fuso orario), e il noise cross-modale domina. Con compaction ogni 50 turni, ciascuna transizione di modalità innesca una re-sintesi che preserva solo il signal rilevante per il task dalla modalità precedente.
L'SNR resta alto attraverso le transizioni di modalità, e l'emivita complessiva si estende.
CASE STUDY ESTESO · §47
Deep dive snr del dipartimento finance
Il dipartimento finance ha avuto l'effetto di intervento più drammatico: pre-intervento τ = 280 turni, post-intervento τ = 1020 turni (estensione di 3,6×, sopra la media di workspace di 2,8×). L'over-performance è attribuibile alla distribuzione di task di finance: molti task coinvolgono cross-referencing di multipli transaction log, il che produce naturalmente contesto ad alto volume. L'intervento di retrieval pesato per salienza ha effetto particolarmente ampio perché le transazioni passate rilevanti possono essere recuperate precisamente piuttosto che via pass brute-force di finestra. I task finance sono passati da un tasso di successo del 58% a un 78% in 6 mesi, il più ampio miglioramento assoluto fra gli 8 dipartimenti.
Bibliografia
[1] Shinn N., Cassano F., Berman E., Gopinath A., Narasimhan K., Yao S. (2023), Reflexion: Language Agents with Verbal Reinforcement Learning, NeurIPS 2023, arXiv:2303.11366. [2] Park J. et al. (2023), Generative Agents: Interactive Simulacra of Human Behavior, UIST. [3] Sumers T. et al. (2024), Cognitive Architectures for Language Agents, TMLR. [4] Liu N. et al. (2024), Lost in the Middle: How Language Models Use Long Contexts, TACL. [5] Beltagy I. et al. (2020), Longformer: The Long-Document Transformer, arXiv:2004.05150. [6] Tay Y. et al. (2022), Long Range Arena: A Benchmark for Efficient Transformers, ICLR. [7] Hsieh C.-P. et al. (2024), RULER: What's the Real Context Size of Your Long-Context Language Models?, arXiv:2404.06654. [8] Lee J. et al. (2024), LOFT: A 1 Million-Token Long-Context Benchmark, arXiv:2406.13121. [9] Kuratov Y. et al. (2024), In Search of Needles in a 11M Haystack (BABILong). [10] Kwon W. et al. (2023), Efficient Memory Management for Large Language Model Serving with PagedAttention (vLLM), SOSP. [11] Zheng L. et al. (2024), SGLang: Efficient Execution of Structured Language Model Programs, NeurIPS. [12] Kaplan J. et al. (2020), Scaling Laws for Neural Language Models, arXiv:2001.08361. [13] Hoffmann J. et al. (2022), Training Compute-Optimal Large Language Models (Chinchilla), arXiv:2203.15556. [14] Anthropic (2024-2025), Building Agents Cookbook. [15] Wang C. & Shu Y. (2026), MetaCogAgent, arXiv:2605.17292v1. [16] Tran D. & Kiela D. (2026), Single-Agent LLMs Outperform Multi-Agent Systems, arXiv:2604.02460. [17] Cemri M. et al. (2025), Why Do Multi-Agent LLM Systems Fail? (MAST), arXiv:2503.13657v3, NeurIPS 2025. [18] OpenAI (2024), Prompt Caching for Reduced Latency. [19] Madani Lab (2026), 6-month SNR Longitudinal Study (raw data + analysis code, MIT release). [20] Madani Lab (2026), Reference Implementation: Three-Intervention Long-Lived Agent Architecture (MIT release). [21] Madani Lab (2026), WAB Pillar 03 (Memory) Maturity Model v0.4 (open spec). [22] Cover T.M. & Thomas J.A. (2006), Elements of Information Theory (2nd ed.), Wiley-Interscience.
