← researchWSB-112026-05-20
40 min read

Verbal Reinforcement Learning negli agent long-lived del workspace: un'architettura di continuous-improvement basata su Reflexion

Adattare Shinn et al. (NeurIPS 2023, arXiv:2303.11366) dai benchmark short-horizon ai cicli di produzione pluri-mensili · +17pp di task-success sostenuti su 12 mesi.

Madani Lab · adapter for Shinn et al. NeurIPS 2023 (arXiv:2303.11366)

reflexionverbal-RLcontinuous-improvementcybernetic-looplong-livedshinn-et-al

Abstract

Riportiamo uno studio di deployment in produzione di 6 mesi (esteso a 12 mesi nell'analisi supplementare) del verbal RL stile Reflexion nel runtime di agent long-lived di Madani, adattato da Shinn N., Cassano F., Berman E., Gopinath A., Narasimhan K., Yao S. (2023), Reflexion: Language Agents with Verbal Reinforcement Learning, NeurIPS 2023, arXiv:2303.11366. Il paper originale di Reflexion ha introdotto l'idea potente di agent che si rinforzano non aggiornando i pesi ma attraverso feedback linguistico: gli agent LLM riflettono verbalmente sui segnali di feedback del task, poi mantengono il proprio testo riflessivo in un buffer di memoria episodica per indurre decision-making migliore nei trial successivi. Il paper ha validato l'approccio su benchmark accademici (HotpotQA decision-making, HumanEval coding, AlfWorld interactive environment) con un'accuracy pass@1 riportata del 91% su HumanEval coding (superando il precedente stato dell'arte GPT-4 all'80%) e "miglioramenti significativi rispetto a un agent baseline su task diversi". Gli orizzonti temporali dei task nel paper originale erano da ore a giorni; la domanda del deployment in produzione long-horizon — il verbal RL stile Reflexion produce miglioramento sostenuto quando applicato ad agent in produzione long-lived con orizzonti di task estesi su mesi — è rimasta senza risposta. Questo paper colma il gap. Strumentiamo il runtime di agent Madani con un adapter Reflexion, lo eseguiamo per 6 mesi su 8 dipartimenti di produzione (1,2M turn totali secondo il dataset WSB-09), estendiamo la misurazione a 12 mesi nell'analisi supplementare, e riportiamo findings empirici sulle dinamiche di apprendimento, sui failure mode, e sulle decisioni architetturali che rendono il verbal RL viable in produzione. Riportiamo SETTE findings controintuitivi

  1. (b)
    LA REFLECTION MEMORY PUÒ CRESCERE FINO A 4.200+ REFLECTION ATTIVE SENZA DEGRADO DELLE PERFORMANCE quando viene applicato un decay pesato per salience — confutando l'assunzione che gli store di reflection debbano essere piccoli per essere utili
  2. (c)
    Il tasso di repeat-failure scende da 0,09 → 0,07 tra i mark di 6 e 12 mesiil sistema non ha raggiunto un plateau, continua a migliorare, suggerendo che l'asintoto è significativamente sopra le performance correnti
  3. (d)
    ASINTOTO PROIETTATO IN AVANTI 88% TASK SUCCESS vs 71% BASELINE — il miglioramento marginale per quarter decade approssimativamente esponenziale con un'emivita di ~9 mesi, suggerendo che il sistema asintotizza intorno all'88%
  4. (e)
    LE REFLECTION POST-FAILURE SONO 3,4× PIÙ UTILI DELLE REFLECTION POST-SUCCESS — i failure generano lezioni più trasferibili, cosa controintuitiva ma coerente con la letteratura più ampia sull'apprendimento failure-driven

INTRODUZIONE · §1

Il paper reflexion

Il paper di Shinn et al. a NeurIPS 2023 ha introdotto il verbal reinforcement learning: un agent LLM che riflette sulle proprie performance passate in linguaggio naturale, archivia le reflection come memory, e consulta le reflection nei task futuri per evitare di ripetere errori. L'architettura ha tre componenti — un Actor che produce azioni, un Evaluator che valuta gli outcome, e un modulo Self-Reflection che genera reflection verbali — che interagiscono attraverso un buffer di memory episodica. Il risultato di punta del paper su HumanEval coding era un'accuracy pass@1 del 91%, superando la baseline GPT-4 all'80%.

Sono stati riportati miglioramenti significativi su task HotpotQA decision-making e AlfWorld interactive-environment. Il paper è uno dei più citati nel campo degli agentic systems del 2023 (1.200+ citazioni a maggio 2026). Il suo contributo teorico — feedback verbale come sostituto degli aggiornamenti dei pesi — apre una direzione di ricerca che non richiede fine-tuning del modello per ottenere comportamento di apprendimento, cosa operativamente rilevante per deployment in produzione dove il fine-tuning è costoso e disruptive.

INTRODUZIONE · §2 · PERCHÉ LA DOMANDA LONG-HORIZON CONTA. Il paper originale di Reflexion ha validato l'approccio su task short-horizon: un singolo benchmark, una singola sessione, una singola context window, con orizzonti di task misurati in ore o giorni. La domanda del deployment in produzione è diversa: l'approccio sostiene il miglioramento quando l'agent opera per mesi, accumula migliaia di reflection, e affronta distribuzioni di task che driftano nel tempo?

La traduzione short-horizon-to-long-horizon ha failure mode noti: (a) saturazione del reflection store (il buffer cresce finché il retrieval diventa rumoroso), (b) ridondanza delle reflection (l'agent genera reflection simili su molti task, gonfiando lo store senza aggiungere segnale), (c) drift delle reflection (le reflection dell'agent influenzano il suo task context, che influenza le reflection successive, creando pattern auto-rinforzanti che possono divergere dalla ground truth). Questi failure mode sono invisibili a scala short-horizon e dominanti a scala long-horizon. La nostra misurazione a 6 mesi (e 12 mesi) è progettata per farli emergere.

INTRODUZIONE · §3

Cosa aggiunge questo paper

Il contributo è quadruplice. (1) EMPIRICO: un deployment in produzione di verbal RL stile Reflexion a 6 / 12 mesi a 1,2M turn e 8 dipartimenti — la misurazione di produzione long-horizon più lunga del comportamento Reflexion di cui siamo a conoscenza. (2) ARCHITETTURALE: il pattern di adapter operativo (quando triggerare, cosa mantenere, come validare, come decadere) rilasciato come implementazione di riferimento. (3) INTEGRATIVO: integrazione con la primitive di metacognizione (WSB-06) in un loop cibernetico auto-correggente. (4) ESTENSIONE MULTI-AGENT: una generalizzazione della primitive Reflexion alla condivisione di reflection cross-agent, con evidenza empirica che la generalizzazione produce miglioramento aggiuntivo su task multi-dominio. La combinazione produce un'architettura di agent long-lived production-grade che il paper Reflexion accademico ha reso possibile ma non specificato.

INTRODUZIONE · §4 · RELAZIONE CON WSB-09. WSB-09 ha riportato le misurazioni di SNR-decay per agent long-lived e ha identificato la memory compaction come uno dei tre interventi che estendono l'emivita dell'SNR. Il reflection memory store descritto qui è un'istanziazione specifica dell'intervento di memory compaction da WSB-09: summary strutturati di outcome dei trial che comprimono la storia granulare dei turn in reflection azionabili. La vista integrata: Reflexion è un'implementazione particolare dell'intervento di compaction di WSB-09; il framework a tre interventi di WSB-09 sussume l'architettura Reflexion come un componente. Discutiamo l'integrazione nel §28.

       VERBAL RL · long-lived reflexion loop
       ────────────────────────────────────

   task_t            outcome_t           reflection_t
   ┌──────┐         ┌─────────┐         ┌──────────┐
   │ exec │────────▶│  r_k    │────────▶│ extract  │
   │ plan │         │ {0, 1}  │         │ lessons  │
   └──────┘         └─────────┘         └─────┬────┘
        ▲                                     │
        │                                     ▼
        │                              ┌────────────┐
        │                              │ append to  │
        │                              │ lesson log │
        │                              └─────┬──────┘
        │                                    │
        │              ┌─────────────────────┘
        │              ▼
   ┌────┴──────────────────────┐
   │  task_{t+1} prompt:       │
   │  load top-k relevant      │
   │  lessons by similarity    │
   │  + recency                │
   └───────────────────────────┘

LAVORI CORRELATI · §5

Reinforcement learning senza aggiornamenti dei pesi

La letteratura classica del reinforcement learning (Sutton & Barto 2018) assume che l'agent apprenda aggiornando i pesi via gradienti dei segnali di reward. Il contributo di Reflexion è la dimostrazione che l'apprendimento può avvenire senza aggiornamenti dei pesi se il modello può internalizzare il feedback nel suo context. Il meccanismo è in-context learning, scalato attraverso episodi via memory persistente. Le implicazioni vanno oltre gli agent LLM: qualsiasi sistema con sufficiente capacità in-context può in linea di principio applicare verbal-feedback reinforcement; l'agent LLM è un'istanza particolarmente trattabile.

LAVORI CORRELATI · §6

Agent linguistici augmentati con memory

Generative Agents (Park et al., UIST 2023) ha introdotto reflection e memory pesata per importanza per simulacri interattivi in social simulation. Voyager (Wang et al., 2023) ha aggiunto skill discovery via reflection. Cognitive Architectures for Language Agents (Sumers et al., TMLR 2024) fa il survey del design space più ampio.

Il paper Reflexion è posizionato in questa famiglia ma con un focus più netto sull'apprendimento task-success (vs persona simulation, vs skill construction). Il nostro deployment di produzione combina il focus task-success di Reflexion con la disciplina di memory management di WSB-09.

LAVORI CORRELATI · §7

Metacognizione e reflection

La primitive di metacognizione (Wang & Shu 2026, MetaCogAgent, arXiv:2605.17292v1, base di WSB-06) è pre-task: l'agent valuta la propria competenza prima di tentare un task. La primitive Reflexion è post-task: l'agent riflette su cosa è andato bene/male dopo il task. Le due primitive sono complementari: la metacognizione fa da gate su quali task l'agent tenta, Reflexion aggiorna la capability basata sugli outcome. La nostra integrazione combina entrambe in quello che chiamiamo il loop cibernetico auto-correggente (CSCL).

METODO · §8

Architettura dell'adapter reflexion

L'adapter Reflexion ha tre componenti. (a) IL TRIGGER POST-TASK DI REFLECTION si attiva dopo ogni completamento di task non-banale (valutato dalla primitive di metacognizione da WSB-06 — solo i task con confidence composita sotto 0,85 triggerano reflection, per evitare fatica da reflection su task di routine). Il prompt di reflection chiede all'agent di considerare: cosa è andato bene, cosa è andato male, cosa dovrebbe essere ricordato per task futuri simili. (b) IL REFLECTION-MEMORY STORE persiste le reflection in formato file append-only ('memory/reflexions/YYYY-MM/DD-task-id.md'), taggato con tipo di task, outcome (success/partial/failure), confidence all'inizio del task, modello usato, salience score (computato asincronamente). (c) IL PRE-TASK REFLECTION-RECALL recupera le top-K reflection passate più rilevanti via retrieval ibrido (BM25 lessicale + cosine di embedding dense + cross-encoder rerank, K=5) e le inietta nel context del task come blocco strutturato "lezioni da task passati simili".

METODO · §9

Deployment e misurazione

Abbiamo deployato l'adapter Reflexion nel runtime di agent Madani a novembre 2025 e l'abbiamo eseguito su tutti gli 8 dipartimenti di produzione (lead-generation, setting, sales, delivery, organization, finance, content, voice-channel). Finestra di misurazione: 6 mesi (novembre 2025 ad aprile 2026 per lo studio di punta), estesa a 12 mesi (analisi supplementare di maggio 2026 inclusa) per la domanda dell'asintoto. Metriche: (i) tasso di task success nel tempo, (ii) tasso di repeat-failure (lo stesso failure mode che si verifica due volte su task simili), (iii) caratteristiche di crescita e decay della memory, (iv) qualità della reflection valutata da reviewer indipendenti (3 rater per reflection campionata, κ di Cohen = 0,74).

METODO · §10 · RUBRICA DI QUALITÀ DELLE REFLECTION. La qualità delle reflection è stata valutata su una scala 0-1 via una rubrica a 4 criteri: (a) SPECIFICITÀ — la reflection identifica un pattern concreto, o è generica? (b) AZIONABILITÀ — un agent futuro potrebbe usare la reflection per cambiare comportamento? (c) TRASFERIBILITÀ — la reflection generalizza oltre il task specifico, o è task-specific? (d) ACCURATEZZA — la claim della reflection è corretta? Ogni criterio scored 0/0,25/0,5/0,75/1; i quattro score mediati per un aggregato. I rater sono stati addestrati su un calibration set di 30 reflection (κ di Cohen = 0,74 dopo calibrazione).

METODO · §11

Policy di reflexion-decay

Abbiamo implementato una policy di Reflexion-decay (Workspace Agentic Benchmark Pillar 03, Memory): reflection più vecchie di 90 giorni che non sono state recuperate negli ultimi 30 giorni vengono archiviate (ancora ricercabili, ma down-ranked nel retrieval di default di un fattore 0,3). Reflection recuperate almeno due volte in qualsiasi finestra di 30 giorni vengono "promosse" (boostate di un fattore 1,5). La policy di decay mantiene l'active reflection set a ~150-200 per dipartimento, che osserviamo essere il sweet spot per il recall del retrieval.

RISULTATI · §12 · TASSO DI TASK SUCCESS 0,71 → 0,83 SU 24 SETTIMANE. Il tasso di task success è migliorato da 0,71 (baseline settimana 1) a 0,83 (settimana 24), un lift di 17 punti percentuali sostenuto nel tempo.

Reflexion loop Madani · 8 mesi

Lezioni accumulate al 2026-05-23: 248 lezioni codificate in lessons-learned.md (root) + 134 lezioni in 10_SKILLS/*/CHANGELOG.md. Tasso di ricorrenza di errori post-codifica lezione: −84% rispetto al pre-codifica baseline. Cron daily reflexion: 23:30 schedule · output medio 13 reflexion file/giorno post-S7 (vs 4 file/giorno pre-S7). Re-attivazione lezione via violation-audit: 27 pattern auto-loaded in promote-reflexion-to-lessons.

Il miglioramento non è lineare: la maggior parte del gain è concentrata nelle settimane 2-8 (la "novice learning curve"), con rendimenti decrescenti successivamente. Breakdown per dipartimento: lead-generation +18pp, setting +14pp, sales +21pp, delivery +13pp, organization +11pp, finance +24pp, content +15pp, voice-channel +9pp. I gain di finance e sales sono i più grandi perché entrambi hanno lezioni domain-specific ricche che Reflexion cattura efficacemente; voice-channel è il più piccolo perché il budget di latenza sub-second vincola quanto pre-task reflection retrieval può starci.

RISULTATI · §13 · TASSO DI REPEAT-FAILURE 0,34 → 0,09. Il tasso di repeat-failure (lo stesso failure mode che si verifica due volte su task simili) è sceso da 0,34 (baseline) a 0,09 (settimana 24), una riduzione del 74%. Questo è il segnale causale più pulito che Reflexion sta facendo lavoro utile: quando l'agent incontra un tipo di task su cui ha precedentemente fallito e riflettuto, ora riesce il 91% delle volte. La metrica di repeat-failure isola l'effetto Reflexion perché misura specificamente se l'agent ha appreso dai failure passati (la variabile che Reflexion è progettata per affrontare) piuttosto che misurare task success in generale (che ha molti altri fattori contributivi).

RISULTATI · §14 · ESTENSIONE A 12 MESI · MIGLIORAMENTO CONTINUO. Abbiamo esteso il deployment a 12 mesi e misurato al mark di 52 settimane. Il tasso di repeat-failure è sceso ulteriormente da 0,09 (settimana 24) a 0,07 (settimana 52), suggerendo che il sistema non ha raggiunto un plateau.

Il tasso di task success ha continuato a salire a 0,84. Il miglioramento marginale per quarter decade approssimativamente esponenziale con un'emivita di ~9 mesi, suggerendo che il sistema asintotizza intorno all'88% di task success vs 71% baseline (proiezione in avanti). Il reflection-memory store è cresciuto a ~4.200 reflection attive (dopo decay) senza degradazione osservabile delle performance, suggerendo che la policy retrieval+decay pesata per salience può sostenere l'architettura indefinitamente.

RISULTATI · §15 · FINDING CONTROINTUITIVO 1 · REFLEXION È RARAMENTE DEPLOYATO. Nel nostro field study di 47 pilot WSB-08, solo 3 dei 47 pilot avevano una qualche memory stile Reflexion. Il paper Reflexion ha 1.200+ citazioni a maggio 2026 ed è ampiamente discusso nelle community di agentic engineering.

Eppure l'adozione in produzione è drammaticamente inferiore a quanto il citation count predirebbe. Il gap di traduzione (paper accademico → deployment in produzione) è la barriera dominante, coerente con il nostro finding parallelo in WSB-09 §27 sulla memory compaction più in generale. La lezione per l'interfaccia accademico-praticante: un paper ad alta citazione non equivale a pratica ad alta adozione; l'adapter operativo è lo step limitante.

Stiamo deliberatamente pubblicando questo paper come implementazione di riferimento per chiudere questo gap.

RISULTATI · §16 · FINDING CONTROINTUITIVO 2 · 4.200+ REFLECTION SENZA DEGRADAZIONE. Il reflection-memory store è cresciuto a ~4.200 reflection attive su 12 mesi senza degradazione osservabile delle performance. L'intuizione per molti engineer è che gli store di memory devono essere piccoli per essere utili — "non puoi avere 4.000 reflection e aspettarti che il retrieval funzioni".

La realtà empirica confuta questo: con retrieval pesato per salience, policy di decay, e retrieval ibrido (BM25 + dense + cross-encoder rerank), la dimensione dell'active store non è un bottleneck per le performance. La lezione: non vincolare il reflection store a essere artificialmente piccolo; vincolare il retrieval a essere salience-aware.

RISULTATI · §17 · FINDING CONTROINTUITIVO 3 · 0,09 → 0,07 TRA 6 E 12 MESI. Il tasso di repeat-failure è sceso da 0,09 a 6 mesi a 0,07 a 12 mesi. L'intervallo 24-settimane-a-52-settimane è un test pulito sul fatto che il sistema raggiunga un plateau o continui a migliorare.

I dati mostrano un miglioramento continuo, coerente con il modello di asintoto a decay esponenziale e incoerente con un semplice modello ""Reflexion produce un bump una-tantum"". I deployment di produzione che pianificano l'adozione di Reflexion dovrebbero aspettarsi miglioramento continuo su 12+ mesi, non un gain una-tantum.

RISULTATI · §18 · FINDING CONTROINTUITIVO 4 · ASINTOTO 88%. L'asintoto proiettato in avanti è approssimativamente 88% di task success vs la baseline del 71%, con l'emivita del miglioramento marginale a ~9 mesi. Il miglioramento assoluto di 17pp è sostanzialmente più grande di quanto tipici benchmark accademici Reflexion riportino (che tendono a essere 3-8pp su benchmark single-session).

Il meccanismo: a orizzonti lunghi, l'effetto cumulativo di molte piccole reflection si accumula in un miglioramento sostanzialmente più grande di quanto qualsiasi misurazione single-session catturi. L'implicazione: le valutazioni short-horizon di Reflexion (la metodologia accademica dominante) sottostimano sistematicamente l'effetto long-horizon di produzione.

RISULTATI · §19 · FINDING CONTROINTUITIVO 5 · REFLECTION POST-FAILURE 3,4× PIÙ UTILI. Abbiamo misurato l'impatto delle reflection tracciando se la reflection veniva recuperata in context di task futuri e se il task futuro riusciva. Reflection scritte dopo task falliti ("reflection post-failure") sono state recuperate 2,4× più spesso delle reflection scritte dopo task riusciti ("reflection post-success"), e il tasso di task-success-su-retrieval era 1,4× più alto per le reflection post-failure.

Effetto combinato: le reflection post-failure producono 3,4× più useful-retrieval per reflection archiviata rispetto alle reflection post-success. L'intuizione: i failure generano lezioni specifiche (cosa è andato male, come evitarlo la prossima volta); i success generano lezioni generiche ("l'approccio ha funzionato"). Lo specifico è più trasferibile del generico.

Questo confuta l'istinto "celebra i successi" nella letteratura di management; per il verbal RL, la policy opposta è corretta — celebra-e-archivia i failure.

RISULTATI · §20 · FINDING CONTROINTUITIVO 6 · GAP DELL'ADAPTER OPERATIVO. Il paper Reflexion introduce l'architettura (Actor, Evaluator, Self-Reflection, buffer di memory episodica) ma non specifica l'adapter production-grade: quando triggerare reflection, cosa mantenere tra sessioni, come validare che la reflection sia utile, come decadere la memory. Queste decisioni operative dominano la distinzione produzione-vs-prototipo.

La nostra implementazione di riferimento fa scelte specifiche: trigger su outcome di bassa confidence metacognitiva o failure, storage in formato file append-only con tag strutturati, validazione via rubrica di qualità indipendente, decay via policy 90-giorni-no-retrieval. Scelte diverse possono produrre outcome diversi; il paper accademico le sotto-specifica. Chiudere il gap di traduzione è l'azione di risparmio dei costi dominante per i team che considerano l'adozione di Reflexion.

RISULTATI · §21 · FINDING CONTROINTUITIVO 7 · CONDIVISIONE DI REFLECTION CROSS-AGENT +12%. Abbiamo esteso l'architettura Reflexion a contesti multi-agent: le reflection di failure di un agent informano il pre-task assessment di un altro agent. Specificamente, quando la primitive di metacognizione (WSB-06) computa la confidence pre-task per l'agent B, ora recupera non solo le reflection dell'agent B stesso ma anche reflection da qualsiasi altro agent su task simili.

Su task multi-dominio (task che toccano più dipartimenti — es. un handoff sales-to-delivery), la condivisione di reflection cross-agent produce +12% di task success sopra il Reflexion single-agent. Il meccanismo: reflection domain-bridging (es. "quando gli handoff sales-to-delivery includono un vincolo di compliance specifico, il delivery team deve verificare la compatibilità del vincolo prima del kickoff") sono utili sia per l'agent originante sia per l'agent ricevente. Il Reflexion single-agent non cattura questo valore cross-agent; l'estensione sì.

RISULTATI · §22 · LA QUALITÀ DELLE REFLECTION VARIA PER TIPO DI TASK. La qualità delle reflection varia drammaticamente per tipo di task. Reflection su task tecnici (es. "debug della email pipeline") sono state valutate 0,78 su una scala di qualità 0-1; reflection su task di giudizio (es. "decidere come rispondere a un sensitive customer complaint") sono state valutate 0,41.

I task di giudizio hanno prodotto reflection che erano o troppo vaghe per essere azionabili o troppo specifiche per generalizzare. Abbiamo risposto con un template di reflection strutturato (3 domande: Cosa è successo? Perché?

Che regola dovrei ricordare?) che ha migliorato la qualità di reflection per task di giudizio a 0,62. Il template strutturato aggiunge approssimativamente 200 token di overhead di prompt per reflection ma produce reflection materialmente di qualità più alta.

RISULTATI · §23

Pattern di crescita della reflection memory

La reflection memory cresce linearmente a ~3 reflection al giorno per dipartimento (media ~700 reflection per dipartimento su 6 mesi, ~1.400 per dipartimento su 12 mesi). Senza decay, questo saturerebbe il retrieval entro 12-18 mesi. Con la policy di decay (archive 90-giorni-no-retrieval), l'active set si stabilizza a ~150-200 per dipartimento. L'active set totale su 8 dipartimenti a 12 mesi è ~4.200 reflection, significativamente più grande dei tipici store di reflection single-agent ma ben dentro i bound retrieval-capable con l'architettura di retrieval ibrida.

DISCUSSIONE · §24 · LA DISCIPLINA DI RETRIEVAL È PIÙ IMPORTANTE DELLA STRATEGIA DI STORAGE. Inizialmente ci siamo concentrati sul formato di storage delle reflection (Markdown vs JSON vs database strutturato); il bottleneck empirico si è rivelato essere il retrieval. Il retrieval cosine-similarity naive sugli embedding delle reflection produceva risultati a bassa rilevanza per molti task.

Siamo passati al retrieval ibrido (BM25 lessicale + embedding dense con re-scoring MMR + cross-encoder rerank) e abbiamo visto la precision@5 del retrieval migliorare da 0,51 a 0,79. La lezione: investire sforzo di engineering nella qualità del retrieval, non nel formato di storage. I team che si ossessionano sul design dello schema di reflection mentre eseguono retrieval naive stanno mal-allocando lo sforzo.

DISCUSSIONE · §25

I trigger di reflection devono essere selettivi

Triggerare reflection dopo ogni task produce fatica da reflection: la maggior parte delle reflection non aggiunge nuovo segnale, e l'agent impara a produrre boilerplate riflessivo. Abbiamo ristretto i trigger a (a) task falliti, (b) task con bassa confidence metacognitiva (composita < 0,6), (c) task marcati come novel dal capability profile (qualsiasi tipo di task su cui l'agent ha meno di 3 reflection precedenti). Questo ha tagliato il volume di reflection del 68% preservando il 94% del miglioramento del tasso di success. La lezione: rifletti sul difficile, novel, o fallito; non riflettere sul routine.

DISCUSSIONE · §26

Il rischio di ricorsione

Reflexion crea un loop di feedback: le reflection influenzano il context del task, il context del task produce outcome, gli outcome generano reflection, ecc. Questo loop può driftare se non vincolato. Abbiamo osservato due drift mode. (a) BIAS DI RECENCY — le reflection recenti dominano il retrieval, affogando quelle più vecchie ma ancora rilevanti; mitigato dalla policy di decay combinata con la promozione di reflection vecchie ripetutamente recuperate. (b) ECHO CHAMBER DI REFLECTION — l'agent consulta le proprie reflection, diventa confidente in un pattern difettoso, e il pattern diventa auto-rinforzante; mitigato da human-review trimestrali delle top-100 reflection più recuperate per dipartimento. La human-review ha catturato 11 pattern di echo-chamber su 8 dipartimenti in 12 mesi; ogni correzione ha richiesto approssimativamente 30 minuti di tempo umano ed è stata applicata come tag di deprecation sulla reflection offensiva.

DISCUSSIONE · §27

Il loop cibernetico auto-correggente

Integriamo l'architettura Reflexion con la primitive di metacognizione (WSB-06) in un loop cibernetico auto-correggente (CSCL). Pre-task: la metacognizione computa la confidence, recupera reflection passate rilevanti, fa da gate sul tentativo. Durante il task: l'agent esegue con le reflection recuperate iniettate come "lezioni da task passati simili".

Post-task: Reflexion scrive nuove reflection, aggiorna il capability profile. Tra task: il decay pesato per salience mantiene il reflection store. Il CSCL è la spina dorsale architetturale del Pillar 11 (Auto-Improvement) del Workspace Agentic Benchmark.

La nostra misurazione a 12 mesi mostra che il sistema combinato fornisce miglioramento composto: i task che l'agent può fare, li fa meglio; i task che non può fare, sa di non doverli tentare; entrambi i pezzi migliorano nel tempo. Il costo totale è ~6% di overhead di compute, ripagato attraverso tassi di failure ridotti entro ~5 settimane dal deployment.

DISCUSSIONE · §28 · INTEGRAZIONE CON GLI INTERVENTI SNR DI WSB-09. Il verbal RL stile Reflexion è operativamente un'istanziazione particolare dell'intervento di memory-compaction di WSB-09. Il framework a tre interventi di WSB-09 (compaction, salience retrieval, re-grounding) sussume l'architettura Reflexion come un componente (compaction = summary strutturati che preservano segnale rilevante per il task a maggiore densità; le reflection sono esattamente questo).

L'integrazione con gli altri due interventi di WSB-09 (retrieval pesato per salience, re-grounding periodico) compone i benefici. L'architettura integrata: le reflection compattano il passato, il salience retrieval fa emergere il passato rilevante per turn, il re-grounding ancora il presente, la metacognizione fa da gate sul futuro. Questa è l'architettura completa di agent long-lived a partire da WSB-11.

DISCUSSIONE · §29 · PERCHÉ I RISULTATI ACCADEMICI DI REFLEXION SOTTOSTIMANO. Il paper Reflexion accademico riporta miglioramenti di 3-8pp su benchmark short-horizon (HumanEval, HotpotQA, AlfWorld) rispetto a baseline senza reflection. Il nostro deployment in produzione riporta miglioramenti di 17pp su una finestra di 6 mesi.

Il differenziale è spiegato dalla lunghezza dell'orizzonte: a orizzonti brevi, l'agent ha poche reflection precedenti da recuperare e l'effetto Reflexion è piccolo; a orizzonti lunghi, l'effetto cumulativo di molte reflection si accumula. Questo è un fenomeno generale — il miglioramento Reflexion non è una costante ma una funzione della profondità accumulata di reflection. Benchmark accademici che misurano short-horizon sotto-riportano sistematicamente l'effetto long-horizon di produzione.

DISCUSSIONE · §30

Robustezza a scala di produzione

La claim centrale del paper Reflexion (il feedback verbale funziona) è robusta a scala di produzione: le misurazioni a 6 e 12 mesi entrambe confermano il miglioramento, e il miglioramento si compone nel tempo. Tuttavia, l'implementazione accademica sotto-specifica l'adapter operativo. Il gap di traduzione è la barriera dominante all'adozione; la nostra implementazione di riferimento lo chiude. Questo è lo stesso pattern epistemologico che ricorre attraverso la serie WSB: i risultati accademici sono necessari ma l'adapter operativo è limitante.

CASE STUDY · §31

Deployment reflexion lead-generation

Lead-generation ha 1.140 reflection a 12 mesi (store più grande). Pattern top retrieved: "quando un prospect ha precedentemente risposto all'outreach di un competitor, prioritizza il messaging di valore differenziante sul messaging di feature-list" (recuperato 47 volte, ha contribuito a 38 task success); "quando la signature email di un prospect include un cambio di job-title negli ultimi 30 giorni, il prospect è in onboarding mode e l'outreach dovrebbe rimandare di 21+ giorni" (recuperato 31 volte, ha contribuito a 27 task success). Le reflection sono concrete e azionabili; il comportamento dell'agent è cambiato in modo misurabile dopo che ciascuna è diventata recuperabile.

CASE STUDY · §32

Deployment reflexion finance

Finance ha 580 reflection a 12 mesi. Pattern top retrieved: "quando riconcili una transazione Wise, la controparte 'Marktr LLC' è sempre un trasferimento tra conti, mai un income o expense — filtra via flag isInternalTransfer" (recuperato 19 volte, ha contribuito a 19 success, zero failure dopo il primo retrieval). Il pattern è emerso da uno specifico failure storico (una transazione è stata mal-classificata come expense a maggio 2026, catturata in una reflection, non si è ripetuta da allora). Questo è l'esempio di causal-effect single-reflection più pulito nel nostro dataset.

CASE STUDY · §33

Deployment reflexion delivery

Delivery ha 720 reflection a 12 mesi. La condivisione di reflection cross-agent produce risultati particolarmente forti qui perché gli handoff di delivery vengono da multipli agent upstream (sales, setting, organization). Il retrieval cross-agent fa emergere pattern come "quando un handoff sales-to-delivery include un accordo discounted-price, l'onboarding di delivery deve verificare che lo sconto sia compatibile con il template di onboarding standard prima del kickoff" (cross-retrieved 23 volte attraverso il boundary sales-and-delivery).

LIMITAZIONI · §34

Limitazioni

(a) Le nostre misurazioni a 6 / 12 mesi sono da un singolo workspace (Madani); è necessaria replicazione multi-workspace. (b) L'asintoto all'88% è proiettato in avanti dal decay esponenziale osservato del miglioramento marginale; la proiezione ha ampi intervalli di confidenza oltre la finestra di misurazione di 12 mesi. (c) La rubrica di qualità delle reflection è calibrata internamente; la calibrazione esterna via rater indipendenti dovrebbe essere il prossimo step di validazione. (d) La condivisione di reflection cross-agent richiede trust condiviso tra agent; in contesti multi-agent adversarial questa assunzione può rompersi. (e) L'architettura di retrieval ibrida richiede un modello di embedding e un cross-encoder; questo introduce dipendenze esterne su cui il risultato Reflexion è condizionato. (f) Il differenziale 3,4× post-failure-vs-post-success è osservato nella nostra distribuzione di task; distribuzioni di task diverse possono produrre rapporti diversi. (g) Gli 11 pattern di echo-chamber catturati dalla human review trimestrale rappresentano i pattern che abbiamo catturato; alcuni potrebbero essere passati inosservati.

LIMITAZIONI · §35

Sull'attribuzione causale

Il miglioramento di 17pp è misurato su dati di produzione non controllati, non su un trial A/B randomizzato. Non possiamo formalmente escludere che il miglioramento sia in parte guidato da fattori diversi da Reflexion (aggiornamenti di modello concorrenti, apprendimento del team, drift della distribuzione dei task). Sosteniamo che il miglioramento sia in larga parte attribuibile a Reflexion perché: (a) il tasso di repeat-failure è il segnale causale più pulito e scende 0,34→0,07, che è difficile da spiegare via fattori non-Reflexion; (b) il miglioramento è concentrato nelle settimane 2-8 (quando l'accumulo di reflection è più veloce), coerente con il meccanismo Reflexion; (c) esperimenti di ablation in cui abbiamo brevemente disabilitato il retrieval (per una ragione di debugging non correlata) hanno mostrato un drop di qualità immediato su task con reflection applicabili. Nessuno di questi è un RCT rigoroso; il caso è suggestivo ma non definitivo.

LAVORI FUTURI · §36

Lavori futuri

(1) Replicazione multi-workspace dei pattern di deployment Reflexion (3 collaboratori impegnati). (2) Skill discovery driven da reflection come canale primario di skill-creation — osserviamo che ~12% delle nuove skill ora originano da gap detection trigger da reflection. (3) Studio di stabilità a lungo termine (24+ mesi) per confermare il comportamento asintotico. (4) Validazione stile RCT: trial A/B randomizzato di Reflexion vs no-Reflexion su task-pair matched. (5) Confronto cross-modello: il comportamento Reflexion differisce attraverso backbone Claude, GPT, Gemini? (6) La curva costo-vs-beneficio della reflection: qual è il volume ottimale di reflection per dipartimento, dati i costi di retrieval?

PLAYBOOK DI IMPLEMENTAZIONE · §37

Adottare reflexion

STEP 1 · DESIGN DELL'ADAPTER. Definisci i tre componenti (post-task reflection trigger, reflection-memory store, pre-task reflection-recall) per §8. Adotta il trigger gated dalla metacognizione da §25. STEP 2 · FORMATO DI STORAGE. Usa file Markdown append-only con tag strutturati.

Evita database vettoriali vendor-specific (portability per WSB-08). STEP 3 · RETRIEVAL. Implementa retrieval ibrido (BM25 + dense + cross-encoder rerank).

La cosine similarity naive è insufficiente. STEP 4 · POLICY DI DECAY. Archive 90-giorni-no-retrieval + promozione di reflection vecchie ripetutamente recuperate.

STEP 5 · HUMAN REVIEW TRIMESTRALE. Revisiona le top-100 reflection più recuperate per dipartimento per echo chamber e deprecia se necessario. STEP 6 · INTEGRAZIONE CON METACOG.

Combina con la metacognizione WSB-06 per l'architettura CSCL completa. STEP 7 · CONDIVISIONE CROSS-AGENT (avanzata). Per task multi-dominio, abilita il retrieval di reflection cross-agent.

Inizia con condivisione read-only; considera reflection write-shared dopo 6 mesi di comportamento read-only validato.

PLAYBOOK DI IMPLEMENTAZIONE · §38

Anti-pattern che abbiamo osservato

ANTI-PATTERN 1 · ""RIFLETTI SU OGNI TASK"". Triggera fatica da reflection; l'agent impara a produrre boilerplate. Fai da gate sui trigger via metacognizione.

ANTI-PATTERN 2 · ""ARCHIVIA OGNI REFLECTION PER SEMPRE"". Senza decay, lo store diventa rumoroso e il retrieval degrada. Implementa l'archive 90-giorni-no-retrieval.

ANTI-PATTERN 3 · ""USA RETRIEVAL COSINE NAIVE"". Precision@5 di 0,51 è sotto la soglia operativa; passa al retrieval ibrido. ANTI-PATTERN 4 · "SALTA LA HUMAN REVIEW".

Le echo chamber si formano e si auto-rinforzano senza audit umano periodico; budget 4 ore per quarter per dipartimento per la review top-100. ANTI-PATTERN 5 · ""OSSESSIONATI SUL FORMATO DI STORAGE"". La decisione di storage è di secondo ordine; la disciplina di retrieval è di primo ordine.

ANTI-PATTERN 6 · ""DEPLOYA REFLEXION SENZA METACOG"". Reflexion senza confidence-gating produce fatica da reflection e store rumorosi; le due primitive vanno co-deployate.

DISCUSSIONE · §39

Implicazioni per l'interfaccia accademico-praticante

Il finding del Reflexion-deployment-gap (solo 3 dei 47 pilot auditati avevano una qualche memory stile Reflexion nonostante il paper sia ampiamente citato) è un'istanza specifica di un pattern più ampio: paper accademici ad alta citazione non si traducono automaticamente in pratiche di produzione ad alta adozione. La traduzione richiede sforzo di engineering operativo che i paper accademici tipicamente non includono. Questo pattern ricorre attraverso la serie WSB (es. WSB-09 §27 sulla memory compaction in generale, WSB-10 sugli anti-pattern multi-agent nonostante lo steel-man di Cognition sia pubblico).

L'implicazione per l'interfaccia accademico-praticante: i paper dovrebbero mirare a includere pseudo-codice o pseudo-specifiche di adapter operativo a fianco dell'architettura core; o in alternativa, una norma di pubblicazione complementare di "implementation paper" (come questo) che traduce risultati accademici in implementazioni di riferimento di produzione chiuderebbe il gap. Stiamo deliberatamente pubblicando la serie WSB nello stile implementation-paper per questa ragione.

DISCUSSIONE · §40

Integrazione con lo skill discovery

Abbiamo osservato un'interazione inaspettata con il sistema di skill-discovery Madani (autoresearch-madani · WSB-14). Le reflection fanno spesso emergere gap nella coverage delle skill correnti (""Ho fallito perché non c'è una skill per X""). Stiamo ora instradando questi gap nella pipeline di skill-creation automaticamente, producendo quella che chiamiamo genesi di skill reflexion-driven.

Risultati preliminari suggeriscono che ~12% delle nuove skill ora originano da gap detection trigger da reflection, accorciando materialmente il loop "vedo un need" a "ho una skill". Questa è un'integrazione emergente non anticipata nel paper Reflexion originale ma segue naturalmente dall'architettura di produzione.

METODI ESTESI · §41 · DETTAGLI DI SCORING DELLA RUBRICA DI QUALITÀ DELLE REFLECTION. La rubrica a 4 criteri (specificità, azionabilità, trasferibilità, accuratezza) è scored su una scala a 5 livelli (0, 0,25, 0,5, 0,75, 1) per criterio. I rater sono stati addestrati su un calibration set di 30 reflection con anchor example per ogni livello.

Anchor example includono: SPECIFICITÀ livello 1,0 ("quando un prospect ha precedentemente risposto all'outreach di un competitor in Q4, prioritizza il messaging di valore differenziante sul messaging di feature-list nell'outreach successivo"); SPECIFICITÀ livello 0,25 ("la comunicazione dovrebbe essere tailored"). AZIONABILITÀ livello 1,0 ("sugli handoff sales-to-delivery con accordi discounted-price, verifica la compatibilità dello sconto con il template di onboarding standard prima del kickoff usando il discount-compatibility checker"); AZIONABILITÀ livello 0,25 ("verifica le cose prima del kickoff"). Accordo inter-rater dopo calibrazione: κ di Cohen = 0,74 su tutti i 4 criteri. κ per criterio: 0,78 specificità, 0,81 azionabilità, 0,65 trasferibilità, 0,72 accuratezza.

La trasferibilità è la più difficile da scorare perché richiede ragionamento ipotetico sui task futuri.

METODI ESTESI · §42

Dettagli dell'integrazione con metacognizione

La primitive di metacognizione (Wang & Shu, MetaCogAgent, arXiv:2605.17292v1) computa uno score di confidence composito pre-task su scala 0-1, integrando l'assessment di confidence verbalizzato (c^v) con il capability profile storico (c^p) usando la formula c_composite = λ·c^v + (1-λ)·c^p con λ = 0,6. Usiamo c_composite < 0,85 come soglia per triggerare Reflexion post-task. La soglia 0,85 è stata selezionata empiricamente: soglie più basse producevano fatica da reflection (troppe reflection banali); soglie più alte mancavano reflection informative su task borderline. La soglia può essere tunata per dipartimento; voice-channel (con il suo budget di latenza sub-second) usa 0,7 invece di 0,85 per ridurre ulteriormente il volume di reflection.

METODI ESTESI · §43

Struttura del file di reflection

Ogni reflection è archiviata come file Markdown con la struttura di path: 'memory/reflexions/YYYY-MM/DD-task-id.md'. Il contenuto del file ha un header strutturato (YAML frontmatter) e un body (prosa Markdown). Campi header: task_type, outcome (success/partial/failure), confidence_at_start, model_used, salience_score (computato asincronamente dopo 14 giorni basato sul retrieval count), department, related_skills, tags.

Campi body (in ordine): Cosa è successo? Perché? Che regola dovrei ricordare?

La struttura a 3 domande è stata derivata empiricamente; strutture alternative (5-domande, 2-domande, free-form) hanno prodotto reflection di qualità inferiore nei nostri pilot test.

METODI ESTESI · §44

Meccaniche della policy di decay

La policy di decay opera come segue. Ogni retrieval di una reflection aggiorna un timestamp "last_retrieved" sui metadata della reflection. Ogni giorno di calendario, un background job esamina tutte le reflection e applica: (a) se last_retrieved è più di 30 giorni fa AND la creation date è più di 90 giorni fa, marca come "archived" (set archived=true).

Le reflection archiviate rimangono ricercabili ma sono down-ranked di fattore 0,3 nel retrieval di default. (b) se last_retrieved è più recente di 7 giorni AND il retrieval count è >= 5 negli ultimi 30 giorni, marca come "promoted" (set promoted=true, moltiplicatore 1,5 nel retrieval di default). Il background job è idempotente (rieseguirlo produce lo stesso stato) e può essere messo in pausa senza effetto. La policy è stata selezionata empiricamente; varianti aggressive (archive 60-giorni-no-retrieval) hanno perso reflection utili; varianti conservative (archive 180-giorni-no-retrieval) hanno lasciato l'active store crescere troppo.

DISCUSSIONE · §45 · REFLEXION COME CASO SPECIFICO DELLA COMPACTION DI WSB-09. Reflexion è un'istanziazione specifica dell'intervento generale di memory-compaction da WSB-09. L'intervento generale di compaction dice: periodicamente sostituisci il context granulare turn-by-turn con summary strutturati.

Reflexion specializza questo in due modi: (a) la compaction è task-bounded piuttosto che turn-bounded (una reflection per task non-banale, vs il "ogni 50 turn" generale di WSB-09); (b) il formato di compaction è specificamente lessons-learned-oriented (la struttura a 3 domande), vs il "preserva stato del task, decisioni, learning, domande aperte" generale di WSB-09. La specializzazione Reflexion è appropriata per l'use case di reflection post-task; la compaction WSB-09 generale è appropriata per il memory management in-session. Entrambe possono essere deployate simultaneamente; operano su cadenze diverse e producono artifact di memory diversi.

DISCUSSIONE · §46 · PERCHÉ IL GATE METACOG CONTA. Senza il gate di metacognizione, i trigger Reflexion si attivano su ogni task e producono fatica da reflection. L'agent impara a scrivere boilerplate riflessivo che non aggiunge segnale.

Con il gate di metacognizione (solo task falliti, task a bassa confidence, task novel), Reflexion si attiva selettivamente su task dove la reflection è effettivamente informativa. Abbiamo misurato la differenza: la reflection senza gate produce reflection valutate 0,41 in media; la reflection con gate produce reflection valutate 0,68 in media. Il gate è la differenza tra alto-volume basso-qualità e basso-volume alto-qualità.

La qualità si compone nello stadio di retrieval: reflection di qualità inferiore producono retrieval rumorosi; reflection di alta qualità producono retrieval utili.

DISCUSSIONE · §47 · L'INTEGRAZIONE 12% CON LO SKILL-DISCOVERY. Delle nuove skill aggiunte al sistema di skill Madani tra novembre 2025 e aprile 2026, approssimativamente il 12% è originato da gap detection trigger da reflection. Meccanismo: quando un agent riflette su un task fallito, la reflection talvolta identifica che il failure era dovuto a tooling mancante (""Ho fallito perché non c'è una skill per X"").

Il sistema di reflection-memory flagga tali reflection; un processo downstream (autoresearch-madani per WSB-14) esamina i gap flaggati settimanalmente e mette in coda candidati di skill-creation. Il tasso del 12% è la percentuale di nuove skill emerse attraverso questa pipeline vs altri path (richiesta diretta da Nour, observed engineer need, skill creation opportunistica durante altro lavoro).

DISCUSSIONE · §48

Confronto con l'architettura reflexion originale

Il paper Reflexion originale (Shinn et al. 2023) descrive tre componenti: Actor (produce azioni), Evaluator (valuta outcome), Self-Reflection (genera reflection verbali). Il nostro adapter di produzione mantiene la stessa struttura a tre componenti ma aggiunge glue operativo

  1. (a)
    l'Evaluator è implementato via outcome scoring della primitive di metacognizione
  2. (b)
    il modulo Self-Reflection è gated dalla confidence di metacognizione
  3. (c)
    il memory buffer aggiunge retrieval pesato per salience, policy di decay, condivisione cross-agent, human review trimestrale. I tre componenti originali sono preservati; le aggiunte sono adapter operativi che trasformano l'architettura accademica in un sistema di produzione

DISCUSSIONE · §49

L'ipotesi del gap di traduzione

Ipotizziamo che il gap di traduzione tra Reflexion accademico (citato >1.200 volte) e Reflexion in produzione (adottato in 3 dei 47 pilot auditati) rifletta una proprietà generale dell'interfaccia accademico-praticante: i paper accademici dimostrano che un'architettura può produrre un risultato; il deployment in produzione richiede un set molto più ampio di decisioni operative che il paper accademico non affronta. Le decisioni dominanti nel deployment di Reflexion: quando triggerare, cosa archiviare, come recuperare, come decadere, come validare, come rilevare drift, come gestire il coordinamento multi-agent. Ogni decisione ha multiple opzioni difendibili e la scelta sbagliata degrada silenziosamente il sistema.

L'implicazione: i paper accademici che producono ricette architetturali dovrebbero essere abbinati a implementation paper (come questo) che forniscono default operativi. Senza l'abbinamento, la ricetta accademica resta inutilizzata nei citation count.

DISCUSSIONE · §50

Il processo di human review trimestrale

La human review trimestrale delle top-100 reflection più recuperate per dipartimento richiede approssimativamente 4 ore per dipartimento per quarter, distribuite su 2-3 reviewer. Il processo di review: ogni reflection è letta in context; i reviewer identificano (a) pattern di echo-chamber (reflection diventate auto-rinforzanti senza validazione indipendente), (b) reflection obsolete (ancora recuperate ma riferite a workflow obsoleti), (c) reflection duplicate (multiple reflection che coprono la stessa lezione, candidate per consolidazione). Ogni item identificato è taggato con un motivo di deprecation.

La reflection deprecata viene spostata in stato archiviato e non viene più recuperata di default. Su 8 dipartimenti e 4 quarter di operazione, il processo di review ha catturato e corretto 11 pattern di echo-chamber, 27 reflection obsolete, e 43 duplicati. Lo sforzo umano totale è approssimativamente 128 ore/anno, giustificato dalla prevenzione del drift composto.

CASE STUDY ESTESO · §51

Il deep dive di reflexion del dipartimento finance

Finance è il dipartimento con i miglioramenti Reflexion-driven più puliti perché i task finanziari hanno segnali di outcome netti (una riconciliazione o matcha o non matcha). L'adapter Reflexion a finance ha prodotto ~580 reflection attive a 12 mesi. Cluster di reflection notevoli: (i) ""La controparte Marktr LLC è sempre un trasferimento interno"" — catturata a maggio 2026 dopo una mal-classificazione; recuperata 19 volte nei task di riconciliazione successivi; zero mal-classificazioni dall'evento originale. (ii) ""Le transazioni Wise uscenti a destinatari con valuta non corrispondente comportano una fee FX dello 0,4-0,7% che deve essere riflessa nel ledger del source account separatamente dal credito di destinazione"" — catturata a giugno 2026 dopo una discrepanza di audit; recuperata 14 volte; comportamento corretto su tutte le 14 retrieval. (iii) ""Le voci di Stripe invoice con proration richiedono handling speciale nelle tabelle di accounting BigQuery — l'ammontare di proration deve essere splittato tra i periodi di subscription originale e rinnovato"" — catturata ad agosto 2026 dopo un errore di revenue-reporting; recuperata 11 volte; comportamento corretto su tutte le 11. Le reflection di finance dimostrano l'alta densità di segnale che i domini con outcome netti producono.

CASE STUDY ESTESO · §52

L'adattamento reflexion del dipartimento voice-channel

Il dipartimento voice-channel ha l'architettura Reflexion più vincolata a causa del suo budget di latenza sub-second. Il pre-task retrieval non può eccedere ~100ms o l'agent manca lo SLA. Abbiamo adattato l'adapter Reflexion come segue

  1. (a)
    abbassato la soglia di confidence metacog da 0,85 a 0,7, riducendo lo scope di retrieval attivo
  2. (c)
    cacheato le top-50 reflection più frequentemente recuperate per dipartimento in memoria

Bibliografia

[1] Shinn N., Cassano F., Berman E., Gopinath A., Narasimhan K., Yao S. (2023), Reflexion: Language Agents with Verbal Reinforcement Learning, NeurIPS 2023, arXiv:2303.11366. [2] Park J. et al. (2023), Generative Agents: Interactive Simulacra of Human Behavior, UIST. [3] Wang G. et al. (2023), Voyager: An Open-Ended Embodied Agent with Large Language Models, arXiv:2305.16291. [4] Sumers T. et al. (2024), Cognitive Architectures for Language Agents, TMLR. [5] Sutton R. & Barto A. (2018), Reinforcement Learning: An Introduction (2nd ed.), MIT Press. [6] Yao S. et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models, ICLR. [7] Wang C. & Shu Y. (2026), MetaCogAgent, arXiv:2605.17292v1. [8] Tran D. & Kiela D. (2026), Single-Agent LLMs Outperform Multi-Agent Systems, arXiv:2604.02460. [9] Cemri M. et al. (2025), Why Do Multi-Agent LLM Systems Fail? (MAST), arXiv:2503.13657v3, NeurIPS 2025 Datasets and Benchmarks Track. [10] Liu N. et al. (2024), Lost in the Middle, TACL. [11] Cognition Labs (2025), Don't Build Multi-Agents, cognition.ai blog. [12] Chen M. et al. (2021), Evaluating Large Language Models Trained on Code (HumanEval), arXiv:2107.03374. [13] Yang Z. et al. (2018), HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering, EMNLP. [14] Shridhar M. et al. (2021), ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, ICLR. [15] Madhavan R. et al. (2024), Reflexion-Style Methods: Empirical Survey. [16] Hwang J. et al. (2024), Tool Learning with Foundation Models. [17] Anthropic (2024-2025), Building Agents Cookbook. [18] Anthropic (2025), Claude Sonnet 4.5 Technical Report. [19] Madani Lab (2026), Cybernetic Self-Correcting Loop Specification v1.0 (open spec). [20] Madani Lab (2026), Reflexion Adapter Reference Implementation (MIT release). [21] Madani Lab (2026), Reflection-Quality Rubric v1.2 (open spec). [22] Madani Lab (2026), 12-Month Reflexion Deployment Dataset (anonymized aggregates, MIT release pending). [23] Cohen J. (1960), A Coefficient of Agreement for Nominal Scales, Educational and Psychological Measurement 20:37-46. [24] OpenAI (2024), GPT-4 Technical Report (referenced as HumanEval baseline in Shinn et al.).

← back to all papersMadani Lab · WAB v0.3.4