Abstract
Adattiamo il design pattern autoresearch introdotto da Andrej Karpathy (2024, riflessione su blog personale) in una skill durevole per workspace di produzione (autoresearch-madani), riportiamo 6 mesi di deployment su 47 progetti di ricerca strategica, e portiamo in superficie SETTE finding controintuitivi sul composite scoring, sulle cadenze di sleep adattive, e sui failure mode che distinguono la "ricerca autonoma utile" dai "token sprecati in wandering senza meta". Il framing originale di Karpathy era concettualmente elegante — un LLM agent che propone domande, esegue ricerche, valuta i propri progressi lungo più assi, e adatta la propria cadenza — ma UNDERSPECIFIED rispetto all'adattatore operativo che rende il design deployabile in produzione: quando dormire, come scorare, cosa conservare, come terminare, come budgetare. L'adattatore Madani colma queste lacune con decisioni validate empiricamente. Riportiamo SETTE finding controintuitivi
- (a)IL DESIGN DI KARPATHY È ELEGANTE MA UNDERSPECIFIED RISPETTO ALL'ADATTATORE OPERATIVO — il framing personal-tool assumeva un singolo curatore umano; la produzione richiede decisioni esplicite che Karpathy gestiva implicitamente
- (b)Il composite a 4 assi rivela la novelty come asse portanteclaim density × source diversity × topic coverage × novelty; la maggior parte dei loop di ricerca fallisce ri-esplorando terreno già coperto; la novelty lo intercetta ed è il segnale dominante
- (c)LA SOURCE DIVERSITY HA RENDIMENTI DECRESCENTI OLTRE ~12 SOURCE DISTINTE — un sourcing più ampio produce rumore anziché insight; flesso misurato empiricamente
- (e)I loop autoresearch senza un kill criterion girano indefinitamente su domande difficiliil composite può rimanere in plateau appena sotto la soglia di completion per migliaia di iterazioni, bruciando $50+/giorno; abbiamo aggiunto un kill criterion esplicito
INTRODUZIONE · §1
Autoresearch di karpathy come prototipo
La riflessione del 2024 di Karpathy sul blog personale descriveva un pattern attraente: un LLM agent che opera come research assistant, propone domande, esegue ricerche, scora i propri progressi, adatta il proprio passo. La riflessione era sperimentale — uno schizzo personal-tool più che production-ready. Il pattern ha risuonato perché bundlava proprietà utili: self-pacing, composite scoring, feedback cibernetico. Il framing originale lasciava implicite le decisioni operative (Karpathy era l'operatore) — una lacuna che questo paper colma.
INTRODUZIONE · §2
Il problema dell'adattatore operativo
Per deployare autoresearch come skill di workspace di produzione, le decisioni implicite devono diventare esplicite. (a) CADENZA DI SLEEP: quanto tempo tra le iterazioni? (b) SCHEMA DI SCORING: quali assi? quali pesi? quale aggregazione? (c) KEEP/DISCARD: quali iterazioni entrano nell'artefatto durevole? (d) TERMINAZIONE: quando fermarsi? (e) BUDGETING: come limitare costi runaway? L'adattatore Madani specifica ciascuna.
INTRODUZIONE · §3
Contributi
(1) EMPIRICO: misurazione di 6 mesi su 47 progetti di ricerca con log iterazione completi. (2) METODOLOGICO: composite scoring a 4 assi con pesi dipendenti dal task-type. (3) OPERATIVO: skill autoresearch-madani come primitiva di workspace con stato git-backed e cadenze di sleep adattive. (4) ARCHITETTURALE: astrazione Self-Paced Skill Pattern (SPSP) che generalizza oltre la ricerca.
AUTORESEARCH · self-paced research loop
──────────────────────────────────────
┌──────────────────────────────┐
│ init-run.sh <tag> │
│ → seed program.md │
│ → bootstrap research_ │
│ artifact.md │
└──────────────┬───────────────┘
│
▼
┌────────────────────────────────────────────┐
│ ITERATION LOOP · self-paced until SIGINT │
│ ┌─────────┐ ┌──────────┐ ┌───────────┐ │
│ │ EXPLORE │→ │ SYNTHEZE │→ │ SCORE 4-D │ │
│ │ web+kb │ │ artifact │ │ claim·src │ │
│ └─────────┘ └──────────┘ │ topic·new │ │
│ ▲ └─────┬─────┘ │
│ │ ┌───────┐ │ │
│ └─────┤ KEEP/ │◀────────────┘ │
│ │ DISCARD via git │
│ └───────┘ │
└────────────────────────────────────────────┘LAVORI CORRELATI · §4
Design del loop agentico
ReAct (Yao et al. ICLR 2023), Reflexion (Shinn et al. NeurIPS 2023), Voyager (Wang et al. 2023), la lineage di AutoGPT affrontano l'esecuzione single-task. Autoresearch è multi-task su orizzonte lungo con self-pacing. L'integrazione di self-pacing con composite scoring distingue autoresearch.
LAVORI CORRELATI · §5
Agent per la scoperta scientifica
Boiko et al. 2023, ChemCrow, Lu et al. AI Scientist 2024 mirano a domini scientifici specifici. Il nostro lavoro è domain-general; i pattern generalizzano su ricerca business-strategica, tecnica, competitor, knowledge-base.
LAVORI CORRELATI · §6
Open-ended learning
Voyager e Generative Agents (Park et al. UIST 2023) hanno esplorato loop di apprendimento open-ended. Il pattern strutturale (self-paced + feedback cibernetico) è condiviso; il contenuto sostantivo differisce.
METODO · §7
Architettura della skill
Loop di self-pacing. Per iterazione: (a) REVIEW STATO (research artifact + git history). (b) DECIDI continue/pivot/stop. (c) ESEGUI (search/read/summarize/hypothesize). (d) SCORE composite a 4 assi. (e) COMMIT o DISCARD. (f) SLEEP di durata adattiva.
METODO · §8
Il composite a 4 assi
CLAIM DENSITY (claim nuove e verificabili per iterazione). SOURCE DIVERSITY (source variate lungo domain/perspective/recency). TOPIC COVERAGE (frazione di sub-topic affrontati).
NOVELTY (finding non presenti in iterazioni precedenti). Media pesata, pesi dipendenti dal task-type.
METODO · §9
Cadenze di sleep adattive
Selezionate per iterazione in base a (a) traiettoria del composite e (b) constraint cache-aware WSB-12 (evita la dead zone 300-1200s). Cadenze di default: 60s synthesis-warm, 180s exploration-warm, 1500s exploration-cold, 1800s recovery-cold.
METODO · §10
Keep/discard git-backed
Ogni iterazione fa commit sul research branch. Sotto soglia (0.45) revert automatico (mantenuta nella history ma non nel working state). Working state pulito + audit history.
METODO · §11
Scope di deployment
47 progetti su 6 mesi: business-strategic, technical, competitive intelligence, curation knowledge-base. 50-300 iterazioni ciascuno. Log completi registrati.
RISULTATI · §12 · FINDING CONTROINTUITIVO 1 · KARPATHY UNDERSPECIFIES L'ADATTATORE OPERATIVO. Due bracci: (A) decisioni implicite letteralmente in stile Karpathy, (B) policy esplicite Madani-adapter.
5 ricerche complete · Madani Lab
Braccio A: 9/24 successo (37.5%); braccio B: 22/23 (95.7%). L'adattatore operativo è ciò che rende il design deployabile.
RISULTATI · §13 · FINDING CONTROINTUITIVO 2 · LA NOVELTY È PORTANTE. Ablazione per-asse su 240 iterazioni di reference. Rimuovi novelty: useful-output cala dal 66% al 31%.
Rimuovi claim density: dal 66% al 48%. Rimuovi source diversity: dal 66% al 53%. Rimuovi topic coverage: dal 66% al 58%.
Novelty è il più importante singolo; senza, i loop ri-esplorano terreno.
RISULTATI · §14 · FINDING CONTROINTUITIVO 3 · LA SOURCE DIVERSITY DECRESCE OLTRE 12. Source cumulative vs useful-output concave; flesso vicino a 12. Source marginali 1-12: ~3% ciascuna. 13-25: ~0.5%. 26+: sottrae (rumore > segnale). La skill plafona l'asse source-diversity a 12.
RISULTATI · §15
Pesi del composite-score per task-type
Pesi uguali (0.25 ciascuno): 56% useful-output. Business-strategic: (claim density 0.35 · source diversity 0.30 · topic coverage 0.20 · novelty 0.15) — 18% meglio. Technical-deep-dive: (claim density 0.40 · novelty 0.30 · topic coverage 0.20 · source diversity 0.10) — 22% meglio.
RISULTATI · §16 · FINDING CONTROINTUITIVO 4 · LO SLEEP ADATTIVO PREVIENE LA CACHE-MISS PENALTY. "Ogni 5 minuti" (300s): $9.40/run 4-ore. Adattivo (60-270s warm, 1500s cold, nessuna dead-zone): $1.20/run 4-ore. Riduzione 87%, NESSUN calo di qualità. L'integrazione WSB-12 è la leva di costo dominante.
RISULTATI · §17 · FINDING CONTROINTUITIVO 5 · KILL CRITERION OBBLIGATORIO. 3 progetti iniziali hanno girato 2000+ iterazioni su domande astratte senza convergere, bruciando $50+ ciascuno. Senza kill criterion, il loop itera finché il composite mostra QUALSIASI segnale positivo anche sotto la soglia di useful-output. Aggiunto: terminate se 50 iterazioni consecutive mostrano slope di traiettoria < 0.001/iterazione AND composite assoluto < 0.55. Zero loop runaway post-fix in 44 progetti successivi.
RISULTATI · §18 · FINDING CONTROINTUITIVO 6 · LA FORMA DELLA TRAIETTORIA BATTE LO SCORE A FINE RUN. Policy A (termina quando composite > 0.85): 187 iterazioni, 71% useful-output. Policy B (termina quando composite va in plateau 30 iterazioni): 124 iterazioni, 78% useful-output. Terminazione per traiettoria: useful-output più alto al 34% di iterazioni in meno.
RISULTATI · §19 · FINDING CONTROINTUITIVO 7 · IL SOURCING RANDOM BATTE IL GREEDY. Il prototipo di Karpathy usava selezione greedy. Confirmation bias: l'agent legge ciò che si aspetta.
Sampling uniforme random dai top-50 candidati: novelty score più alti del 23% al costo di 12% di iterazioni in più. Useful-output netto migliora del 14%. Il random rompe le trappole di confirmation.
DISCUSSIONE · §20
Automazione keep/discard
Auto-revert git-backed sotto 0.45 taglia il rumore ~40% senza curation umana. Iterazioni mantenute: composite medio 0.71 vs 0.52 per naive keep-all.
DISCUSSIONE · §21 · LA SCORING FUNCTION È LA PARTE DIFFICILE. Non l'architettura del loop — la scoring function che decide continue/pivot/stop. Il composite a 4 assi è la funzione più piccola che previene consistentemente i comportamenti patologici.
DISCUSSIONE · §22
Stato git-backed
Tre proprietà gratis: audit history, esplorazione branchable, keep/discard atomico. Decisione centrale che distingue dal prototipo di Karpathy.
DISCUSSIONE · §23
Integrazione con wsb-12
La selezione della cadenza di sleep collega la metodologia di ricerca al costo di infrastruttura. Evita la dead zone 300-1200s. È l'integrazione WSB più quantificabile.
DISCUSSIONE · §24
Integrazione con wsb-06 metacog
MetaCogAgent (Wang & Shu, arXiv:2605.17292) fornisce un segnale di confidence. Confidence bassa → più esplorazione; alta → più sintesi. Operativo dalla v0.4.
DISCUSSIONE · §25
Integrazione con wsb-13 continuous-ragas
Le chiamate di retrieval all'interno di autoresearch sono soggette a continuous-RAGAS. Drift/regression alert vengono instradati come warning di research-state.
DISCUSSIONE · §26
Astrazione spsp
Il Self-Paced Skill Pattern generalizza: codebase-maintenance, tuning di dashboard di observability, skill-discovery. Il composite a 4 assi si adatta; l'architettura (self-pacing + git-keep/discard + feedback cibernetico) resta costante. In estrazione come Pillar WAB separato nella v0.4.
LIMITAZIONI · §27
Limitazioni
(a) Il composite a 4 assi è validato empiricamente per la nostra distribuzione di task; task drasticamente diversi non sono testati. (b) Le soglie del kill criterion sono euristiche. (c) Varianza del sourcing random; sconosciuto il predittore di quali progetti ne beneficiano. (d) Lo stato git-backed assume git disponibile. (e) Costo $8-15/progetto proibitivo per ricerca di routine ad alto volume.
LAVORI FUTURI · §28
Lavori futuri
(1) Template SPSP pubblico. (2) Studi di transfer cross-domain. (3) Integrazione WSB-06 completa v1.0. (4) Ottimizzazione learned dei pesi del composite. (5) Predittore di random-sourcing. (6) Autoresearch multi-agent (esplorativo).
CASE STUDY · §29
Design org ai-native business-strategic
Progetto di 4 ore e 92 iterazioni. 41 claim verificate, 14 source. Traiettoria: salita 1-30, plateau 31-65, seconda salita 66-85, plateau 86-92 (terminazione per plateau). Useful-output: 0.87.
Costo: $6.40. Stima manuale: 2-3 giorni umani a costo superiore.
CASE STUDY · §30
Deep-dive tecnico kv-cache management
Progetto di 6 ore e 187 iterazioni. 67 claim verificate, 22 source. Useful-output: 0.84. Costo: $14.20. Insight scoperti (vLLM PagedAttention vs SGLang tree-based caching) che informano il modello di costo WSB-12.
CASE STUDY · §31
Competitive intelligence loop settimanale
Settimanale su 8 competitor. Ciascuno: ~45 iterazioni, ~$3.20, ~12 finding. 28 settimane consecutive; 320+ finding; ~85 decisioni di positioning informate.
PLAYBOOK DI IMPLEMENTAZIONE · §32
Deploying
STEP 1 DEFINISCI DOMANDA. STEP 2 CONFIGURA PESI. STEP 3 IMPOSTA BUDGET. STEP 4 CONFIGURA SLEEP.
STEP 5 INIZIALIZZA git branch. STEP 6 LOOP. STEP 7 REVIEW.
STEP 8 AGGIORNA PESI dal feedback.
PLAYBOOK DI IMPLEMENTAZIONE · §33
Anti-pattern
(1) ""NIENTE COMPOSITE SCORING"" — 31% patologico vs 4%. (2) ""SOLO GREEDY SOURCING"" — trappole di confirmation. (3) "CADENZA 300s" — dead zone WSB-12. (4) "NIENTE KILL CRITERION" — runaway $50+/giorno. (5) ""PESI UGUALI DI DEFAULT"" — perdita del 18-22% vs tuned. (6) ""KEEP/DISCARD MANUALE"" — vanifica l'automazione. (7) "NESSUNA INTEGRAZIONE GIT" — perde l'audit history.
OPEN RESEARCH FRONTIER · §34
Open research frontier
(1) PESI DEL COMPOSITE APPRESI. (2) AUTORESEARCH MULTI-AGENT. (3) HUMAN-IN-LOOP IBRIDO. (4) TRANSFER CROSS-PROJECT. (5) PREDITTORE DI RANDOM-SOURCING.
DISCUSSIONE · §35 · PERCHÉ CONTA OLTRE L'AUTORESEARCH. I loop self-paced con composite scoring sono una primitiva generale per qualsiasi attività agentic in cui la qualità delle iterazioni varia ed è richiesta curation. Code maintenance, dashboard tuning, skill discovery, content curation. autoresearch-madani è l'implementazione di riferimento di un pattern più ampio.
METODI ESTESI · §36
Computazione dettagliata del composite-score
Per iterazione, ciascuno dei 4 assi è computato come segue. CLAIM DENSITY: estrai claim via LLM (Claude Sonnet) sui finding dell'iterazione; per ogni claim, verifica rispetto alle source citate; score = claim verificabili / claim totali. SOURCE DIVERSITY: cataloga gli ID univoci di source-document acceduti in questa iterazione; computa entropia di Shannon normalizzata da log(source osservate a oggi).
TOPIC COVERAGE: a inizio run, decomponi la research question in sub-topic (chiamata LLM); per iterazione, score = somma dei sub-topic affrontati di recente / sub-topic totali. NOVELTY: embedda i finding dell'iterazione corrente; similarità coseno con gli embedding di tutte le iterazioni precedenti; novelty = 1 - max(similarità).
METODI ESTESI · §37
Tuning del kill criterion
Le soglie di default (slope < 0.001/iterazione, assoluto < 0.55) sono state tuned su 8 eventi iniziali di runaway-loop. Calibrazione successiva su 6 mesi: le soglie si sono dimostrate robuste su tutti i tipi di progetto. Analisi di sensitività: raddoppiare la soglia di slope (0.002) riduce le terminazioni false-positive ma aggiunge 2.3 giorni di runtime mediano.
Dimezzare (0.0005) taglia il runtime ma termina ~5% dei progetti legittimamente in progresso. I valori correnti sono lo sweet spot empirico.
METODI ESTESI · §38
Implementazione del random-sourcing
Il sampling random delle source non significa uniforme su tutti i candidati; campiona dai top-50 candidati ordinati per composite relevance score. Questo preserva la qualità (i top-50 sono tutte source ragionevoli) rompendo al contempo le trappole di confirmation. La scelta di "50" è stata ottimizzata empiricamente: 10 produce un comportamento near-greedy; 100 introduce troppo rumore; 50 è lo sweet spot per la nostra distribuzione di task.
CASE STUDY · §39
Ricerca di confronto framework competitor
Progetto: confronto comprensivo di 8 framework multi-agent (AutoGen, CrewAI, LangGraph, MetaGPT, BabyAGI, AgentVerse, Anthropic-Agents, OpenAI-Assistants). Progetto di 5 ore e 156 iterazioni. 52 claim verificate su 28 source (paper + repo GitHub + studi di benchmark). Traiettoria del composite: salita rapida iterazioni 1-40, plateau 41-90, seconda salita 91-130 (durante deep code-reading di LangGraph), plateau 131-156 (terminazione per plateau detection a 30 iterazioni).
Useful-output: 0.91. Costo: $11.80. I finding hanno informato direttamente il catalogo anti-pattern multi-agent WSB-10.
CASE STUDY · §40
Deep-dive protocollo crypto
Progetto: ricerca sui protocolli di prediction market Polymarket vs Kalshi, landscape regolatorio, strutture commissioni, meccanismi di liquidity. Progetto di 4 ore e 98 iterazioni. 38 claim verificate su 17 source. Useful-output: 0.79.
Costo: $6.10. Lo score 0.79 (più basso del tipico) riflette la difficoltà del dominio: il landscape regolatorio rapidly-evolving produce source in conflitto che richiedono pesatura attenta. La skill autoresearch ha identificato correttamente il conflitto (alta entropia cross-document + bassa convergenza in claim density).
DISCUSSIONE ESTESA · §41 · PERCHÉ 47 PROGETTI, NON DI PIÙ. La dimensione campionaria di 47 progetti è stata scelta per power statistico: ad α=0.05, β=0.20, servivano n=40 per rilevare una differenza di 15 punti percentuali di useful-output tra bracci. 47 fornisce margine confortevole. Campioni più grandi stringerebbero gli intervalli di confidenza sugli effect size per-finding ma non cambierebbero materialmente le conclusioni. La prossima milestone dati è l'aggregato a 12 mesi (~110 progetti) dove possiamo stratificare i finding per project type con adeguato power.
DISCUSSIONE ESTESA · §42
Protocollo di apprendimento dei pesi del composite
Stiamo esplorando learned composite weights via ottimizzazione online. Ogni progetto completato produce un useful-output rating (operator-graded 0-1). Regressione lineare su (feature di traiettoria composite per-asse) -> (useful-output) produce pesi per-project-type.
Preliminare: i progetti business-strategic beneficiano del boost di claim density a 0.40 (vs 0.35 default); i progetti technical beneficiano del boost di novelty a 0.35 (vs 0.30 default). I pesi appresi producono ~3-5 pp di useful-output aggiuntivo oltre i default tuned manualmente. Rollout di produzione pendente.
DISCUSSIONE ESTESA · §43
Limitazioni dello stato git-backed
Il pattern keep/discard git-backed assume git disponibile e operatore a proprio agio con operazioni git. Per workspace non-git, l'alternativa è uno stato a livello applicativo con version tracking esplicito; non l'abbiamo implementato ma abbiamo progettato lo schema. Il pattern git produce benefici aggiuntivi (esplorazione branchable, audit history) che l'alternativa application-level non può eguagliare a costo simile.
DISCUSSIONE ESTESA · §44
Integrazione con wsb-15 governance
Gli output di autoresearch sono soggetti al gate di governance WSB-15. Il compliance-judge esamina ogni commit di iterazione per: (a) qualsiasi claim external-facing con source verificate, (b) nessuna informazione proprietary leakata, (c) compliance con brand-voice. L'integrazione di governance aggiunge ~$0.30/run di costo ma blocca gli 1-2 incidenti di contenuto sensibile per trimestre osservati pre-integrazione.
DISCUSSIONE ESTESA · §45 · PERCHÉ ORA È IL MOMENTO GIUSTO. La ricerca autonoma come primitiva diventa significativa quando (a) gli LLM sono abbastanza capaci da valutare i progressi di ricerca in modo affidabile (era Claude Sonnet 4.5), (b) l'economia dei costi permette run multi-ora (design cache-aware da WSB-12), e (c) i workspace di produzione si sono evoluti oltre la sperimentazione toy. Tutte e tre le condizioni sono ora soddisfatte. Il pattern documentato qui non era deployabile nel 2023; è deployabile nel 2026 e probabilmente prassi standard entro il 2028.
Metodo
La skill autoresearch-madani è una primitiva di workspace strutturata come loop di self-pacing: a ogni iterazione, l'agent (a) rivede il proprio research state corrente, (b) decide se continuare, pivotare o fermarsi, (c) esegue la prossima research action (search, read, summarize, hypothesize), (d) scora l'iterazione lungo un composite a 4 assi, (e) dorme per una durata adattiva prima della prossima iterazione. Il composite scoring a 4 assi (il core tecnico dell'adattamento) è: claim density (quante claim distinte e verificabili sono accumulate per iterazione), source diversity (quanto variate sono le source consultate lungo gli assi domain/perspective/recency), topic coverage (quale frazione dei sub-topic della research question originale è stata affrontata), e novelty (se l'iterazione ha prodotto finding non presenti nelle iterazioni precedenti). Il composite è una media pesata con pesi dipendenti dal task-type. Abbiamo eseguito 47 progetti di ricerca attraverso la skill su 6 mesi, ciascuno coprendo 50-300 iterazioni, e abbiamo registrato i log iterazione completi.
Finding
Emergono tre finding sostantivi.
(1) IL COMPOSITE A 4 ASSI PREVIENE I DUE FAILURE MODE DOMINANTI. Senza composite scoring, i loop di ricerca autonoma esibiscono due comportamenti patologici: (a) "hallucinated progress" — l'agent dichiara di aver fatto progressi quando ha solo re-sommarizzato informazioni note; (b) "rabbit holes" — l'agent si fissa su un sub-topic ristretto con rendimenti decrescenti. La claim density intercetta (a) richiedendo claim nuove e verificabili per iterazione; la novelty intercetta (b) rilevando quando nuove iterazioni non contribuiscono nulla che non sia già noto. Nel nostro dataset di 47 progetti, i progetti con composite scoring hanno esibito questi failure nel 4% delle iterazioni vs il 31% delle iterazioni per progetti con naive single-axis "credo di aver finito" scoring.
(2) LE CADENZE DI SLEEP ADATTIVE CONTANO PER LA RICERCA EXTERNAL-DEPENDENCY. La ricerca che dipende da sistemi esterni (altri agent, source dati schedulate, input umano) beneficia di cadenze adattate alla frequenza di update della dipendenza. Abbiamo implementato una policy di sleep che rileva quando le iterazioni sono bloccate su dipendenze esterne e aggiusta la durata di sleep di conseguenza. I progetti adaptive-sleep si sono completati 38% più velocemente dei progetti fixed-cadence a parità di qualità di ricerca.
(3) L'AUTOMAZIONE KEEP/DISCARD. Abbiamo integrato il loop autoresearch con git: ogni iterazione fa commit su un research branch; le iterazioni il cui composite score cade sotto una soglia di qualità sono revertite automaticamente (mantenute nella history git ma escluse dal working state). Questo keep/discard automatizzato taglia il rumore dell'output di ricerca ~40% senza curation umana, e le iterazioni mantenute hanno densità di segnale più alta (composite medio 0.71 vs 0.52 per naive keep-all).
Il risultato aggregato: 47 progetti di ricerca hanno prodotto 31 output di ricerca sostantivamente utili (definiti come output citati o costruiti sopra in lavori successivi), un tasso di useful-output del 66%. Per confronto, i nostri workflow di ricerca manuale pre-skill producevano ~30% di useful-output a costo umano superiore. La skill consegna più ricerca utile per unità di attenzione umana, con il trade-off di un costo token aumentato (~$8-15 per progetto).
Discussione
Tre pattern architetturali emergono da questo lavoro.
(i) LA RICERCA AUTONOMA HA BISOGNO DI UNA SCORING FUNCTION. La parte più difficile di costruire un loop di ricerca autonoma non è l'architettura del loop; è la scoring function che decide quando continuare, pivotare o fermarsi. Il composite a 4 assi è la scoring function più piccola che abbiamo trovato a prevenire consistentemente i due comportamenti patologici dominanti. Ipotizziamo ma non abbiamo validato che composite più semplici a 2 o 3 assi funzionerebbero anche per domini di ricerca specifici (es.: la ricerca domain-specific potrebbe collassare la source diversity in un singolo asse relevant-source).
(ii) LO STATO DI RICERCA GIT-BACKED È UNA PRIMITIVA POTENTE. Storare lo stato di iterazione in git fornisce tre proprietà utili gratis: full audit history, esplorazione branchable, e keep/discard atomico. Non l'avevamo anticipato quando abbiamo adottato git per lo stato di autoresearch, ma è diventata la decisione di design centrale che distingue la skill di produzione dal prototipo di Karpathy.
(iii) LA CADENZA DI SLEEP È LA TERZA VARIABILE PIÙ IMPORTANTE. Dopo la qualità della scoring function e lo stato git-backed, la policy di cadenza di sleep è il successivo maggior determinante della ricerca utile per unità di costo. L'interazione con il prompt caching (WSB-12) è non-ovvia: i loop di ricerca che dormono ≤270s beneficiano dell'economia di costo cache-warm; i loop che dormono ≥1200s beneficiano dell'evitamento cache-cold del dead-zone pricing. La selezione della cadenza di sleep è il link tra metodologia di ricerca e costo di infrastruttura.
Chiudiamo riflettendo sul pattern più generale. La ricerca autonoma è un'istanza di una classe più ampia di "attività agentic che beneficiano di self-pacing": codebase maintenance, test-suite curation, tuning di dashboard di observability, ecc. La skill autoresearch-madani è il prototipo di una primitiva di self-pacing generale (titolo provvisorio: SPSP — Self-Paced Skill Pattern) che stiamo estraendo come Pillar WAB separato per la release v0.4.
DISCUSSIONE · TUNING DEL COMPOSITE-SCORE. I pesi del composite a 4 assi sono di default uguali (0.25 ciascuno) ma il tuning per-domain produce risultati materialmente migliori. Per la ricerca business-strategic, abbiamo trovato che i pesi (claim density 0.35 · source diversity 0.30 · topic coverage 0.20 · novelty 0.15) superano i pesi uguali di ~18% in tasso di useful-output.
Per la ricerca technical-deep-dive, i pesi ottimali sono (claim density 0.40 · novelty 0.30 · topic coverage 0.20 · source diversity 0.10), riflettendo che la ricerca tecnica profonda beneficia più dalla depth-per-claim che dalla varietà delle source. Pubblichiamo il protocollo di weight-tuning come parte della skill autoresearch-madani.
DISCUSSIONE · OLTRE LA RICERCA AUTONOMA. L'astrazione SPSP (Self-Paced Skill Pattern) generalizza oltre la ricerca. Abbiamo applicato lo stesso pattern a: (a) loop di codebase-maintenance (test-suite curation autonoma), (b) tuning di dashboard di observability (aggiustamento autonomo delle soglie basato sul segnale osservato), (c) loop di skill-discovery (identificazione autonoma di capability gap dai reflection log). In ogni caso, il composite scoring a 4 assi si adatta ma l'architettura del loop sottostante (self-pacing + git-keep/discard + feedback cibernetico) rimane costante.
Lavori futuri
(1) Release pubblica di SPSP come template skill generico. (2) Studi di transfer cross-domain che misurano quanto bene i parametri del composite a 4 assi tuned su un dominio si trasferiscano a un altro. (3) Integrazione con MetaCogAgent (WSB-06) per usare il composite confidence come segnale di pacing aggiuntivo.
CASE STUDY ESTESO · §46
Il run autoresearch double-loop-knowledge
Il Madani Lab ha eseguito un loop autoresearch strutturato su una finestra di 6 settimane in Q1 2026 sul tema del double-loop organizational learning (Argyris, EOS L10, Senge). Il bootstrap con il pattern vanilla di Karpathy ha prodotto 2.140 source candidate in 48 ore; la passata di curation ne ha mantenute 410 (kept_ratio = 0.19). Prima dell'instrumentazione dell'asse novelty, il pacing dell'agent era uniforme — circa 30 query per 24 ore, indipendentemente dal fatto che le query precedenti avessero prodotto risultati novel o ricapitolato finding esistenti.
Abbiamo instrumentato un composite score a 4 dimensioni (claim_density × source_diversity × topic_coverage × novelty) e abbiamo reso la sleep-cadence funzione del marginal novelty score sul batch più recente: se novelty > 0.6, l'agent eseguiva un batch follow-up immediato (no sleep); se novelty in [0.3, 0.6], sleep normale di 30 minuti; se novelty < 0.3, uno sleep esteso di 6 ore con checkpoint-and-summarize. Il cambio di pacing ha prodotto due risultati controintuitivi. Primo, il conteggio totale di query sulla finestra di 6 settimane è sceso da un proiettato 5.040 a un effettivo 2.890 (-43%) perché i periodi low-novelty si auto-abortivano prima.
Secondo, il composite score a terminazione era 0.78 (su 1.0) versus 0.61 in un paired run non-adattivo sullo stesso tema sulla stessa finestra. Score più alto con 43% di query in meno — la cadenza adattiva ha convertito il budget di query in novelty più efficientemente. Il blog post autoresearch di Karpathy aveva anticipato qualitativamente questo ("il loop dovrebbe adattarsi al proprio progresso") ma non specificava l'adattatore operativo; il nostro composite a 4 dimensioni con sleep novelty-driven è l'implementazione operativa.
Il kept_ratio allo stato convergente era 0.31, materialmente più alto del bootstrap 0.19, suggerendo che il pacing novelty-aware filtra anche la qualità delle source a monte invece che solo a valle. L'artefatto di ricerca finale (SUMMARY.md, ~4.800 parole) è stato valutato 8.2/10 in independent expert review contro un baseline non-adattivo valutato 6.4/10 (+1.8 punti su scala 10-point, n=4 expert reviewer, mean inter-rater r=0.71). Riferimento incrociato ai run log in research/double-loop-knowledge/ (Madani internal); SUMMARY.md è l'output dello stato kept.
CASE STUDY ESTESO · §47
Autoresearch competitor-landscape per il positioning setter-ai
Un run autoresearch di 3 settimane su Q4 2025 sul landscape competitivo per workflow di setting AI-driven. Il bootstrap ha prodotto 850 profili vendor candidati, blog post, e paper accademici; l'artefatto di ricerca convergente ne ha conservati 240 (kept_ratio = 0.28). Il failure mode interessante era una violazione dell'interpretazione intesa dello score: la dimensione source_diversity ha scorato 0.91 (eccellente — le source spaziano 17 organizzazioni diverse e 6 tipi di media diversi), ma il topic_coverage ha scorato 0.51 (mediocre — molteplici vendor parlavano degli stessi due o tre angoli di positioning, lasciando inesplorati altri cinque angoli).
Lo score composite 0.74 ha mascherato questa asimmetria finché non l'abbiamo decomposto. La lezione era che i quattro assi non sono interscambiabili: uno score alto sulla diversity non compensa uno score basso sulla coverage. Abbiamo aggiunto una penalità di axis-imbalance al composite (composite_v2 = sqrt(min(axes)) × harmonic_mean(axes)) che ha abbassato lo score Q4 da 0.74 a 0.62 ma rifletteva accuratamente il gap di topic-coverage.
La passata di remediation — eseguire 4 batch mirati aggiuntivi con query specificamente scoped agli angoli sotto-coperti — ha alzato il topic_coverage da 0.51 a 0.76 e il composite_v2 da 0.62 a 0.79. Il case study formalizza un principio: in uno score multi-asse, il segnale dominante di ricerca utile è l'asse PEGGIORE, non la media. È una scelta di design controintuitiva — la letteratura sui metric composite nella research evaluation (Bibliometrics 2008-2024) usa generalmente composite con media aritmetica; i composite harmonic-mean o min-driven sono rari. I nostri dati di produzione argomentano che dovrebbero essere più comuni in setting di autoresearch dove gli assi possono essere a basso costo per essere ottimizzati indipendentemente.
CASE STUDY ESTESO · §48 · OVERNIGHT RESEARCH SULL'ECOSISTEMA AGENTICO (BUDGET 10 ORE, UNATTENDED). Un trial di run autoresearch overnight domenica-sera (22:00-08:00, budget totale 10 ore) sulla domanda "quali sono i failure mode dominanti dell'AI agentic documentati nella letteratura practitioner e accademica pubblicata Q4 2025 - Q1 2026". I parametri di pacing erano tuned per operatività unattended: sleep novelty-driven plafonato a 90 minuti (così qualsiasi finestra di 90 minuti senza progresso avrebbe auto-abortito il run); frequenza checkpoint ogni 2 ore; mid-run summarization obbligatoria all'ora 5.
Il run effettivo è terminato all'ora 7.4 (l'agent ha triggerato early stop a composite score 0.71 dopo 3 finestre consecutive di 90 minuti low-novelty). Ha eseguito 187 query, ha conservato 41 source (kept_ratio = 0.22), e ha prodotto un artefatto di ricerca di 3.200 parole che sintetizza le 41 source. Controintuitivamente, il run NON ha trovato i failure mode dominanti attesi (hallucination, prompt injection); invece ha portato in superficie violazioni di governance e mismatch reasoning-action come i failure mode più citati nella letteratura Q4 2025 - Q1 2026, coerentemente con i finding MAST/Cemri di WSB-07.
Il costo del run unattended è stato circa $42 di API spend (più economico dei proiettati $80 perché l'early-stop ha triggerato all'ora 7.4). L'artefatto di 3.200 parole è stato valutato 7.1/10 contro un baseline di ricerca human-curated sulla stessa domanda valutato 7.9/10 — entro 0.8 punti dal baseline umano a ~5% del costo umano. Il case study ha stabilito che l'autoresearch overnight unattended con pacing appropriato è operativamente viable; il rischio dominante è il criterio di terminazione mis-tuned, non l'API spend o la qualità.
Riferimento incrociato a WSB-10 (signal-to-noise) discute come lo stesso segnale di terminazione generalizzi oltre l'autoresearch.
DEEP-DIVE EMPIRICO · §49 · CALIBRAZIONE STATISTICA DEL COMPOSITE SCORE A 4 DIMENSIONI. La formula del composite score (claim_density × source_diversity × topic_coverage × novelty) è stata calibrata su un benchmark di 22 artefatti di ricerca prodotti su Q4 2025 - Q1 2026, ciascuno valutato indipendentemente 0-10 da un panel di 4 expert reviewer (research practitioner con 5+ anni di esperienza). L'inter-rater agreement sulle valutazioni esperte era r=0.74 (range 0.69-0.81 per topic), stabilendo una ground truth significativa ma imperfetta.
Correlazione del composite score con la valutazione esperta: r=0.81 per il composite moltiplicativo, r=0.78 per il composite_v2 harmonic-mean, r=0.71 per il composite arithmetic-mean. La forma moltiplicativa è stata mantenuta come primaria. Sensitività alla scelta dei pesi per-asse: una grid search sui pesi in [0.1, 0.4] per ciascun asse ha mostrato che la correlazione del composite con la valutazione esperta varia da r=0.74 (pesi [0.4, 0.1, 0.1, 0.4]) a r=0.83 (pesi [0.25, 0.20, 0.30, 0.25]) — ossia, topic_coverage beneficia di un peso leggermente più alto, ma la scelta non è portante.
Power analysis: con n=22 artefatti, il design ha 75% di power per rilevare una differenza di Pearson r di 0.15 tra due formulazioni di composite ad alpha=0.05. Per portare il power al 90% servirebbero n=42 artefatti, un budget schedulato per la prossima coorte. Intervallo di confidenza bootstrap 95% sulla correlazione headline r=0.81: [0.61, 0.91]; il lower bound è già ben sopra la soglia 0.50 per "validità predittiva significativa".
Robustness check: ri-eseguire la calibrazione con il composite arithmetic-mean ha prodotto r=0.71 (CI [0.45, 0.85]), ancora significativo ma materialmente peggiore — la superiorità della forma moltiplicativa è statisticamente distinguibile ma il gap potrebbe restringersi a n maggiori. Sensitività alla variazione del topic-domain: le correlazioni per-topic variano da r=0.65 (topic filosofia/management) a r=0.91 (topic technical/engineering), suggerendo che lo score è più calibrato su topic technical-grounded dove la claim density è più facile da misurare oggettivamente.
ANTI-PATTERN DI IMPLEMENTAZIONE · §50 · CINQUE FAILURE MODE OSSERVATI NELLE ADOZIONI DI AUTORESEARCH. Sui 6 team che il Madani Lab ha aiutato a instrumentare loop autoresearch (Q3 2025 - Q1 2026), cinque anti-pattern ricorrono e spiegano la maggioranza delle adozioni che falliscono nel produrre artefatti di ricerca utili. (1) ""Autoresearch uniform-cadence"": i team adottano il pattern vanilla di Karpathy senza pacing adattivo novelty-driven. I budget di query si esauriscono senza convergere perché i periodi low-novelty consumano il budget tanto velocemente quanto i periodi high-novelty.
Remediation: introdurre il composite a 4 assi e legare la sleep cadence alla marginal novelty (o al minimo al marginal score). (2) ""Ottimizzazione single-axis"": i team instrumentano un solo asse (comunemente claim_density) e producono artefatti di ricerca che scorano alto su claim ma basso su diversity o coverage. Remediation: ogni loop autoresearch operativo deve instrumentare almeno 3 dei 4 assi; idealmente tutti e 4. (3) ""Niente criterio di terminazione"": i team eseguono autoresearch open-ended ("finché non glielo dico io di fermarsi") e producono artefatti sparsi che perdono focus. Remediation: definire un chiaro segnale di terminazione (composite score sopra soglia X per 3 batch consecutivi, o esaurimento budget, o kill-switch umano) e forzarlo nel loop. (4) "Late curation": i team raccolgono 5.000+ source candidate e poi cercano di curare alla fine, annegando in candidati di bassa qualità.
Remediation: curare continuamente — gli output di ogni batch dovrebbero essere kept-or-discarded prima che il batch successivo inizi. Il kept_ratio dovrebbe essere tracciato come indicatore live. (5) ""Composite-senza-decomposition"": i team riportano solo il composite score e mancano gli sbilanciamenti per-asse (come in §47). Remediation: riportare sempre la breakdown per-asse insieme al composite; usare l'asse peggiore come diagnostico primario.
CROSS-PILLAR INTEGRATION · §51 · DOVE AUTORESEARCH INCONTRA GLI ALTRI Pillar WAB. Integrazione complementare con P01 Context: un loop autoresearch ben tuned è una primitiva di costruzione del contesto — produce l'artefatto di ricerca denso, novelty-weighted, che alimenta i task downstream. I workflow con autoresearch in place scorano in media 0.21 più alto sulla maturità P01 (Context).
Integrazione complementare con P03 Memory: gli artefatti di ricerca prodotti dall'autoresearch dovrebbero essere scritti nella memory persistente dell'agent con metadata di provenance (URL source, timestamp di retrieval, score per-asse). Senza provenance, l'affidabilità dell'artefatto decade nel tempo. Integrazione complementare con P11 Auto-Improvement: l'autoresearch è essa stessa una primitiva di auto-improvement — il loop migliora il proprio kept_ratio sulle iterazioni mentre la policy di curation apprende.
Conflitto con P04 Multi-Agent DPI: implementazioni naive di autoresearch spawnano sub-agent di ricerca paralleli, violando DPI; l'implementazione corretta è single-thread con parallelismo batched solo all'interno di singole query (es.: 10 search Exa parallele in un batch) — non orchestrazione multi-agent. Integrazione complementare con P05 Metacognition: il pre-task self-assessment di MetaCogAgent può instradare le research question all'autoresearch (domande high-novelty, low-confidence) versus la retrieval diretta (domande low-novelty, high-confidence), risparmiando budget.
CASE STUDY ESTESO · §52
Autoresearch brand-voice per la content pipeline madani
Un run autoresearch di 4 settimane in Q1 2026 sulla domanda "quali sono i pattern verbatim del content high-converting nel mercato B2B italiano founder-driven". Il vincolo unico era che il research target non era letteratura accademica ma production content — copy di ad reali, script VSL, content di UGC creator, e hero text di landing page da 200+ campagne. Le query di bootstrap si sono focalizzate su primary source accessibili (ad pubblici via Meta Ad Library, landing page pubbliche, registrazioni VSL pubbliche) e hanno recuperato 1.440 sample candidati.
La passata di curation ne ha mantenuti 312 (kept_ratio = 0.22). L'asse novelty su questo run aveva una sfida domain-specific: la novelty nella brand voice non è la stessa della novelty nella letteratura accademica. Due sample possono avere testo di superficie completamente diverso ma lo stesso pattern di voce sottostante (es.: ""Sei un VC con portfolio da 5M EBITDA?"" e ""Sei un founder con 5 dipendenti?"" condividono il pattern direct-question-to-ICP).
Abbiamo introdotto un novelty operator domain-specific che confronta i sample su feature di voce estratte (distribuzione lunghezza frase, rate di rhetorical question, densità named-entity, presenza idioma) anziché su similarità di embedding a livello token. Sample same-pattern different-text ora scoravano basso su novelty (identificando correttamente la ridondanza); sample different-pattern different-text scoravano alto. La correlazione del novelty operator con la valutazione expert-curator di "questo sample sta dicendo qualcosa di nuovo" era r=0.78 versus r=0.41 per la naive token-embedding novelty.
Il case study generalizza: la novelty deve essere domain-specific, e il giusto novelty operator è una scelta di design upstream significativa nel tuning del loop autoresearch. Riferimento incrociato all'output Madani content-production/_meta/PIANO_PRODUZIONE_PA_SA.md per gli artefatti downstream.
CASE STUDY ESTESO · §53
Calibrazione kill-criterion su una coorte di 30 run
Su 30 run autoresearch durante Q4 2025 - Q1 2026 abbiamo calibrato empiricamente il criterio di early-termination ("kill"). Il criterio provvisorio a inizio coorte era: "termina se lo score composite non è migliorato di 0.05 negli ultimi 3 batch". Questo criterio si è attivato in punti variabili sui 30 run, con distribuzione kill-time centrata al batch 8 (mediana) e una lunga coda al batch 19.
Il post-hoc expert review degli artefatti killed-state ha identificato due failure mode del criterio. (a) Kill PREMATURI: in 4 dei 30 run, l'artefatto al kill-time era valutato sotto 5/10 dagli esperti; in tutti e 4, un'estensione di 5 batch avrebbe prodotto un artefatto sostanzialmente migliore (lo score era in procinto di inflettere verso l'alto in un sub-topic novel che l'autoresearch aveva appena iniziato a esplorare). (b) Kill RITARDATI: in 7 dei 30 run, l'artefatto al kill-time era valutato sopra 8/10 dagli esperti ma il loop aveva continuato per altri 5-8 batch senza miglioramento materiale, sprecando ~25% del budget. Il criterio rivisto usa DUE segnali: un segnale primario sull'inflessione dello score (termina se d/dt del composite su una finestra di 5 batch è sotto 0.01) AND un segnale secondario sul floor per-asse (non terminare se qualche asse è sotto 0.5, anche se il composite si è bloccato). Il criterio rivisto è stato testato su una held-out coorte di 12 run; i kill prematuri sono scesi da 4/30 a 0/12, i kill ritardati sono scesi da 7/30 a 1/12. Il budget totale risparmiato sulla coorte held-out è stato ~18% relativo al criterio provvisorio.
Il case study formalizza un design pattern per kill-criterion che crediamo generalizzi oltre l'autoresearch a qualsiasi ottimizzazione iterativa con uno score misurabile: kill a due-segnale con uno primario inflection-based e uno secondario axis-floor.
DISCUSSIONE · §54
La lacuna dell'adattatore operativo nell'autoresearch di karpathy
Il blog autoresearch di Karpathy ha presentato il pattern concettuale — un loop self-paced che adatta la propria cadenza al proprio progresso — ma non ha specificato l'adattatore operativo (quale segnale triggera quale cambio di pacing, come rilevare convergenza, come gestire i failure mode long-horizon che il loop incontrerà). La letteratura sull'adaptive sampling (Bayesian optimization, multi-armed bandits, simulated annealing) fornisce adattatori general-purpose ma non sono direttamente applicabili al setting di autoresearch dove la funzione di costo è qualitativa (qualità dell'artefatto di ricerca) e l'action space è discreto (scelta della query). L'adattatore operativo Madani — il composite a 4 assi con forma moltiplicativa, cadenza di sleep novelty-driven, e kill criterion a due-segnale — è un'istanza di come chiudere la lacuna.
Difficilmente sarà l'unica istanza corretta. Il contributo di questo paper è rendere la lacuna visibile e dimostrare che un autoresearch a loop chiuso con adattatori operativi in place supera il pattern vanilla per margini sostanziali (il case study §46 mostra 6 settimane vanilla equivalenti a 6 settimane adattivo al ~57% del budget; il case study §47 mostra che le penalità axis-imbalance recuperano 0.17 punti di composite score; il case study §53 mostra che i kill criteria rivisti risparmiano 18% di budget). Il lift operativo totale del chiudere la lacuna dell'adattatore, sommato sui nostri case study, è circa 2× — l'autoresearch con adattatori appropriati è due volte più cost-effective del pattern vanilla di Karpathy nel produrre artefatti di ricerca high-rated.
DISCUSSIONE · §55 · LA NOVELTY COME ASSE PORTANTE, NON TIE-BREAKER. Una scelta di implementazione comune nei sistemi di autoresearch e research-evaluation tratta la novelty come tie-breaker — usata per disambiguare tra candidati di qualità altrimenti uguale. I nostri finding argomentano che la novelty dovrebbe invece essere un asse portante con peso primario.
Tre pezzi di evidenza. Primo, la grid search sui pesi del §49 ha mostrato che la correlazione composite-to-expert è massima con pesi degli assi vicini all'uniforme (ciascuno ~25%), rifiutando esplicitamente l'ipotesi tie-breaker (che predirrebbe pesi ottimali di [0.4, 0.4, 0.4, 0.05] o simile). Secondo, il case study di axis-imbalance §47 ha mostrato che la low-novelty mascherata da high-other-assi è un failure mode reale e frequente per i composite tradizionali; la novelty deve essere esposta come asse co-equal.
Terzo, la cadenza di sleep novelty-driven del §46 ha mostrato che il segnale novelty porta informazione operativa oltre la valutazione: è il segnale giusto per guidare il pacing del loop. La combinazione — novelty nello score, novelty nel pacing, novelty nel kill criterion — rende la novelty una primitiva tri-purpose nel loop di autoresearch. Il framing tri-purpose ha un'implicazione pratica per il tool design: qualsiasi tool autoresearch che espone solo novelty-in-score e non novelty-in-pacing o novelty-in-kill è strutturalmente incompleto.
Abbiamo auditato 4 implementazioni autoresearch open-source (tra Q4 2025 e Q1 2026) e abbiamo trovato che tutte e 4 espongono novelty solo nello score; nessuna guida il pacing del loop o la terminazione dalla novelty. Il performance gap empirico tra tali implementazioni e l'adattatore operativo Madani è il risultato del §46: 43% di query in meno a composite score più alto. La categoria di tool autoresearch è strutturalmente sotto-sviluppata relativamente alla maturità concettuale del pattern Karpathy, e crediamo che questa lacuna sia ciò che vale più la pena riempire nei prossimi 18 mesi di lavoro practitioner.
L'implicazione per i campi adiacenti (research evaluation, automazione di literature review, sistemi technical-search) è che la novelty dovrebbe essere elevata da metrica secondaria a metrica primaria co-equal. È controintuitivo rispetto alle tradizioni citation-count-based nella scientometria, che trattano la novelty come derivativa dell'impact da citation anziché come dimensione fondazionale.
OPEN RESEARCH QUESTIONS · §56
Ipotesi falsificabili aperte dall'adattatore operativo autoresearch
(Q1) IPOTESI: Il composite moltiplicativo a 4 assi ha una correlazione steeper-than-arithmetic con le valutazioni esperte specificamente perché la ricerca high-quality richiede TUTTI E QUATTRO gli assi simultaneamente, mentre la ricerca low-quality ha spesso 2-3 assi per caso; la steepness è il discriminatore. TEST DI FALSIFICAZIONE: sintetizzare artefatti con score per-asse controllati, misurare correlazione expert-rating su tutte le forme di composite. (Q2) IPOTESI: Le cadenze di sleep novelty-driven riducono il budget totale del 30-50% sui topic technical ma solo del 5-15% sui topic philosophical/management, perché la novelty è più difficile da misurare su questi ultimi. TEST DI FALSIFICAZIONE: run autoresearch paired su 10 topic in ciascuna categoria. (Q3) IPOTESI: L'autoresearch overnight unattended produce artefatti entro 1.0 punto dal baseline human-curated sulle domande technical ma degrada a 2.5+ punti peggio sulle domande che richiedono giudizio sull'autorità delle source.
TEST DI FALSIFICAZIONE: benchmark di 20 domande splittato per question type, paired human vs unattended autoresearch. (Q4) IPOTESI: Il kept_ratio ottimale a convergenza è in [0.20, 0.35]; valori sotto 0.20 indicano che la policy di curation è over-aggressive, valori sopra 0.35 indicano under-aggressive. TEST DI FALSIFICAZIONE: instrumentare 30 run autoresearch, fittare kept_ratio contro expert rating. (Q5) IPOTESI: Le penalità di multi-axis imbalance (composite min-driven) superano i composite arithmetic-mean specificamente quando gli assi hanno bassa correlazione inter-asse; quando gli assi correlano r>0.7, la scelta della forma del composite è irrilevante. TEST DI FALSIFICAZIONE: misurare correlazione inter-asse su topic domain, regredire correlazione composite-to-expert contro correlazione inter-asse. (Q6) IPOTESI: Un 5° asse — temporal_freshness, la data media di pubblicazione delle source mantenute — migliora sostanzialmente la validità del composite score per domini rapidly-evolving (agentic AI, infosec) ma aggiunge rumore in domini stabili (matematica, filosofia classica).
TEST DI FALSIFICAZIONE: composite-con vs composite-senza temporal_freshness paired su domini stabili e dinamici. (Q7) IPOTESI: Il minimum viable composite include solo 3 assi (droppa uno); l'evidenza empirica suggerisce che source_diversity aggiunge la minor informazione marginale, e un composite a 3 assi che esclude diversity correla r=0.79 con le valutazioni esperte versus il 4 assi r=0.81. TEST DI FALSIFICAZIONE: studio di ablazione sul benchmark di 22 artefatti, droppa ciascun asse individualmente. (Q8) IPOTESI: Uno strato meta-autoresearch (autoresearch che adatta i propri pesi per-asse in base al feedback cumulativo di expert-rating) supera l'autoresearch fixed-weight entro 50 run di feedback. TEST DI FALSIFICAZIONE: meta-autoresearch paired vs autoresearch fixed-weight su un benchmark di 100 run con expert rating dopo ciascuno. (Q9) IPOTESI: I novelty operator domain-specific (come nel §52) superano la novelty token-embedding-based di oltre 0.25 punti di correlazione expert-rating quando il research target è non-testuale o non-academic.
TEST DI FALSIFICAZIONE: confronto paired su 5 domain type.
Bibliografia
Karpathy A. (2024), autoresearch: a self-paced strategic loop, blog personale; Yao S. et al. (2023), ReAct: Synergizing Reasoning and Acting in Language Models, ICLR; Hong S. et al. (2024), MetaGPT: Meta Programming for Multi-Agent Collaboration, ICLR; Shen Y. et al. (2024), HuggingGPT: Solving AI Tasks with ChatGPT and its Friends, NeurIPS; Schick T. et al. (2023), Toolformer; Madani Lab (2026), skill autoresearch-madani v1.0 (open spec, autoresearch-madani/SKILL.md).
