{
	"version": "https://jsonfeed.org/version/1.1",
	"title": "Agentic and Generative AI",
	"language": "de",
	"home_page_url": "https://www.lottes.dev/",
	"feed_url": "https://www.lottes.dev/feed/feed.json",
	"description": "A New Era of Human-Machine Collaboration",
	"author": {
		"name": "Andreas Lottes",
		"url": "https://www.lottes.dev/"
	},
	"items": [
		{
			"id": "https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/",
			"url": "https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/",
			"title": "Generation de textes longs avec des LLMs a faible cout token Rapport d&#39;ingenierie",
			"content_html": "<p>Quand nous avons commence a generer des textes longs via une pipeline LLM, le probleme principal semblait etre la qualite du modele. En realite, c'etait surtout un sujet de systems engineering: taille des requetes, variance de latence, timeouts proxy et sorties non bornees.</p>\n<p>Ce rapport resume ce qui a fonctionne dans des conditions proches de la production quand les objectifs etaient:</p>\n<ul>\n<li>Generer des textes longs de maniere fiable,</li>\n<li>Garder la consommation de tokens previsible,</li>\n<li>Reduire le risque de timeout,</li>\n<li>Preserver la qualite sur des sorties multi-sections.</li>\n</ul>\n<h2 id=\"1-pourquoi-le-single-shot-prompting-a-echoue\" tabindex=\"-1\">1) Pourquoi le single-shot prompting a echoue <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h2>\n<p>L'approche naive etait une grosse requete unique avec le texte source complet et beaucoup de contexte. Cela a provoque trois problemes:</p>\n<ul>\n<li>Cout eleve en tokens d'entree a chaque execution,</li>\n<li>Forte variance de latence selon la longueur du prompt et la charge du modele,</li>\n<li>Erreurs gateway 504 meme quand le modele finissait par produire une reponse.</li>\n</ul>\n<p>Lecon cle: une reponse modele correcte ne sert a rien si un composant amont expire avant. La fiabilite doit etre concue au niveau pipeline, pas seulement au niveau modele.</p>\n<h2 id=\"2-architecture-qui-a-stabilise-la-generation-longue\" tabindex=\"-1\">2) Architecture qui a stabilise la generation longue <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h2>\n<p>Nous sommes passes d'une generation one-shot a une pipeline bornee, en plusieurs etapes.</p>\n<h3 id=\"etape-a-contexte-retrieval-avec-budgets-stricts\" tabindex=\"-1\">Etape A: Contexte retrieval, avec budgets stricts <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h3>\n<p>Au lieu d'envoyer tout le materiel associe, nous avons:</p>\n<ul>\n<li>Decoupe les sources en segments bases sur les paragraphes,</li>\n<li>Genere les embeddings une fois puis mis en cache,</li>\n<li>Selectionne seulement les chunks les plus pertinents pour chaque requete,</li>\n<li>Applique des limites: total de chunks, chunks par fichier, longueur des extraits, budget caracteres du retrieval.</li>\n</ul>\n<p>Cela a reduit le gaspillage de tokens repete et ameliore la predictibilite des requetes.</p>\n<h3 id=\"etape-b-budgeting-adaptatif-des-entrees\" tabindex=\"-1\">Etape B: Budgeting adaptatif des entrees <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h3>\n<p>Avant chaque appel modele, nous calculons un budget dynamique a partir de:</p>\n<ul>\n<li>Longueur du contenu courant,</li>\n<li>Longueur du prompt,</li>\n<li>Overhead attendu du system prompt.</li>\n</ul>\n<p>Si l'entree depasse le budget:</p>\n<ul>\n<li>Reduire d'abord le contexte retrieval,</li>\n<li>Puis tronquer le contenu principal avec une strategie de middle-trim controlee,</li>\n<li>Conserver la tete et la fin pour garder le cadrage et le contexte de conclusion.</li>\n</ul>\n<p>Cette approche donne une meilleure qualite qu'une troncature brutale d'un seul cote.</p>\n<h3 id=\"etape-c-generation-segmentee-pour-les-gros-textes\" tabindex=\"-1\">Etape C: Generation segmentee pour les gros textes <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h3>\n<p>Pour les grands documents, nous arretons la generation en passe unique.</p>\n<p>Flux:</p>\n<ul>\n<li>Decouper le texte en segments qui se chevauchent,</li>\n<li>Reviser chaque segment independamment avec un max output plus bas,</li>\n<li>Fusionner dans l'ordre d'origine,</li>\n<li>Lancer un passage final de coherence sur le texte fusionne.</li>\n</ul>\n<p>On remplace ainsi un appel fragile et massif par plusieurs appels plus fiables.</p>\n<h3 id=\"etape-d-passage-de-coherence\" tabindex=\"-1\">Etape D: Passage de coherence <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h3>\n<p>Apres la fusion des segments, nous appliquons un court passage global centre sur:</p>\n<ul>\n<li>Cohérence terminologique,</li>\n<li>Alignement du ton,</li>\n<li>Normalisation du style.</li>\n</ul>\n<p>Le prompting regle est essentiel ici: pas de nouveau contenu, pas de reecriture structurelle, pas de meta-commentaire.</p>\n<h2 id=\"3-controles-tokens-et-latence-les-plus-utiles\" tabindex=\"-1\">3) Controles tokens et latence les plus utiles <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h2>\n<p>Les controles les plus impactants ont ete:</p>\n<ul>\n<li>Max output tokens par appel, ajuste selon la taille d'entree,</li>\n<li>Budget retrieval reduit pour les documents volumineux,</li>\n<li>Moins de chunks retrieval pour les tres grosses entrees,</li>\n<li>Mode segmente active au-dessus d'un seuil de contenu,</li>\n<li>Contexte retrieval raccourci pendant les appels segmentes,</li>\n<li>Cache d'embeddings persistant indexe par hash de contenu.</li>\n</ul>\n<p>Le cache est critique. Sans lui, les workflows long-form paient les embeddings a repetition et perdent l'essentiel du gain d'efficacite.</p>\n<h2 id=\"4-controles-operationnels-et-observabilite\" tabindex=\"-1\">4) Controles operationnels et observabilite <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h2>\n<p>Nous avons ajoute un logging structure autour de chaque etape:</p>\n<ul>\n<li>Metadonnees de requete: model, input_chars, context_chars, max_tokens, timeout,</li>\n<li>Metadonnees retrieval: cache hits, fichiers nouvellement embeddes, chunks selectionnes, temps ecoule,</li>\n<li>Metadonnees segment: nombre de segments, taille de sortie par segment, statut du passage de coherence,</li>\n<li>Metadonnees outcome: modele source, raison du fallback, temps ecoule par fichier.</li>\n</ul>\n<p>Cela a transforme le debogage, passant de l'intuition a un ajustement mesurable.</p>\n<p>Par exemple, quand les appels echouaient exactement a la limite de timeout, nous savions qu'il s'agissait d'un comportement de timeout local ou client, et non d'un probleme de qualite de sortie du modele.</p>\n<h2 id=\"5-pattern-d-implementation-pratique\" tabindex=\"-1\">5) Pattern d'implementation pratique <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h2>\n<p>Strategie simple pour les developpeurs:</p>\n<ul>\n<li>Precalculer les limites a partir de la longueur du contenu et du prompt,</li>\n<li>Construire le contexte retrieval sous ces limites,</li>\n<li>Si le contenu depasse le seuil, activer le mode segmente,</li>\n<li>Appliquer un max output tokens a chaque appel modele,</li>\n<li>Fusionner et, si besoin, executer le passage de coherence,</li>\n<li>Persister la proposition et les metadonnees pour observabilite et retries.</li>\n</ul>\n<p>Pseudo-flux:</p>\n<pre class=\"language-text\" tabindex=\"0\"><code class=\"language-text\">compute limits\nretrieval_context = bounded_retrieval(...)\nif segmented_mode:\n  segments = split_with_overlap(...)\n  revised_segments = map(revise_segment)\n  merged = join(revised_segments)\n  final = consistency_pass(merged)\nelse:\n  final = revise_single_pass(...)\nstore result with source and error metadata</code></pre>\n<h2 id=\"6-compromis-et-points-de-vigilance\" tabindex=\"-1\">6) Compromis et points de vigilance <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h2>\n<p>Le mode segmente ameliore la fiabilite et la maitrise des couts, mais peut introduire des artefacts de fusion si le chevauchement est trop faible. Un chevauchement court plus un passage de coherence regle generalement ce point.</p>\n<p>Un trimming trop agressif degrade la qualite. Il faut toujours reduire d'abord le retrieval, puis le contenu seulement si necessaire.</p>\n<p>Un max output trop haut augmente le risque de timeout, trop bas produit des sorties tronquees. Utiliser des bandes dynamiques selon la taille d'entree plutot qu'une valeur fixe.</p>\n<h2 id=\"7-defaults-recommandes-pour-commencer\" tabindex=\"-1\">7) Defaults recommandes pour commencer <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h2>\n<ul>\n<li>Seuil de segmentation: environ 26k caracteres,</li>\n<li>Taille de segment: environ 5k caracteres avec 300-350 de chevauchement,</li>\n<li>Budget retrieval: plus eleve pour les petits documents, plus bas pour les grands,</li>\n<li>Max output tokens: plus bas pour petits documents, modere pour grands documents, avec plafond,</li>\n<li>Timeout: timeout modele au-dessus du temps moyen de reponse, timeout gateway au-dessus du timeout modele.</li>\n</ul>\n<h2 id=\"conclusion-essentielle\" tabindex=\"-1\">Conclusion essentielle <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/generer-des-textes-longs-avec-des-llms-a-cout-token-reduit/\">#</a></h2>\n<p>La generation long-form avec faible cout token est surtout un probleme de design de pipeline, pas une astuce de prompting. Le pattern gagnant est:</p>\n<ul>\n<li>Recuperer moins mais mieux,</li>\n<li>Budgeter agressivement les entrees,</li>\n<li>Segmenter les gros travaux,</li>\n<li>Plafonner les sorties,</li>\n<li>Instrumenter l'ensemble.</li>\n</ul>\n<p>Cette combinaison donne des couts plus faibles, moins de 504 et une qualite de texte long plus previsible pour des workflows d'ingenierie reels.</p>\n",
			"date_published": "2026-04-02T00:00:00Z"
		}
,		{
			"id": "https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/",
			"url": "https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/",
			"title": "Long-Form LLM Generation With Low Token Cost An Engineering Report",
			"content_html": "<p>When we started generating long-form text through an LLM pipeline, the main problem looked like model quality. In reality, it was mostly systems engineering: request size, latency variance, proxy timeouts, and unbounded output.</p>\n<p>This report summarizes what worked in production-like conditions when the goal was:</p>\n<ul>\n<li>Generate long text reliably,</li>\n<li>Keep token usage predictable,</li>\n<li>Reduce timeout risk,</li>\n<li>Preserve quality over multi-section outputs.</li>\n</ul>\n<h2 id=\"1-why-single-shot-prompting-failed\" tabindex=\"-1\">1) Why single-shot prompting failed <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h2>\n<p>The naive approach was one large request with full source text plus lots of context. This caused three issues:</p>\n<ul>\n<li>Large input token cost on every run,</li>\n<li>High latency variance depending on prompt length and model load,</li>\n<li>Gateway 504s even when the model eventually produced a response.</li>\n</ul>\n<p>Key lesson: a successful model response is irrelevant if any upstream component times out first. Reliability must be designed at pipeline level, not only at model level.</p>\n<h2 id=\"2-architecture-that-made-long-text-stable\" tabindex=\"-1\">2) Architecture that made long text stable <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h2>\n<p>We switched from one-shot generation to a bounded, staged pipeline.</p>\n<h3 id=\"stage-a-retrieval-context-but-with-strict-budgets\" tabindex=\"-1\">Stage A: Retrieval context, but with strict budgets <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h3>\n<p>Instead of passing all related material, we:</p>\n<ul>\n<li>Chunked source files into paragraph-based segments,</li>\n<li>Generated embeddings once and cached them,</li>\n<li>Selected only top relevant chunks for each request,</li>\n<li>Applied caps: total chunks, per-file chunks, snippet length, and retrieval character budget.</li>\n</ul>\n<p>This reduced repeated token waste and improved request predictability.</p>\n<h3 id=\"stage-b-adaptive-input-budgeting\" tabindex=\"-1\">Stage B: Adaptive input budgeting <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h3>\n<p>Before every model call, we compute a dynamic budget from:</p>\n<ul>\n<li>Current content length,</li>\n<li>Prompt length,</li>\n<li>Expected system prompt overhead.</li>\n</ul>\n<p>If input would exceed budget:</p>\n<ul>\n<li>Shrink retrieval context first,</li>\n<li>Then trim main content with a controlled middle-trim strategy,</li>\n<li>Keep the head and tail to preserve framing and conclusion context.</li>\n</ul>\n<p>This gives better quality than hard truncation from one side.</p>\n<h3 id=\"stage-c-segmented-generation-for-large-texts\" tabindex=\"-1\">Stage C: Segmented generation for large texts <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h3>\n<p>For large documents, we stop doing single-pass generation.</p>\n<p>Flow:</p>\n<ul>\n<li>Split text into overlapping segments,</li>\n<li>Revise each segment independently with smaller max output,</li>\n<li>Merge in original order,</li>\n<li>Run a final consistency pass over merged text.</li>\n</ul>\n<p>This turns one fragile large call into several safer calls.</p>\n<h3 id=\"stage-d-consistency-pass\" tabindex=\"-1\">Stage D: Consistency pass <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h3>\n<p>After segment merge, we run one short global pass focused only on:</p>\n<ul>\n<li>Terminology consistency,</li>\n<li>Tone alignment,</li>\n<li>Style normalization.</li>\n</ul>\n<p>Rule-based prompting here is important: no new content, no structural rewrite, no meta commentary.</p>\n<h2 id=\"3-token-and-latency-controls-that-mattered-most\" tabindex=\"-1\">3) Token and latency controls that mattered most <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h2>\n<p>These controls had the biggest impact:</p>\n<ul>\n<li>Max output tokens per call, adjusted by input size,</li>\n<li>Retrieval budget reduced for larger documents,</li>\n<li>Fewer retrieval chunks for very large inputs,</li>\n<li>Segment mode enabled above a content threshold,</li>\n<li>Shortened retrieval context during segment calls,</li>\n<li>Persistent embedding cache keyed by content hash.</li>\n</ul>\n<p>The cache is critical. Without it, long-form workflows pay embedding costs repeatedly and lose most of the efficiency gain.</p>\n<h2 id=\"4-operational-controls-and-observability\" tabindex=\"-1\">4) Operational controls and observability <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h2>\n<p>We added structured logging around each stage:</p>\n<ul>\n<li>Request metadata: model, input_chars, context_chars, max_tokens, timeout,</li>\n<li>Retrieval metadata: cache hits, newly embedded files, selected chunks, elapsed time,</li>\n<li>Segment metadata: segment count, per-segment output size, consistency pass status,</li>\n<li>Outcome metadata: source model, fallback reason, per-file elapsed time.</li>\n</ul>\n<p>This changed debugging from guesswork to measurable tuning.</p>\n<p>For example, when calls failed at exactly the timeout boundary, we knew it was local or client timeout behavior, not model output quality.</p>\n<h2 id=\"5-practical-implementation-pattern\" tabindex=\"-1\">5) Practical implementation pattern <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h2>\n<p>A simple implementation strategy for coders:</p>\n<ul>\n<li>Precompute limits from content and prompt length,</li>\n<li>Build retrieval context under those limits,</li>\n<li>If content exceeds threshold, use segment mode,</li>\n<li>Apply max output tokens for every model call,</li>\n<li>Merge and optionally run consistency pass,</li>\n<li>Persist proposal plus metadata for observability and retries.</li>\n</ul>\n<p>Pseudo flow:</p>\n<pre class=\"language-text\" tabindex=\"0\"><code class=\"language-text\">compute limits\nretrieval_context = bounded_retrieval(...)\nif segmented_mode:\n  segments = split_with_overlap(...)\n  revised_segments = map(revise_segment)\n  merged = join(revised_segments)\n  final = consistency_pass(merged)\nelse:\n  final = revise_single_pass(...)\nstore result with source and error metadata</code></pre>\n<h2 id=\"6-trade-offs-and-what-to-watch\" tabindex=\"-1\">6) Trade-offs and what to watch <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h2>\n<p>Segment mode improves reliability and cost control, but can introduce merge artifacts if overlap is too small. A short overlap plus consistency pass usually solves this.</p>\n<p>Overly aggressive trimming lowers quality. Always trim retrieval first, then content only if needed.</p>\n<p>Max output set too high increases timeout risk, while too low causes cut-off responses. Use dynamic bands based on input size rather than one fixed value.</p>\n<h2 id=\"7-recommended-defaults-to-start-with\" tabindex=\"-1\">7) Recommended defaults to start with <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h2>\n<ul>\n<li>Segment threshold: around 26k characters,</li>\n<li>Segment size: around 5k characters with 300-350 overlap,</li>\n<li>Retrieval budget: higher for small docs, lower for large docs,</li>\n<li>Max output tokens: lower for small docs, moderate for large docs, but capped,</li>\n<li>Timeout: model timeout higher than average response time, gateway timeout higher than model timeout.</li>\n</ul>\n<h2 id=\"final-takeaway\" tabindex=\"-1\">Final takeaway <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/generating-long-text-with-llms-at-lower-token-cost/\">#</a></h2>\n<p>Long-form LLM generation at low token cost is mostly a pipeline design problem, not a prompting trick. The winning pattern is:</p>\n<ul>\n<li>Retrieve less but better,</li>\n<li>Budget inputs aggressively,</li>\n<li>Segment large work,</li>\n<li>Cap outputs,</li>\n<li>Instrument everything.</li>\n</ul>\n<p>That combination gives lower cost, fewer 504s, and more predictable long-text quality for real engineering workflows.</p>\n",
			"date_published": "2026-04-02T00:00:00Z"
		}
,		{
			"id": "https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/",
			"url": "https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/",
			"title": "Long-Form-LLM-Generierung mit niedrigen Token-Kosten Ein Engineering-Report",
			"content_html": "<p>Als wir begonnen haben, lange Texte ueber eine LLM-Pipeline zu erzeugen, sah das Hauptproblem zuerst nach Modellqualitaet aus. In der Praxis war es vor allem Systems Engineering: Request-Groesse, Latenzvarianz, Proxy-Timeouts und unbegrenzter Output.</p>\n<p>Dieser Bericht fasst zusammen, was unter produktionsnahen Bedingungen funktioniert hat, wenn die Ziele waren:</p>\n<ul>\n<li>Lange Texte zuverlaessig erzeugen,</li>\n<li>Tokenverbrauch vorhersagbar halten,</li>\n<li>Timeout-Risiko senken,</li>\n<li>Qualitaet ueber mehrere Abschnitte erhalten.</li>\n</ul>\n<h2 id=\"1-warum-single-shot-prompting-scheiterte\" tabindex=\"-1\">1) Warum Single-Shot-Prompting scheiterte <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h2>\n<p>Der naive Ansatz war ein grosser Request mit vollem Quelltext plus viel Kontext. Das fuehrte zu drei Problemen:</p>\n<ul>\n<li>Hohe Input-Token-Kosten bei jedem Lauf,</li>\n<li>Hohe Latenzvarianz je nach Promptlaenge und Modelllast,</li>\n<li>Gateway-504s, obwohl das Modell spaeter noch eine Antwort lieferte.</li>\n</ul>\n<p>Zentrale Erkenntnis: Eine erfolgreiche Modellantwort ist wertlos, wenn eine vorgelagerte Komponente vorher in den Timeout laeuft. Zuverlaessigkeit muss auf Pipeline-Ebene entworfen werden, nicht nur auf Modell-Ebene.</p>\n<h2 id=\"2-architektur-die-lange-texte-stabil-gemacht-hat\" tabindex=\"-1\">2) Architektur, die lange Texte stabil gemacht hat <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h2>\n<p>Wir sind von One-Shot-Generierung auf eine begrenzte, mehrstufige Pipeline gewechselt.</p>\n<h3 id=\"stufe-a-retrieval-kontext-mit-strikten-budgets\" tabindex=\"-1\">Stufe A: Retrieval-Kontext mit strikten Budgets <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h3>\n<p>Statt alles verwandte Material mitzuschicken, haben wir:</p>\n<ul>\n<li>Quelltexte in absatzbasierte Segmente gechunkt,</li>\n<li>Embeddings einmal erzeugt und gecacht,</li>\n<li>Pro Request nur die relevantesten Chunks gewaehlt,</li>\n<li>Harte Limits gesetzt: Gesamtzahl Chunks, Chunks pro Datei, Snippetlaenge und Retrieval-Zeichenbudget.</li>\n</ul>\n<p>Das reduzierte wiederholte Tokenverschwendung und machte Requests vorhersagbarer.</p>\n<h3 id=\"stufe-b-adaptives-input-budgeting\" tabindex=\"-1\">Stufe B: Adaptives Input-Budgeting <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h3>\n<p>Vor jedem Modellaufruf berechnen wir ein dynamisches Budget aus:</p>\n<ul>\n<li>Aktueller Inhaltslaenge,</li>\n<li>Promptlaenge,</li>\n<li>Erwartetem Overhead des Systemprompts.</li>\n</ul>\n<p>Wenn der Input das Budget ueberschreiten wuerde:</p>\n<ul>\n<li>Zuerst Retrieval-Kontext reduzieren,</li>\n<li>Dann Hauptinhalt mit kontrollierter Middle-Trim-Strategie kuerzen,</li>\n<li>Kopf und Ende behalten, damit Einleitung und Schlusskontext erhalten bleiben.</li>\n</ul>\n<p>Das liefert bessere Qualitaet als harte Abschneidung nur von einer Seite.</p>\n<h3 id=\"stufe-c-segmentierte-generierung-fuer-grosse-texte\" tabindex=\"-1\">Stufe C: Segmentierte Generierung fuer grosse Texte <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h3>\n<p>Bei grossen Dokumenten verzichten wir auf Single-Pass-Generierung.</p>\n<p>Ablauf:</p>\n<ul>\n<li>Text in ueberlappende Segmente aufteilen,</li>\n<li>Jedes Segment separat mit kleinerem Max-Output ueberarbeiten,</li>\n<li>In Originalreihenfolge zusammenfuehren,</li>\n<li>Einen finalen Konsistenz-Pass ueber den Gesamttext laufen lassen.</li>\n</ul>\n<p>So wird aus einem fragilen Grossaufruf eine Reihe robusterer Kleinaufrufe.</p>\n<h3 id=\"stufe-d-konsistenz-pass\" tabindex=\"-1\">Stufe D: Konsistenz-Pass <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h3>\n<p>Nach dem Zusammenfuehren laeuft ein kurzer globaler Pass mit Fokus auf:</p>\n<ul>\n<li>Terminologiekonsistenz,</li>\n<li>Tonalitaetsabgleich,</li>\n<li>Stilharmonisierung.</li>\n</ul>\n<p>Wichtig ist hier regelbasiertes Prompting: kein neuer Inhalt, kein strukturelles Umschreiben, keine Meta-Kommentare.</p>\n<h2 id=\"3-token-und-latenz-kontrollen-mit-groesster-wirkung\" tabindex=\"-1\">3) Token- und Latenz-Kontrollen mit groesster Wirkung <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h2>\n<p>Diese Kontrollen hatten den groessten Effekt:</p>\n<ul>\n<li>Max-Output-Tokens pro Aufruf, angepasst an die Input-Groesse,</li>\n<li>Reduziertes Retrieval-Budget bei groesseren Dokumenten,</li>\n<li>Weniger Retrieval-Chunks bei sehr grossen Inputs,</li>\n<li>Segmentmodus oberhalb einer Inhalts-Schwelle,</li>\n<li>Verkuerzter Retrieval-Kontext waehrend Segmentaufrufen,</li>\n<li>Persistenter Embedding-Cache mit Content-Hash als Schluessel.</li>\n</ul>\n<p>Der Cache ist kritisch. Ohne ihn bezahlt ein Long-Form-Workflow Embedding-Kosten immer wieder und verliert den Grossteil des Effizienzgewinns.</p>\n<h2 id=\"4-betriebskontrollen-und-observability\" tabindex=\"-1\">4) Betriebskontrollen und Observability <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h2>\n<p>Wir haben strukturiertes Logging rund um jede Stufe eingefuehrt:</p>\n<ul>\n<li>Request-Metadaten: model, input_chars, context_chars, max_tokens, timeout,</li>\n<li>Retrieval-Metadaten: Cache-Hits, neu eingebettete Dateien, ausgewaehlte Chunks, Laufzeit,</li>\n<li>Segment-Metadaten: Segmentanzahl, Output-Groesse je Segment, Status des Konsistenz-Passes,</li>\n<li>Outcome-Metadaten: Quellmodell, Fallback-Grund, Laufzeit pro Datei.</li>\n</ul>\n<p>Dadurch wurde Debugging von Bauchgefuehl zu messbarem Tuning.</p>\n<p>Wenn Aufrufe exakt an der Timeout-Grenze scheiterten, war klar: lokales oder clientseitiges Timeout-Verhalten, nicht mangelnde Modellqualitaet.</p>\n<h2 id=\"5-praktisches-implementierungsmuster\" tabindex=\"-1\">5) Praktisches Implementierungsmuster <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h2>\n<p>Eine einfache Implementierungsstrategie fuer Entwickler:</p>\n<ul>\n<li>Limits aus Inhalts- und Promptlaenge vorab berechnen,</li>\n<li>Retrieval-Kontext innerhalb dieser Limits aufbauen,</li>\n<li>Bei Ueberschreiten der Schwelle Segmentmodus aktivieren,</li>\n<li>Fuer jeden Modellaufruf Max-Output-Tokens setzen,</li>\n<li>Zusammenfuehren und optional Konsistenz-Pass ausfuehren,</li>\n<li>Vorschlag plus Metadaten fuer Observability und Retries persistieren.</li>\n</ul>\n<p>Pseudo-Flow:</p>\n<pre class=\"language-text\" tabindex=\"0\"><code class=\"language-text\">compute limits\nretrieval_context = bounded_retrieval(...)\nif segmented_mode:\n  segments = split_with_overlap(...)\n  revised_segments = map(revise_segment)\n  merged = join(revised_segments)\n  final = consistency_pass(merged)\nelse:\n  final = revise_single_pass(...)\nstore result with source and error metadata</code></pre>\n<h2 id=\"6-trade-offs-und-worauf-man-achten-sollte\" tabindex=\"-1\">6) Trade-offs und worauf man achten sollte <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h2>\n<p>Segmentmodus verbessert Zuverlaessigkeit und Kostenkontrolle, kann aber Merge-Artefakte erzeugen, wenn die Ueberlappung zu klein ist. Eine kurze Ueberlappung plus Konsistenz-Pass loest das meist.</p>\n<p>Zu aggressives Trimming senkt die Qualitaet. Immer erst Retrieval kuerzen, dann erst bei Bedarf den Hauptinhalt.</p>\n<p>Zu hoher Max-Output erhoeht das Timeout-Risiko, zu niedriger verursacht abgeschnittene Antworten. Besser dynamische Baender nach Input-Groesse statt eines festen Werts.</p>\n<h2 id=\"7-empfohlene-defaults-fuer-den-start\" tabindex=\"-1\">7) Empfohlene Defaults fuer den Start <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h2>\n<ul>\n<li>Segment-Schwelle: etwa 26k Zeichen,</li>\n<li>Segmentgroesse: etwa 5k Zeichen mit 300-350 Ueberlappung,</li>\n<li>Retrieval-Budget: hoeher bei kleinen Dokumenten, niedriger bei grossen,</li>\n<li>Max-Output-Tokens: niedriger bei kleinen Dokumenten, moderat bei grossen, aber gedeckelt,</li>\n<li>Timeout: Modell-Timeout ueber der durchschnittlichen Antwortzeit, Gateway-Timeout ueber dem Modell-Timeout.</li>\n</ul>\n<h2 id=\"zentrales-fazit\" tabindex=\"-1\">Zentrales Fazit <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/lange-texte-mit-llms-zu-geringeren-token-kosten/\">#</a></h2>\n<p>Long-Form-LLM-Generierung mit niedrigen Token-Kosten ist primaer ein Pipeline-Design-Problem, kein Prompt-Trick. Das erfolgreiche Muster ist:</p>\n<ul>\n<li>Weniger, aber besseres Retrieval,</li>\n<li>Aggressives Input-Budgeting,</li>\n<li>Segmentierung grosser Arbeitspakete,</li>\n<li>Output-Caps,</li>\n<li>Vollstaendige Instrumentierung.</li>\n</ul>\n<p>Diese Kombination liefert niedrigere Kosten, weniger 504s und besser vorhersagbare Qualitaet fuer reale Engineering-Workflows.</p>\n",
			"date_published": "2026-04-02T00:00:00Z"
		}
,		{
			"id": "https://www.lottes.dev/fr/blog/du-chaos-de-prompts-au-flux-agentique-mon-plus-grand-levier/",
			"url": "https://www.lottes.dev/fr/blog/du-chaos-de-prompts-au-flux-agentique-mon-plus-grand-levier/",
			"title": "Du chaos de prompts au flux agentique mon plus grand levier sur cette application",
			"content_html": "<p>Le point de depart de ce projet etait un workflow LLM classique orchestre manuellement: rediger un prompt, extraire une reponse, la transferer vers un autre modele, affiner, puis consolider les resultats intermediaires. Cette approche fonctionne, mais elle genere une part elevee de travail non createur de valeur, notamment via les changements de contexte, le copy/paste et des etats intermediaires incoherents.</p>\n<p>Le principal levier n'a donc pas ete une optimisation supplementaire des prompts, mais un changement d'architecture de processus: passer a des workflows agentiques qui prennent en charge la planification, la selection des modeles et l'integration des resultats dans une boucle d'execution continue.</p>\n<h2 id=\"question-et-validation\" tabindex=\"-1\">Question et validation <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/du-chaos-de-prompts-au-flux-agentique-mon-plus-grand-levier/\">#</a></h2>\n<p>La these directrice est la suivante: dans les configurations multi-LLM, les gains de productivite proviennent principalement de la reduction des couts d'orchestration, et pas uniquement d'un meilleur prompt unitaire. Dans mon contexte projet, cette these est observee de maniere coherente et reste compatible avec les travaux actuels sur l'IA agentique.</p>\n<p>Les constats les plus robustes sont:</p>\n<ul>\n<li>le multi-prompting manuel cree de la friction par changements de contexte,</li>\n<li>les workflows agentiques reduisent la charge de coordination,</li>\n<li>le gain de productivite apparait surtout au niveau du processus,</li>\n<li>les setups multi-LLM deviennent reellement efficaces quand les transitions sont orchestrees.</li>\n</ul>\n<p>Ce billet reste volontairement qualitatif. Je n'utilise pas de pourcentages generiques sans protocole de mesure comparatif explicite.</p>\n<h2 id=\"processus-de-depart-orchestration-multi-llm-manuelle\" tabindex=\"-1\">Processus de depart: orchestration multi-LLM manuelle <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/du-chaos-de-prompts-au-flux-agentique-mon-plus-grand-levier/\">#</a></h2>\n<p>Un cycle d'implementation typique suivait les etapes suivantes:</p>\n<ol>\n<li>analyser le probleme avec le modele A,</li>\n<li>contre-verifier la solution avec le modele B,</li>\n<li>generer le code avec le modele C,</li>\n<li>fusionner manuellement les resultats,</li>\n<li>corriger et reiterer.</li>\n</ol>\n<p>Ce schema etait operationnel, mais fortement frictionnel: chaque changement de modele impliquait re-contextualisation, rupture d'outil et risque d'integration accru.</p>\n<h2 id=\"processus-cible-flux-agentique-de-bout-en-bout\" tabindex=\"-1\">Processus cible: flux agentique de bout en bout <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/du-chaos-de-prompts-au-flux-agentique-mon-plus-grand-levier/\">#</a></h2>\n<p>En mode agentique, la sequence devient structurellement plus simple:</p>\n<ol>\n<li>definir objectif et contraintes,</li>\n<li>laisser l'agent decomposer la tache,</li>\n<li>laisser l'agent choisir le systeme LLM pertinent pour chaque etape,</li>\n<li>laisser l'agent consolider les resultats intermediaires,</li>\n<li>reviewer la qualite finale plutot que reconstituer des fragments.</li>\n</ol>\n<p>La difference decisive est le lieu de l'orchestration: la coordination passe de l'operateur humain au workflow.</p>\n<h2 id=\"mecanisme-du-gain-de-temps\" tabindex=\"-1\">Mecanisme du gain de temps <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/du-chaos-de-prompts-au-flux-agentique-mon-plus-grand-levier/\">#</a></h2>\n<p>Le gain observe ne vient pas principalement d'une vitesse brute de generation, mais d'une reduction de friction de processus:</p>\n<ul>\n<li>moins de copie manuelle entre modeles,</li>\n<li>moins de re-explication de contexte,</li>\n<li>moins de ruptures entre outils,</li>\n<li>moins d'erreurs dues a des etats intermediaires incoherents.</li>\n</ul>\n<p>Au total, le temps de cycle diminue a qualite stable.</p>\n<h2 id=\"pattern-d-architecture-robuste-dans-ce-projet\" tabindex=\"-1\">Pattern d'architecture robuste dans ce projet <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/du-chaos-de-prompts-au-flux-agentique-mon-plus-grand-levier/\">#</a></h2>\n<p>Un pattern multi-LLM par roles s'est revele particulierement robuste sans changement manuel d'interface:</p>\n<ul>\n<li>Systeme A pour la structuration,</li>\n<li>Systeme B pour la transformation de code,</li>\n<li>Systeme C pour la critique, les tests et les cas limites.</li>\n</ul>\n<p>L'agent orchestre ces specialisations dans un flux de controle unique. La plus grande valeur apparait aux points de passage qui constituaient auparavant le principal cout de coordination.</p>\n<h2 id=\"implications-pratiques\" tabindex=\"-1\">Implications pratiques <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/du-chaos-de-prompts-au-flux-agentique-mon-plus-grand-levier/\">#</a></h2>\n<ul>\n<li>Le levier principal est la conception du processus, pas l'optimisation isolee d'un prompt.</li>\n<li>Les agents performants se definissent mieux comme des workflows controles avec quality gates explicites que comme des prompts uniques.</li>\n<li>Les architectures multi-LLM prennent leur valeur quand les transitions entre systemes specialises sont automatisees.</li>\n<li>Les gains de productivite les plus significatifs apparaissent la ou les couts de coordination et de contexte diminuent.</li>\n</ul>\n<h2 id=\"conclusion\" tabindex=\"-1\">Conclusion <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/du-chaos-de-prompts-au-flux-agentique-mon-plus-grand-levier/\">#</a></h2>\n<p>Le resultat central de ce projet est clair: dans ce contexte, les workflows agentiques sont plus productifs que le multi-prompting manuel coordonne par copy/paste.</p>\n<p>Non pas parce que les modeles sont soudainement &quot;magiques&quot;, mais parce que leurs forces complementaires peuvent etre orchestrees dans un processus d'execution stable.</p>\n<p>En une formule:</p>\n<p>Moins de jonglage de prompts, plus de flux agentique continu.</p>\n",
			"date_published": "2026-03-26T00:00:00Z"
		}
,		{
			"id": "https://www.lottes.dev/en/blog/from-prompt-chaos-to-agent-flow-my-biggest-leverage/",
			"url": "https://www.lottes.dev/en/blog/from-prompt-chaos-to-agent-flow-my-biggest-leverage/",
			"title": "From Prompt Chaos to Agent Flow My Biggest Leverage Building This App",
			"content_html": "<p>The starting point of this project was a classic manually orchestrated LLM workflow: write a prompt, extract an answer, move it into another model, refine it, then manually consolidate intermediate results. This approach is functional, but it creates a high share of non-value-added work through context switching, copy/paste overhead, and inconsistent intermediate states.</p>\n<p>The primary leverage was therefore not further prompt tuning, but a shift in process architecture: moving to agentic workflows that handle planning, model selection, and result integration inside a continuous execution loop.</p>\n<h2 id=\"research-focus-and-validation\" tabindex=\"-1\">Research Focus and Validation <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/from-prompt-chaos-to-agent-flow-my-biggest-leverage/\">#</a></h2>\n<p>The guiding thesis is: productivity gains in multi-LLM setups come primarily from reduced orchestration costs, not only from better single prompts. In my project context, this thesis is consistently observable and aligned with the current discussion around agentic AI.</p>\n<p>The following points are especially robust:</p>\n<ul>\n<li>Manual multi-prompting creates friction through context switching.</li>\n<li>Agentic workflows reduce coordination overhead.</li>\n<li>Productivity gains often emerge at process level, not prompt level.</li>\n<li>Multi-LLM setups become effective when handovers are orchestrated.</li>\n</ul>\n<p>This article is intentionally qualitative. I avoid blanket percentage claims unless supported by a clear comparative measurement design.</p>\n<h2 id=\"baseline-process-manual-multi-llm-orchestration\" tabindex=\"-1\">Baseline Process: Manual Multi-LLM Orchestration <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/from-prompt-chaos-to-agent-flow-my-biggest-leverage/\">#</a></h2>\n<p>A typical implementation cycle previously followed these steps:</p>\n<ol>\n<li>Analyze the problem in model A.</li>\n<li>Cross-check the solution in model B.</li>\n<li>Generate code in model C.</li>\n<li>Merge all outputs manually.</li>\n<li>Fix issues and iterate.</li>\n</ol>\n<p>This flow was workable, but systematically friction-heavy: each model switch implied re-contextualization, tool interruption, and higher integration risk.</p>\n<h2 id=\"target-process-agentic-end-to-end-flow\" tabindex=\"-1\">Target Process: Agentic End-to-End Flow <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/from-prompt-chaos-to-agent-flow-my-biggest-leverage/\">#</a></h2>\n<p>In an agentic mode, the sequence becomes structurally simpler:</p>\n<ol>\n<li>Define objective and boundaries.</li>\n<li>Agent decomposes the task into steps.</li>\n<li>Agent selects the most suitable LLM system per step.</li>\n<li>Agent consolidates intermediate outputs.</li>\n<li>I review quality rather than stitching raw fragments.</li>\n</ol>\n<p>The key difference is where orchestration happens: coordination shifts from the developer's head into the workflow.</p>\n<h2 id=\"mechanism-behind-the-time-gain\" tabindex=\"-1\">Mechanism Behind the Time Gain <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/from-prompt-chaos-to-agent-flow-my-biggest-leverage/\">#</a></h2>\n<p>The observed efficiency gain comes less from isolated model speed and more from reduced process friction:</p>\n<ul>\n<li>less manual copying between models,</li>\n<li>less repeated context explanation,</li>\n<li>fewer media breaks across tools,</li>\n<li>fewer errors from inconsistent intermediate states.</li>\n</ul>\n<p>As a result, throughput improves while maintaining stable output quality.</p>\n<h2 id=\"a-robust-architecture-pattern-in-this-project\" tabindex=\"-1\">A Robust Architecture Pattern in This Project <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/from-prompt-chaos-to-agent-flow-my-biggest-leverage/\">#</a></h2>\n<p>A role-based multi-LLM pattern proved particularly robust without manual UI switching:</p>\n<ul>\n<li>System A for structuring,</li>\n<li>System B for code transformation,</li>\n<li>System C for critique, tests, and edge cases.</li>\n</ul>\n<p>The agent orchestrates these specializations within one control flow. Most of the value appears at handover points that previously created the highest coordination burden.</p>\n<h2 id=\"practical-implications\" tabindex=\"-1\">Practical Implications <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/from-prompt-chaos-to-agent-flow-my-biggest-leverage/\">#</a></h2>\n<ul>\n<li>The dominant leverage is process design, not isolated prompt optimization.</li>\n<li>High-performing agents are better understood as controlled workflows with explicit quality gates than as single prompts.</li>\n<li>Multi-LLM architectures realize their value when transitions between specialized systems are automated.</li>\n<li>Meaningful productivity gains occur where coordination and context costs are systematically reduced.</li>\n</ul>\n<h2 id=\"conclusion\" tabindex=\"-1\">Conclusion <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/from-prompt-chaos-to-agent-flow-my-biggest-leverage/\">#</a></h2>\n<p>The central result of this app project is clear: in this context, agentic workflows are more productive than manual multi-prompting with copy/paste-based coordination.</p>\n<p>Not because single models suddenly became magical, but because their complementary strengths can be orchestrated in a stable execution process.</p>\n<p>In one line:</p>\n<p>Less prompt juggling, more continuous agent flow.</p>\n",
			"date_published": "2026-03-26T00:00:00Z"
		}
,		{
			"id": "https://www.lottes.dev/de/blog/vom-prompt-chaos-zum-agent-flow-mein-groesster-hebel/",
			"url": "https://www.lottes.dev/de/blog/vom-prompt-chaos-zum-agent-flow-mein-groesster-hebel/",
			"title": "Vom Prompt-Chaos zum Agent-Flow mein groesster Hebel beim Bau dieser App",
			"content_html": "<p>Ausgangspunkt dieses Projekts war ein klassischer, manuell orchestrierter LLM-Workflow: Prompt formulieren, Antwort extrahieren, in ein weiteres Modell ueberfuehren, dort weiter verarbeiten und anschliessend die Teilergebnisse konsolidieren. Dieser Ansatz ist funktional, erzeugt jedoch einen hohen Anteil nicht-wertschoepfender Arbeit in Form von Kontextwechseln, Copy-Paste-Operationen und inkonsistenten Zwischenstaenden.</p>\n<p>Der zentrale Hebel lag daher nicht in weiterer Prompt-Optimierung, sondern in einer Veraenderung der Prozessarchitektur: dem Uebergang zu agentischen Workflows, die Planung, Modellselektion und Ergebnisintegration innerhalb eines durchgaengigen Ausfuehrungszyklus uebernehmen.</p>\n<h2 id=\"erkenntnisinteresse-und-validierung\" tabindex=\"-1\">Erkenntnisinteresse und Validierung <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/vom-prompt-chaos-zum-agent-flow-mein-groesster-hebel/\">#</a></h2>\n<p>Die leitende These lautet: Produktivitaetsgewinne in Multi-LLM-Setups entstehen primaer durch reduzierte Orchestrierungskosten, nicht ausschliesslich durch bessere Einzelprompts. Diese These ist aus meiner Projekterfahrung konsistent beobachtbar und mit dem aktuellen Diskurs zu agentischer KI vereinbar.</p>\n<p>Fachlich tragfaehig sind insbesondere folgende Punkte:</p>\n<ul>\n<li>Manuelles Multi-Prompting erzeugt Reibung durch Kontextwechsel.</li>\n<li>Agentische Workflows reduzieren Koordinationsaufwand.</li>\n<li>Der Produktivitaetsgewinn entsteht oft im Prozess, nicht im Einzelprompt.</li>\n<li>Multi-LLM-Setups werden dann wirksam, wenn Orchestrierung uebernommen wird.</li>\n</ul>\n<p>Der Beitrag bleibt bewusst qualitativ. Auf pauschale Prozentangaben verzichte ich, solange keine belastbare Vergleichsmessung mit definierter Methodik vorliegt.</p>\n<h2 id=\"ausgangsprozess-manuelle-multi-llm-orchestrierung\" tabindex=\"-1\">Ausgangsprozess: Manuelle Multi-LLM-Orchestrierung <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/vom-prompt-chaos-zum-agent-flow-mein-groesster-hebel/\">#</a></h2>\n<p>Ein typischer Implementierungszyklus bestand aus den folgenden Schritten:</p>\n<ol>\n<li>Problem in Modell A analysieren lassen.</li>\n<li>Loesung in Modell B gegenchecken.</li>\n<li>Code in Modell C erzeugen lassen.</li>\n<li>Alles manuell zusammenfuehren.</li>\n<li>Fehler korrigieren und Iteration wiederholen.</li>\n</ol>\n<p>Dieser Ablauf war zwar prinzipiell wirksam, jedoch mit systematischer Friktion verbunden: Jeder Modellwechsel implizierte Re-Kontextualisierung, Medienbruch und erhoehtes Fehlerrisiko bei der Zusammenfuehrung.</p>\n<h2 id=\"zielprozess-agentischer-end-to-end-flow\" tabindex=\"-1\">Zielprozess: Agentischer End-to-End-Flow <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/vom-prompt-chaos-zum-agent-flow-mein-groesster-hebel/\">#</a></h2>\n<p>Im agentischen Modus ist die Sequenz strukturell vereinfacht:</p>\n<ol>\n<li>Ziel und Grenzen definieren.</li>\n<li>Agent zerlegt die Aufgabe in Schritte.</li>\n<li>Agent waehlt pro Schritt das passende LLM-System.</li>\n<li>Agent fuehrt Teilergebnisse zusammen.</li>\n<li>Ich reviewe Ergebnisqualitaet statt Rohmaterial.</li>\n</ol>\n<p>Der entscheidende Unterschied besteht in der Verlagerung der Orchestrierungslogik: Die Koordination liegt nicht mehr primar beim Entwickler, sondern im Workflow selbst.</p>\n<h2 id=\"wirkmechanismus-des-zeitgewinns\" tabindex=\"-1\">Wirkmechanismus des Zeitgewinns <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/vom-prompt-chaos-zum-agent-flow-mein-groesster-hebel/\">#</a></h2>\n<p>Der beobachtete Effizienzgewinn resultiert weniger aus isolierter Modellgeschwindigkeit, sondern aus einer Reduktion prozessualer Reibung:</p>\n<ul>\n<li>weniger manuelles Kopieren zwischen Modellen,</li>\n<li>weniger erneutes Erklaeren von Kontext,</li>\n<li>weniger Medienbrueche zwischen Tools,</li>\n<li>weniger Fehler durch inkonsistente Zwischenstaende.</li>\n</ul>\n<p>In Summe sinkt die Durchlaufzeit bei stabiler Ergebnisqualitaet, da Koordinationsaufwand durch Automatisierung substituiert wird.</p>\n<h2 id=\"robustes-architektur-muster-im-projekt\" tabindex=\"-1\">Robustes Architektur-Muster im Projekt <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/vom-prompt-chaos-zum-agent-flow-mein-groesster-hebel/\">#</a></h2>\n<p>Als besonders robust erwies sich ein rollenbasiertes Multi-LLM-Muster ohne manuellen Systemwechsel:</p>\n<ul>\n<li>System A fuer Strukturierung,</li>\n<li>System B fuer Code-Transformation,</li>\n<li>System C fuer Kritik, Tests und Edge Cases.</li>\n</ul>\n<p>Der Agent orchestriert diese Spezialisierungen innerhalb eines konsistenten Kontrollflusses. Der wesentliche Nutzen entsteht an den Uebergabepunkten, an denen zuvor der groesste Abstimmungsaufwand lag.</p>\n<h2 id=\"implikationen-fuer-die-praxis\" tabindex=\"-1\">Implikationen fuer die Praxis <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/vom-prompt-chaos-zum-agent-flow-mein-groesster-hebel/\">#</a></h2>\n<ul>\n<li>Der dominante Hebel liegt in der Prozessgestaltung, nicht in isolierter Prompt-Feinoptimierung.</li>\n<li>Leistungsfaehige Agenten sind weniger als Einzelprompt zu verstehen, sondern als kontrollierter Ablauf mit expliziten Quality Gates.</li>\n<li>Multi-LLM-Architekturen entfalten ihren Nutzen erst bei automatisierter Uebergabe zwischen spezialisierten Systemen.</li>\n<li>Relevante Produktivitaetsgewinne entstehen dort, wo Abstimmungs- und Kontextkosten systematisch reduziert werden.</li>\n</ul>\n<h2 id=\"fazit\" tabindex=\"-1\">Fazit <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/vom-prompt-chaos-zum-agent-flow-mein-groesster-hebel/\">#</a></h2>\n<p>Das zentrale Ergebnis dieser App-Entwicklung ist eindeutig: Agentische Workflows sind im konkreten Projektkontext produktiver als manuelles Multi-Prompting mit Copy-Paste-basierter Koordination.</p>\n<p>Nicht, weil einzelne Modelle grundsaetzlich besser geworden waeren, sondern weil ihre komplementaeren Staerken in einem stabilen Ausfuehrungsprozess orchestriert werden.</p>\n<p>In einer kompakten Formel:</p>\n<p>Weniger Prompt-Jonglage, mehr durchgaengiger Agent-Flow.</p>\n",
			"date_published": "2026-03-26T00:00:00Z"
		}
,		{
			"id": "https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/",
			"url": "https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/",
			"title": "Workflow d&#39;agents en pratique",
			"content_html": "<h2 id=\"resume\" tabindex=\"-1\">Resume <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h2>\n<p>Cet article soutient que la performance des agents en production depend d'abord de la conception du processus, et non d'un prompt unique optimise. A partir d'observations de projet, il propose un workflow reproductible avec objectifs explicites, execution par etapes et quality gates.</p>\n<h2 id=\"question-et-cadre-methodologique\" tabindex=\"-1\">Question et cadre methodologique <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h2>\n<p>Question directrice: dans quelles conditions un workflow agentique devient-il fiable et scalable en equipe?</p>\n<p>L'analyse est qualitative et fondee sur la pratique. Les signaux observes sont:</p>\n<ul>\n<li>variabilite des iterations,</li>\n<li>effort de reprise apres premier resultat,</li>\n<li>defauts detectes apres revue,</li>\n<li>lisibilite des changements pour l'equipe.</li>\n</ul>\n<h2 id=\"workflow-de-reference\" tabindex=\"-1\">Workflow de reference <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h2>\n<p>Un schema robuste comprend cinq etapes:</p>\n<ol>\n<li>cadrage du scope (objectif et limites explicites),</li>\n<li>selection du contexte utile,</li>\n<li>separation analyse / implementation / validation / documentation,</li>\n<li>quality gates (build, tests, lint, verification manuelle),</li>\n<li>protocole de sortie (quoi, pourquoi, risques residuels).</li>\n</ol>\n<p>Ce schema reduit la variabilite et facilite la comparaison entre iterations.</p>\n<h2 id=\"observations-empiriques\" tabindex=\"-1\">Observations empiriques <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h2>\n<h3 id=\"patterns-efficaces\" tabindex=\"-1\">Patterns efficaces <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h3>\n<ul>\n<li>etapes courtes et testables,</li>\n<li>criteres d'arret explicites,</li>\n<li>cadre de revue stable (exactitude, securite, maintenabilite, UX).</li>\n</ul>\n<h3 id=\"modes-d-echec-frequents\" tabindex=\"-1\">Modes d'echec frequents <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h3>\n<ul>\n<li>implementation trop precoce,</li>\n<li>criteres de succes insuffisamment definis,</li>\n<li>verification faible sur les changements sensibles.</li>\n</ul>\n<h2 id=\"mini-etude-de-cas\" tabindex=\"-1\">Mini etude de cas <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h2>\n<p>Contexte: enrichir une page d'accueil en trois langues sans regression de layout.</p>\n<p>Intervention:</p>\n<ul>\n<li>pages cibles explicites,</li>\n<li>objectifs de contenu par langue,</li>\n<li>contrainte de preservation de structure,</li>\n<li>build obligatoire.</li>\n</ul>\n<p>Observation: focalisation plus nette sur les fichiers pertinents et baisse de la reprise corrective.</p>\n<h2 id=\"prompting-comme-artefact-de-processus\" tabindex=\"-1\">Prompting comme artefact de processus <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h2>\n<p>Un schema reutilisable s'est montre fiable:</p>\n<ol>\n<li>objectif,</li>\n<li>contraintes,</li>\n<li>sources autorisees,</li>\n<li>exigences de validation,</li>\n<li>format de restitution.</li>\n</ol>\n<p>La valeur provient de la clarte operationnelle, pas d'un style rhetorique.</p>\n<h2 id=\"frontieres-de-delegation\" tabindex=\"-1\">Frontieres de delegation <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h2>\n<p>Restent sous responsabilite humaine:</p>\n<ul>\n<li>arbitrages strategiques,</li>\n<li>formulations juridiques sensibles,</li>\n<li>decisions finales de mise en production.</li>\n</ul>\n<p>Les agents accelerent l'execution, mais ne portent pas la responsabilite finale.</p>\n<h2 id=\"implications-pour-la-mise-a-l-echelle\" tabindex=\"-1\">Implications pour la mise a l'echelle <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h2>\n<p>Un protocole retro court permet de transformer des succes locaux en capacite collective:</p>\n<ol>\n<li>quelle instruction etait ambiguë?</li>\n<li>quel contexte manquait?</li>\n<li>quel controle pouvait detecter plus tot?</li>\n<li>quelle regle standardiser?</li>\n</ol>\n<h2 id=\"limites\" tabindex=\"-1\">Limites <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h2>\n<p>Les resultats sont contextuels et qualitatifs. Une generalisation forte necessite des comparaisons controlees entre equipes et types de taches.</p>\n<h2 id=\"conclusion\" tabindex=\"-1\">Conclusion <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/workflow-agents-en-pratique/\">#</a></h2>\n<p>Un workflow agentique performant est d'abord une architecture de processus. La combinaison sequence explicite, quality gates et routines de revue est le levier principal de fiabilite.</p>\n",
			"date_published": "2026-03-01T00:00:00Z"
		}
,		{
			"id": "https://www.lottes.dev/en/blog/agent-workflow-in-practice/",
			"url": "https://www.lottes.dev/en/blog/agent-workflow-in-practice/",
			"title": "Agent Workflow in Practice",
			"content_html": "<h2 id=\"abstract\" tabindex=\"-1\">Abstract <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h2>\n<p>This article argues that stable agent performance in software projects is primarily a process-design problem, not a prompt-writing problem. Based on project-level observations, it proposes a repeatable workflow that combines scoped objectives, staged execution, and explicit quality gates.</p>\n<h2 id=\"research-focus-and-method\" tabindex=\"-1\">Research Focus and Method <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h2>\n<p>Guiding question: Which operational conditions make agent workflows reliable and scalable in team environments?</p>\n<p>The analysis is qualitative and practice-based. It focuses on observable delivery signals rather than model internals:</p>\n<ul>\n<li>iteration quality and variance,</li>\n<li>rework volume after first-pass output,</li>\n<li>defect escape after review,</li>\n<li>maintainability and team-level readability of changes.</li>\n</ul>\n<h2 id=\"reference-workflow-for-agentic-delivery\" tabindex=\"-1\">Reference Workflow for Agentic Delivery <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h2>\n<p>A robust baseline process consists of five steps:</p>\n<ol>\n<li>Scope definition: explicit target state and out-of-scope criteria.</li>\n<li>Context selection: provide only task-relevant files and constraints.</li>\n<li>Stage separation: analysis, implementation, validation, documentation.</li>\n<li>Quality gates: build, tests, lint, plus manual plausibility checks.</li>\n<li>Change protocol: document what changed, why, and remaining risks.</li>\n</ol>\n<p>This structure reduces variability across iterations and improves comparability of outcomes.</p>\n<h2 id=\"empirical-observations\" tabindex=\"-1\">Empirical Observations <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h2>\n<h3 id=\"patterns-that-consistently-work\" tabindex=\"-1\">Patterns that consistently work <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h3>\n<ul>\n<li>Small, testable increments over single large prompts.</li>\n<li>Explicit stop conditions for clarification vs. speculation.</li>\n<li>Stable review criteria: correctness, safety, maintainability, UX.</li>\n</ul>\n<h3 id=\"recurrent-failure-patterns\" tabindex=\"-1\">Recurrent failure patterns <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h3>\n<ul>\n<li>Implementation starts before problem framing is stable.</li>\n<li>Success criteria remain underspecified.</li>\n<li>Validation is weak for security- or data-sensitive changes.</li>\n</ul>\n<h2 id=\"mini-case-study\" tabindex=\"-1\">Mini Case Study <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h2>\n<p>Scenario: multilingual homepage updates without layout regressions.</p>\n<p>Intervention:</p>\n<ul>\n<li>explicit target pages,</li>\n<li>language-specific content goals,</li>\n<li>strict constraint to preserve layout structures,</li>\n<li>mandatory build validation.</li>\n</ul>\n<p>Observation: file-level focus improved and corrective rework decreased.</p>\n<h2 id=\"prompt-design-as-a-process-artifact\" tabindex=\"-1\">Prompt Design as a Process Artifact <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h2>\n<p>A reusable prompt schema proved effective:</p>\n<ol>\n<li>objective,</li>\n<li>constraints,</li>\n<li>allowed sources,</li>\n<li>validation requirements,</li>\n<li>expected output format.</li>\n</ol>\n<p>The value comes from operational clarity, not rhetorical sophistication.</p>\n<h2 id=\"delegation-boundaries\" tabindex=\"-1\">Delegation Boundaries <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h2>\n<p>The following responsibilities should remain human-owned:</p>\n<ul>\n<li>strategic product decisions,</li>\n<li>legally sensitive wording,</li>\n<li>final production approval.</li>\n</ul>\n<p>Agents improve execution throughput; they do not replace accountability.</p>\n<h2 id=\"implications-for-team-scale-operations\" tabindex=\"-1\">Implications for Team-Scale Operations <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h2>\n<p>A short retrospective protocol supports continuous improvement:</p>\n<ol>\n<li>Which instruction was ambiguous?</li>\n<li>Which context element was missing?</li>\n<li>Which check could have detected the issue earlier?</li>\n<li>Which rule should be standardized next?</li>\n</ol>\n<p>This converts local wins into institutional capability.</p>\n<h2 id=\"limitations\" tabindex=\"-1\">Limitations <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h2>\n<p>The findings are project-specific and qualitative. Generalized claims require controlled comparative studies across teams, domains, and task classes.</p>\n<h2 id=\"conclusion\" tabindex=\"-1\">Conclusion <a class=\"header-anchor\" href=\"https://www.lottes.dev/en/blog/agent-workflow-in-practice/\">#</a></h2>\n<p>High-performing agent workflows are primarily engineered, not improvised. Explicit sequencing, enforceable gates, and reproducible review routines are the main levers for sustained quality at scale.</p>\n",
			"date_published": "2026-03-01T00:00:00Z"
		}
,		{
			"id": "https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/",
			"url": "https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/",
			"title": "Agenten-Workflow in der Praxis",
			"content_html": "<h2 id=\"abstract\" tabindex=\"-1\">Abstract <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h2>\n<p>Der Beitrag argumentiert, dass die Qualitaet agentischer Entwicklung weniger von einzelnen Prompts als von der Gestaltung des Gesamtprozesses abhaengt. Auf Basis projektbezogener Beobachtungen wird ein reproduzierbarer Workflow beschrieben, der Zielklarheit, schrittweise Ausfuehrung und formale Quality Gates kombiniert.</p>\n<h2 id=\"erkenntnisinteresse-und-methodischer-rahmen\" tabindex=\"-1\">Erkenntnisinteresse und methodischer Rahmen <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h2>\n<p>Leitfrage: Unter welchen Bedingungen sind Agenten-Workflows in Entwicklungsprojekten stabil und skalierbar?</p>\n<p>Der Beitrag basiert auf qualitativer Prozessbeobachtung in iterativen Entwicklungszyklen. Im Mittelpunkt stehen nicht modellinterne Parameter, sondern beobachtbare Prozessvariablen:</p>\n<ul>\n<li>Anzahl und Qualitaet von Iterationen,</li>\n<li>Rework-Anteil nach Erstvorschlag,</li>\n<li>Defect Escape nach Review,</li>\n<li>Nachvollziehbarkeit der Aenderungen im Team.</li>\n</ul>\n<h2 id=\"referenzprozess-fuer-agentenarbeit\" tabindex=\"-1\">Referenzprozess fuer Agentenarbeit <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h2>\n<p>Ein belastbarer Standardablauf umfasst aus meiner Sicht fuenf Schritte:</p>\n<ol>\n<li>Scope-Praezisierung: Zielbild und Ausschlusskriterien definieren.</li>\n<li>Kontextselektion: nur aufgabenrelevante Informationen bereitstellen.</li>\n<li>Sequenzierung: Analyse, Umsetzung, Validierung und Dokumentation trennen.</li>\n<li>Quality Gates: Build, Tests, Lint und manuelle Plausibilitaetspruefung erzwingen.</li>\n<li>Ergebnisprotokoll: Aenderungen, Begruendungen und Restrisiken festhalten.</li>\n</ol>\n<p>Dieser Ablauf minimiert Varianz zwischen Iterationen und erhoeht die Vergleichbarkeit von Ergebnissen.</p>\n<h2 id=\"empirische-beobachtungen-aus-der-praxis\" tabindex=\"-1\">Empirische Beobachtungen aus der Praxis <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h2>\n<h3 id=\"was-konsistent-funktioniert\" tabindex=\"-1\">Was konsistent funktioniert <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h3>\n<ul>\n<li>Kleine, testbare Inkremente statt grosser Einmal-Prompts.</li>\n<li>Explizite Abbruchkriterien fuer Nachfragen statt Spekulation.</li>\n<li>Einheitlicher Review-Frame entlang Korrektheit, Sicherheit, Wartbarkeit und UX.</li>\n</ul>\n<h3 id=\"typische-fehlermuster\" tabindex=\"-1\">Typische Fehlermuster <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h3>\n<ul>\n<li>Vorzeitige Implementierung ohne belastbares Problemverstaendnis.</li>\n<li>Unscharfe Erfolgskriterien.</li>\n<li>Fehlende Verifikation bei daten- oder sicherheitskritischen Aenderungen.</li>\n</ul>\n<h2 id=\"mini-fallstudie\" tabindex=\"-1\">Mini-Fallstudie <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h2>\n<p>Ausgangssituation: Eine bestehende Seite sollte in drei Sprachen inhaltlich erweitert werden, ohne Layout-Brueche zu erzeugen.</p>\n<p>Intervention:</p>\n<ul>\n<li>klare Zielseiten,</li>\n<li>sprachspezifische Content-Ziele,</li>\n<li>explizites Verbot struktureller Layout-Aenderungen,</li>\n<li>verpflichtende Build-Validierung.</li>\n</ul>\n<p>Beobachtung: Der Agent arbeitete mit geringer Streuung in relevanten Dateien; Folgeaufwand durch Korrekturschleifen sank sichtbar.</p>\n<h2 id=\"prompt-design-als-prozessartefakt\" tabindex=\"-1\">Prompt-Design als Prozessartefakt <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h2>\n<p>Ein robustes Prompt-Schema hat sich als wiederverwendbares Artefakt bewaehrt:</p>\n<ol>\n<li>Zieldefinition,</li>\n<li>Restriktionen,</li>\n<li>erlaubte Quellen,</li>\n<li>Validierungsanforderungen,</li>\n<li>erwartetes Ergebnisformat.</li>\n</ol>\n<p>Die Wirkung liegt nicht in rhetorischer Raffinesse, sondern in der expliziten Operationalisierung von Anforderungen.</p>\n<h2 id=\"grenzen-der-delegation\" tabindex=\"-1\">Grenzen der Delegation <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h2>\n<p>Nicht delegierbar bleiben aus Governance-Sicht insbesondere:</p>\n<ul>\n<li>strategische Produktentscheidungen,</li>\n<li>rechtlich sensible Formulierungen,</li>\n<li>finale Freigaben fuer produktive Rollouts.</li>\n</ul>\n<p>Agenten sind Ausfuehrungsinstrumente, keine Verantwortungsinstanzen.</p>\n<h2 id=\"implikationen-fuer-team-skalierung\" tabindex=\"-1\">Implikationen fuer Team-Skalierung <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h2>\n<p>Skalierbarkeit entsteht erst, wenn individuelle Arbeitsweisen in Team-Routinen ueberfuehrt werden. Bewaehrt hat sich eine kurze Iterations-Retro mit vier Fragen:</p>\n<ol>\n<li>Welche Instruktion war unklar?</li>\n<li>Welcher Kontext fehlte?</li>\n<li>Welche Pruefung haette frueher detektiert?</li>\n<li>Welche Regel wird standardisiert?</li>\n</ol>\n<h2 id=\"limitationen\" tabindex=\"-1\">Limitationen <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h2>\n<p>Die Aussagen beruhen auf praxisnaher, aber nicht randomisierter Beobachtung in einem spezifischen Projektkontext. Eine generalisierbare Wirkungsaussage erfordert kontrollierte Vergleichsdesigns mit klarer Messmethodik.</p>\n<h2 id=\"fazit\" tabindex=\"-1\">Fazit <a class=\"header-anchor\" href=\"https://www.lottes.dev/de/blog/agenten-workflow-in-der-praxis/\">#</a></h2>\n<p>Ein leistungsfaehiger Agenten-Workflow ist primar ein Prozessdesign-Problem. Transparente Sequenzierung, explizite Gates und reproduzierbare Review-Routinen sind der zentrale Hebel, um Qualitaet dauerhaft zu stabilisieren.</p>\n",
			"date_published": "2026-03-01T00:00:00Z"
		}
,		{
			"id": "https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/",
			"url": "https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/",
			"title": "Guardrails pour applications IA",
			"content_html": "<h2 id=\"resume\" tabindex=\"-1\">Resume <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h2>\n<p>Les guardrails doivent etre traites comme une couche de controle centrale des applications IA, et non comme une mesure de conformite ajoutee apres coup. Cet article propose un modele a quatre couches et un plan de deploiement progressif.</p>\n<h2 id=\"problematique\" tabindex=\"-1\">Problematique <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h2>\n<p>Question directrice: comment maintenir la vitesse de livraison tout en augmentant la maitrise des risques et l'auditabilite?</p>\n<p>Hypothese: quand l'usage IA se generalise, l'incertitude operationnelle croît plus vite que la valeur si les controles ne sont pas integres a l'architecture.</p>\n<h2 id=\"cadre-methodologique\" tabindex=\"-1\">Cadre methodologique <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h2>\n<p>Le modele s'appuie sur des observations de mise en oeuvre et d'exploitation. Les incidents ont ete classes en quatre families:</p>\n<ul>\n<li>integrite des entrees,</li>\n<li>gouvernance des outils,</li>\n<li>fiabilite des sorties,</li>\n<li>observabilite operationnelle.</li>\n</ul>\n<p>L'objectif est de privilegier des controles applicables techniquement.</p>\n<h2 id=\"modele-guardrails-a-quatre-couches\" tabindex=\"-1\">Modele guardrails a quatre couches <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h2>\n<h3 id=\"1-input\" tabindex=\"-1\">1. Input <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h3>\n<ul>\n<li>valider type, taille, langue et schema des entrees,</li>\n<li>filtrer tot les demandes risquées ou hors perimetre.</li>\n</ul>\n<h3 id=\"2-prompt-et-tooling\" tabindex=\"-1\">2. Prompt et tooling <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h3>\n<ul>\n<li>expliciter role et mission,</li>\n<li>appliquer le moindre privilege,</li>\n<li>encadrer sources et regles de citation.</li>\n</ul>\n<h3 id=\"3-output\" tabindex=\"-1\">3. Output <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h3>\n<ul>\n<li>valider structure et format,</li>\n<li>verifier les faits critiques,</li>\n<li>escalader vers un humain en cas d'incertitude a fort impact.</li>\n</ul>\n<h3 id=\"4-exploitation\" tabindex=\"-1\">4. Exploitation <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h3>\n<ul>\n<li>activer logging, tracing et fallback,</li>\n<li>suivre cout, latence, erreurs et qualite,</li>\n<li>executer des tests adversariaux reguliers.</li>\n</ul>\n<h2 id=\"anti-patterns-recurrents\" tabindex=\"-1\">Anti-patterns recurrents <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h2>\n<p>Trois erreurs reviennent de facon systematique:</p>\n<ul>\n<li>&quot;Safety by prompt&quot; sans enforcement technique,</li>\n<li>approche binaire (blocage total ou absence de controle),</li>\n<li>faible observabilite et explicabilite post-hoc.</li>\n</ul>\n<p>Ces anti-patterns reduisent fortement la capacite de pilotage en production.</p>\n<h2 id=\"modele-de-decision-par-niveau-de-risque\" tabindex=\"-1\">Modele de decision par niveau de risque <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h2>\n<p>Un schema pragmatique a trois niveaux:</p>\n<ol>\n<li>Faible: brouillons internes sans impact externe direct.</li>\n<li>Moyen: contenu externe sans consequence juridique directe.</li>\n<li>Eleve: exposition compliance, securite ou reputation.</li>\n</ol>\n<p>L'intensite des controles augmente avec le niveau de risque.</p>\n<h2 id=\"deploiement-progressif-30-60-90\" tabindex=\"-1\">Deploiement progressif (30-60-90) <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h2>\n<ol>\n<li>30 jours: controles de base input/output + monitoring initial.</li>\n<li>60 jours: classification de risque + flux d'escalade.</li>\n<li>90 jours: cadence red-team + playbooks d'incident.</li>\n</ol>\n<p>Ce rythme permet de durcir le systeme sans rupture operationnelle.</p>\n<h2 id=\"implications-pratiques\" tabindex=\"-1\">Implications pratiques <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h2>\n<ul>\n<li>Les guardrails doivent etre visibles dans le code, la telemetrie et les rituels.</li>\n<li>La fiabilite emerge de l'articulation entre regles, enforcement et feedback.</li>\n<li>Les petites equipes gagnent a standardiser rapidement les points de controle critiques.</li>\n</ul>\n<h2 id=\"limites\" tabindex=\"-1\">Limites <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h2>\n<p>Le propos reste qualitatif et contextuel. Une generalisation forte necessite des comparaisons controlees entre organisations et secteurs.</p>\n<h2 id=\"conclusion\" tabindex=\"-1\">Conclusion <a class=\"header-anchor\" href=\"https://www.lottes.dev/fr/blog/guardrails-pour-applications-ia/\">#</a></h2>\n<p>Les guardrails sont des primitives d'architecture pour une IA exploitable et fiable. Leur integration precoce ameliore la securite, la reproductibilite et la capacite de passage a l'echelle.</p>\n",
			"date_published": "2026-02-04T00:00:00Z"
		}
	]
}
