B2B-Distributoren, die KI-gestützte Nachfrageprognosen einsetzen, berichten von 30–50 % Genauigkeitsverbesserungen gegenüber historischen Durchschnittsmethoden. Dieser Genauigkeitsgewinn schlägt sich direkt in Zahlen nieder: 20–30 % niedrigere Lagerhaltungskosten, weniger Fehlmengen bei schnelldrehenden SKUs und weniger Abschreibungen auf langsam drehende Artikel.
Die meistgestellte Frage lautet, ob der eigene Betrieb über ausreichend saubere historische Daten verfügt, um KI-Prognosen sinnvoll einzusetzen. Die Antwort ist fast immer Ja — und die Schwelle liegt niedriger als die meisten erwarten.
Dieser Artikel erklärt, wie KI-Bestandsprognosen funktionieren, welche Dateneingaben tatsächlich benötigt werden, welches Tool-Tier bei unterschiedlichen Unternehmensgrößen sinnvoll ist und was ein Distributor in den ersten 90 Tagen messen sollte.
Unterschied zwischen KI-Prognosen und gleitenden Durchschnittsmethoden
Die meisten Distributoren prognostizieren die Nachfrage heute mit einer Variante der historischen Mittelwertbildung: Vorjahresumsatz für denselben Zeitraum, angepasst um einen Trendprozentsatz, manuell korrigiert, wenn etwas falsch erscheint. Das funktioniert gut, wenn die Nachfrage stabil ist und saisonale Muster regelmäßig wiederkehren. Wenn nicht, versagt die Methode.
Gleitende Durchschnittsmethoden haben eine strukturelle Einschränkung: Sie können nur sehen, was passiert ist. Sie können nicht sehen, warum es passiert ist, und sie können keine Signale erkennen, die einer Nachfrageverschiebung vorausgehen — bevor die Veränderung in den Verkaufsdaten sichtbar wird. Wenn die Methode eine Verschiebung registriert, haben Sie bereits zu viel oder zu wenig bestellt.
KI-Prognosemodelle werden auf denselben historischen Verkaufsdaten trainiert — nehmen aber zusätzlich externe Signale auf. Je nach Plattform umfassen diese Signale: Suchrend-Daten für Produktkategorien, Schwankungen der Lieferantenlieferzeiten, regionale Wirtschaftsindikatoren, Wettermuster (relevant für Saisonartikel) und manchmal Echtzeit-Anfragedaten aus Ihrem eigenen CRM.
Das praktische Ergebnis: Ein KI-Modell kann seine Prognose für eine Kategorie anpassen, bevor die Umsatzveränderung sichtbar wird — weil es Signale liest, die dem Kauf vorausgehen. Laut dem AI Demand Forecasting Playbook 2026 von InvisibleTech ist dieser Vorlaufzeitvorteil am ausgeprägtesten in Kategorien mit einem klaren Vorkaufsignal: Industrieverbrauchsmaterial, Gastronomiebedarf, Baumaterialien.
Was KI-Prognosen nicht sind: kein Wundermittel. Es handelt sich um ein statistisches Modell, das aus Mustern lernt. Eine neue Produktlinie mit sechs Monaten Verkaufshistorie liefert weniger zuverlässige Prognosen als eine etablierte Linie mit vier Jahren Daten. Die Genauigkeitsverbesserung entsteht durch die Fähigkeit des Modells, mehr Variablen zu synthetisieren — nicht dadurch, dass es Daten erfindet, die nicht vorhanden sind.
Benötigte Dateneingaben — und was „sauber genug” wirklich bedeutet
Die am häufigsten gestellte Frage lautet: „Sind unsere Daten gut genug?” Die ehrliche Antwort: Die Schwelle für „sauber genug” bei KI-Prognosen ist niedriger als die meisten erwarten.
Der minimal verwendbare Datensatz umfasst:
- 18–24 Monate tägliche oder wöchentliche Verkaufshistorie auf SKU-Ebene (nicht nur Kategorieebene)
- Lagerbestandsaufzeichnungen auf derselben SKU-Granularität, idealerweise für denselben Zeitraum
- Bestelllieferzeiten pro Lieferant (Durchschnitt und Schwankungsbreite)
- Preishistorie — bei signifikanten Preisänderungen muss das Modell wissen, wann diese stattfanden
Das ist alles. Sie benötigen keine IoT-Sensoren, RFID-Tracking oder ein Data Warehouse. Wenn Ihr ERP oder Lagerverwaltungssystem seit zwei Jahren im Betrieb ist und Sie Transaktionen als CSV exportieren, haben Sie, was Sie brauchen.
Was „sauber genug” in der Praxis bedeutet: Die Daten müssen nicht perfekt sein. Sie müssen konsistent sein. Lücken von einer oder zwei Wochen in der Verkaufshistorie sind in Ordnung — das Modell interpoliert um sie herum. Probleme entstehen durch inkonsistente SKU-Kennzeichen (dasselbe Produkt unter drei verschiedenen Codes in unterschiedlichen Zeiträumen erfasst), große ungeklärte Lücken (sechs Wochen ohne Umsatz für ein Produkt, das tatsächlich verkauft wurde — meist weil eine Filiale es anders erfasst hat) und fehlende Lieferzeitdaten für mehr als 30 % Ihrer Lieferantenlinien.
Wenn Ihre Daten diese Probleme aufweisen, ist der erste Schritt vor jedem KI-Tool-Einsatz eine Datenbereinigung. Dies dauert für einen Betrieb mit 500–2.000 aktiven SKUs in der Regel zwei bis vier Wochen. Es ist keine Option — Datenmüll rein, schlechtere Prognosen raus.
Laut der Analyse von BetterCommerce zu B2B-Supply-Chain-KI-Deployments sind Datenqualitätsprobleme die Hauptursache für leistungsschwache Implementierungen. Die in Branchen-Benchmarks genannten Prognosegenauigkeitsverbesserungen setzen halbwegs saubere Eingabedaten voraus.
Drei Tool-Tiers für drei Größenordnungen
Die Tool-Landschaft für KI-Bestandsprognosen gliedert sich in drei klar abgegrenzte Tiers, primär nach SKU-Anzahl und dem erforderlichen ERP-Integrationsgrad differenziert.
Tier 1 — Unter 500 aktive SKUs
In dieser Größenordnung sind spezialisierte Prognose-Tools wie Inventory Planner, Fuse Inventory oder Prediko kosteneffizient und erfordern minimalen technischen Aufwand. Diese Plattformen verbinden sich direkt über API mit gängigen Lagerverwaltungssystemen (TradeGecko, Cin7, QuickBooks Commerce) und beginnen innerhalb von 24–48 Stunden nach Datenanbindung mit der Prognose-Generierung.
Monatliche Kosten (Schätzung): 80–250 € je nach Plattform und SKU-Anzahl. Kein Entwickler für die Einrichtung erforderlich. Die Haupteinschränkung: Diese Tools nehmen keine externen Nachfragesignale auf — sie arbeiten ausschließlich mit Ihrer Verkaufshistorie und Lieferzeiten. Für Betriebe dieser Größenordnung reicht das in der Regel aus.
Tier 2 — 500 bis 5.000 aktive SKUs
In diesem Bereich rechtfertigt die Komplexität des SKU-Interaktionsmanagements (substituierbare Produkte, Bundle-Komponenten, Kategorienkannibalismus) eine leistungsfähigere Plattform. Zu den Tools in diesem Tier gehören das Mittelmarktsangebot von Relex Solutions, Slimstock und Netstock. Diese Plattformen modellieren SKU-übergreifende Beziehungen und können zusätzliche Datenquellen einbeziehen — Lieferanten-Lieferzeitfeeds, Saisonindizes, Promotionskalender.
Monatliche Kosten (Schätzung): 500–2.000 €. Die Implementierung dauert in der Regel vier bis acht Wochen und erfordert die Beteiligung desjenigen, der Ihr ERP verwaltet. Die Genauigkeitsverbesserung in diesem Tier entspricht den Benchmark-Werten von 30–50 % — die Modelle sind ausgereift genug, um Nachfragesignalmuster zu erfassen, die einfacheren Tools entgehen.
Tier 3 — 5.000+ aktive SKUs
In dieser Größenordnung ist Prognose eine Supply-Chain-Funktion, die tief in Beschaffung, Lagerverwaltung und Finanzplanung integriert wird. Enterprise-Plattformen (Blue Yonder, o9 Solutions, Kinaxis) operieren auf diesem Niveau. Implementierungszeiträume werden in Monaten gemessen, Kosten in Zehntausenden Euro jährlich und ROI in Prozentpunkten der Bruttomarge.
Die meisten Leser dieses Artikels befinden sich in Tier 1 oder Tier 2. Die Tier-3-Optionen werden der Vollständigkeit halber erwähnt — und weil das Verständnis, wo Tier-2-Tools nicht mehr ausreichen, hilft, realistische Erwartungen zu setzen.
Zur Frage der Reihenfolge — ob KI-Prognosen oder ERP-Modernisierung zuerst kommt — siehe KI vs. ERP: Was kommt zuerst?.
Das 90-Tage-Messframework
Die oben genannten Genauigkeitsverbesserungen sind nicht automatisch. Sie sind das Ergebnis einer spezifischen Messpraxis: eine Baseline vor dem Start festlegen, das KI-Modell vier bis sechs Wochen parallel zum bestehenden Prozess betreiben, dann die Ergebnisse vergleichen.
Ohne eine vorherige Baseline gibt es keinen Beweis. Das gilt für jede KI-Implementierung — ausführlicher behandelt in Die vier Kennzahlen, die KI von einer Kostenstelle in einen dokumentierten Vorteil verwandeln.
Tage 1–14: Baseline-Erfassung
Vor der Aktivierung des KI-Modells exportieren Sie die tatsächliche Nachfrage der letzten 90 Tage im Vergleich zu Ihrer Prognose für denselben Zeitraum. Berechnen Sie Ihre aktuelle Prognosegenauigkeit auf SKU-Ebene — nicht nur aggregiert. Die Formel ist einfach: Mean Absolute Percentage Error (MAPE) = Durchschnitt von |Ist - Prognose| / Ist über alle SKUs.
Dokumentieren Sie diese Zahl. Das ist Ihr „Vorher”. Erfassen Sie außerdem: aktuellen durchschnittlichen Lagerhaltungswert, Fehlmengenfrequenz nach Kategorie (wie oft Sie keinen Lagerbestand für eine SKU hatten, als eine Bestellung einging) und das Abschreibungsvolumen des letzten Quartals.
Tage 15–45: Parallelbetrieb
Betreiben Sie das KI-Modell vier bis sechs Wochen parallel zu Ihrem bestehenden Prozess, ohne auf die Prognosen zu reagieren. Das dient zwei Zwecken: Das Modell kalibriert sich auf Ihre spezifischen Datenmuster ein, und Sie erhalten einen sauberen Vergleichsdatensatz, bevor Sie dem Modell genug vertrauen, um danach zu bestellen.
Vergleichen Sie in diesem Zeitraum die KI-Prognosegenauigkeit wöchentlich auf SKU-Ebene mit Ihrer aktuellen Methode. Das KI-Modell sollte bei volatilen SKUs (solchen mit unregelmäßigen Nachfragespitzen) besser und bei stabilen SKUs ähnlich gut oder leicht besser abschneiden. Wenn das KI-Modell durchgehend schlechter abschneidet, ist das ein Datenqualitätssignal — das Modell lernt aus inkonsistenten Eingaben.
Tage 46–90: Livebetrieb und Messung
Beginnen Sie, nach den Empfehlungen des KI-Modells zu bestellen — zunächst für eine Teilmenge von SKU-Kategorien. Verfolgen Sie dieselben Kennzahlen wie bei der Baseline: Prognose-MAPE, Lagerhaltungswert, Fehlmengenfrequenz, Abschreibungsvolumen.
Bis Tag 90 haben Sie einen sauberen Vorher-Nachher-Vergleich. Die Senkung der Lagerkosten ist meist bis Tag 60 sichtbar — weil das Modell bei stabilen SKUs, bei denen Sie historisch zu viel bestellt haben, den Sicherheitsbestand reduziert. Die Fehlmengenreduktion dauert länger, da sie sich im Ausbleiben von Ereignissen zeigt, nicht in deren Eintreten.
Was KI-Prognosen nicht leisten können
Das Aufführen der Grenzen ist genauso wichtig wie das Nennen der Vorteile — denn eine falsche Einschätzung der KI-Möglichkeiten führt direkt zu teuren Enttäuschungen.
KI-Prognosen können keine Nachfrage für wirklich neue Produkte vorhersagen. Eine SKU mit weniger als sechs Monaten Verkaufshistorie ist für das Modell praktisch unsichtbar. Für Neuprodukteinführungen brauchen Sie weiterhin urteilsbasierte Prognosen: Analogien von ähnlichen Produkten, Marktgrößenschätzungen, Input des Vertriebsteams.
Sie können Lieferanten-Unzuverlässigkeit nicht kompensieren. Wenn Ihre Lieferzeiten stark schwanken, weil Ihre Lieferanten unzuverlässig sind, versucht das Modell das mit höherem Sicherheitsbestand auszugleichen — was einen Teil der Lagerkostenreduktion zunichte macht. KI-Prognosen und Lieferzeitenmanagement sind komplementäre Disziplinen, keine Alternativen.
Sie können extreme externe Schocks nicht in Echtzeit verarbeiten. Als die Straße von Hormuz Anfang 2026 gestört wurde, stiegen die Versandlieferzeiten in bestimmten Kategorien innerhalb von Tagen. KI-Modelle, die auf Daten vor der Störung trainiert wurden, sagten das nicht voraus — sie passten sich über mehrere Wochen neuer Daten an. Bei akuten Lieferkettenunterbrechungen muss menschliches Urteilsvermögen das Modell weiterhin übersteuern.
Sie erfordern Pflege. Ein auf den Produktmix des Vorjahres kalibriertes Modell verliert an Genauigkeit, wenn sich Ihr SKU-Sortiment ändert. Neue Produktlinien müssen hinzugefügt, eingestellte Linien entfernt werden. Die meisten Tier-1- und Tier-2-Tools erledigen das automatisch, aber jemand muss die Konfiguration vierteljährlich verwalten.
Für einen umfassenderen Blick darauf, wie KI in die Technologieroadmap eines Distributors passt — und wo häufige Implementierungsfehler auftreten — siehe KI-Adoption im Großhandel: Die Umsetzungslücke.
Die 30–50 % Genauigkeitsverbesserung ist real und auf Tier-2-Niveau erreichbar. Die Voraussetzungen: halbwegs saubere historische Daten, ein Parallelbetrieb vor dem Go-live und ein Messframework, das den Ausgangszustand vor dem Umschalten erfasst.
Die Betreiber, die diese Ergebnisse nicht erzielen, sind fast ausnahmslos diejenigen, die die Baseline-Erfassung und den Parallelbetrieb übersprungen haben — direkt in die Produktion gegangen sind und dann keine Möglichkeit hatten zu wissen, ob das Modell funktioniert oder nicht.
Weiterführende Lektüre: Demand forecasting tools comparison 2026 via SumTracker — ein aktueller Funktionsvergleich der wichtigsten Plattformen in Tier 1 und Tier 2.