Wie wir die Kosten für die AI-Suche durch Caching von Anfragen gesenkt haben

Wir haben Caching von Anfragen implementiert, was es uns ermöglicht hat, die Kosten für die AI-Suche erheblich zu senken und die Systemleistung zu verbessern.

02 Jun 2026

---

Einführung in das Problem des Caching von Anfragen

Kürzlich entbrannte in unserem Slack-Kanal eine Diskussion über die steigenden Kosten für die AI-Suche. Einer der Entwickler teilte mit, dass die Ausgaben für Anfragen an das Modell erheblich gestiegen sind, was ein ernstes Problem für das Budget darstellt. Wir wussten, dass wir handeln mussten, um die Situation zu verbessern.

Kontext: Warum das wichtig ist

Die Kosten für die AI-Suche sind ein Thema, das nicht nur das Entwicklerteam, sondern das gesamte Unternehmen betrifft. Steigende Ausgaben gefährden nicht nur unseren Gewinn, sondern auch die Möglichkeiten für zukünftige Investitionen in die Produktentwicklung. Wenn wir die Kosten nicht optimieren können, könnte das unsere Wettbewerbsfähigkeit auf dem Markt beeinträchtigen.

Das Problem im Detail

Das spezifische Problem war, dass viele Anfragen an die AI-Suche wiederholt wurden. Zum Beispiel konnte derselbe Benutzer ähnliche Fragen mehrmals in kurzer Zeit stellen. Dies führte dazu, dass wir Ressourcen ineffizient nutzten und Geld für dieselben Berechnungen ausgaben. Darüber hinaus verlängerte sich die Antwortzeit auf die Anfragen, was sich negativ auf die Benutzererfahrung auswirkte.

Erste Schritte: Was wir versucht haben

Als erste Lösung beschlossen wir, einfach die Serverkapazitäten zu erhöhen, um mit der gestiegenen Anzahl von Anfragen umzugehen. Dies verschärfte jedoch nur die Situation, da die Kosten für die Ressourcen weiter stiegen. Wir dachten auch darüber nach, das Modell selbst zu optimieren, aber das erforderte erhebliche zeitliche und finanzielle Aufwendungen. Letztendlich erkannten wir, dass wir nach alternativen Ansätzen suchen mussten, und beschlossen, das Caching von Anfragen in Betracht zu ziehen.

Technischer Ansatz: Implementierung des Caching

Wir führten ein Caching-System ein, das die Ergebnisse von Anfragen für eine bestimmte Zeit speichert, um wiederholte Aufrufe an das Modell zu vermeiden. Dies ermöglichte es uns, die Belastung der Rechenressourcen zu verringern und die Kosten zu senken. Die wesentlichen Änderungen bestanden in Folgendem:

class Cache:
    def __init__(self):
        self.cache = {}

    def get(self, key):
        return self.cache.get(key)

    def set(self, key, value, ttl):
        self.cache[key] = value
        # Timer für die Ablaufzeit setzen

Änderungen im Produkt

Nach der Implementierung des Caching bemerkten wir eine signifikante Verbesserung der Systemleistung. Die Antwortzeiten auf Anfragen verringerten sich, und die Berechnungskosten sanken um 30 %. Dies ermöglichte es uns, die Benutzererfahrung zu verbessern und die Kosten für die AI-Suche zu senken, was sich wiederum positiv auf unser /pricing auswirkte.

Was wir gelernt haben

Caching kann die Berechnungskosten erheblich senken, wenn es richtig umgesetzt wird.
Eine bloße Erhöhung der Ressourcen ist nicht immer die richtige Lösung für die Skalierbarkeit.
Es ist wichtig, das Verhalten der Benutzer zu analysieren und zu verstehen, um effektiv zu optimieren.

Was das für Bewerber bedeutet

Für Fachkräfte, die in unserem Team arbeiten möchten, bedeutet dies, dass wir praktische Lösungen und den Drang zur Optimierung schätzen. Wir suchen Menschen, die bereit sind, an der Verbesserung der Leistung und der Senkung der Kosten mitzuwirken. Wenn Sie in einem Team arbeiten möchten, das praktische Ansätze schätzt, freuen wir uns auf Ihre Bewerbungen auf /jobs.

Was das für Recruiter bedeutet

Recruiter sollten verstehen, dass wir aktiv an der Optimierung von Prozessen arbeiten und nach Kandidaten suchen, die frische Ideen einbringen können. Unser Team ist offen für neue Ansätze und Technologien, was uns für talentierte Fachkräfte attraktiv macht.

Nächste Schritte

Wir beobachten weiterhin die Leistung des Systems und planen, komplexere Caching-Algorithmen einzuführen, die uns helfen werden, die Kosten weiter zu senken. Wenn wir etwas neu gestalten müssten, würden wir mehr Zeit in die Analyse des Benutzerverhaltens in den frühen Phasen investieren. Dennoch sind wir zuversichtlich, dass wir den richtigen Weg eingeschlagen haben und die weitere Arbeit Früchte tragen wird. ---

Auch auf Fitlane AI

Themen: AI-поиск, кеширование, оптимизация затрат, архитектура системы, производительность, Fitlane AI, поиск

Alle Artikel