"PowerSearch"
Wie die APA ein "besseres Google" bieten will

| Redaktion 
| 09.10.2024

Die semantische Suche gilt als Wendepunkt in der Art, wie Menschen nach Informationen suchen, hat aber auch Tücken. Richtig umgesetzt und angewandt bietet sie jedoch große Chancen, wie ein Tool aus Österreich zeigt.

Die Technologie-Sparte der Austria Presse Agentur (APA) lud am 8. Oktober zu einem Tech-Gespräch zum Thema "Wie Technologien und KI-gestützte Bots Suchergebnisse und Nutzer:innenerfahrung verbessern". Dabei wurde auch über Herausforderungen und Chancen von semantischer Suche diskutiert und eine eigens trainierte KI-Lösung aus der APA-Gruppe präsentiert - quasi der "Google-Herausforderer" aus Österreich.

Hintergrund des APA-Tech-Talks ist eine Entwicklung, die mittlerweile in vielen Unternehmen zum Arbeitsalltag gehört - der Einsatz von ChatGPT oder ähnlichen Large Language Models (LLM). Wer mit solchen KI-Assistenten arbeitet, kennt das wahrscheinlich: Ein und derselbe Prompt führt zu unterschiedlichen Ergebnissen, von Transparenz oder Reproduzierbarkeit fehlt jede Spur. Das macht eine Skalierung diverser Anwendungen als Business Case, etwa im E-Commerce oder in der Mediennutzung, zur Herausforderung. Die APA-Tech will passende Lösungen dafür bieten. So gab es beim Tech-Talk auch Informationen darüber, welche Strategie man im Bereich semantische Suche und verwandte Technologien verfolgt und wie diese im eigenen Haus entwickelt und eingesetzt werden. Weiters wurde gezeigt, was man im ersten Kundenprojekt gelernt hat und was die Nachrichtenagentur künftig für ihre Kund:innen im Portfolio haben wird.

Vorteile der semantischen Suche

Die semantische Suche ermöglicht, nicht nur nach Schlüsselwörtern, sondern nach Bedeutungen und Zusammenhängen zu suchen, und liefert auch dann passende Ergebnisse, wenn die exakten Wörter in der Suchanfrage gar nicht vorkommen. Sie gilt als Wendepunkt in der Art, wie Menschen nach Informationen suchen, diese finden und verarbeiten. Die semantische Suche lasse sich jedoch beeinflussen, erläuterte Andreas Mauczka, Chief Digital Officer der APA, indem man mit eigenem Content den inhaltlichen Schwerpunkt in das zugrundeliegende Modell trainiert. Das sei auch die Grundlage für einen sinnvollen Einsatz des sogenannten RAG-Konzepts (Retrieval Augmented Generation). Dabei werden dem Sprachmodell eine möglichst treffsichere eigene qualitative Datenbasis zur Verfügung gestellt und dadurch seine Möglichkeiten für "Kreativität" eingeschränkt. "Das Modell muss dann nicht googeln oder halluzinieren, sondern spuckt faktenorientierte Ergebnisse aus", betonte der CDO.

Kundenprojekt - Vom Prototypen zum Business Case

Vom ersten großen Kundenprojekt berichteten Sophie Hlinka, Product Owner APA-Tech, und Maika Jirous vom Archivdienstleister und Contentvermarkter DIZ München, wo auch das Archiv der Süddeutschen Zeitung betrieben wird. "Die Archivsuche sollte effizienter werden, um damit Zeit für Faktenchecks freizuspielen", erzählte Jirous, man wollte der Redaktion und Archivkunden, basierend auf den eigenen Daten, das bestmögliche Sucherlebnis bieten.

Die APA, die sich seit Jahren mit semantischer Suche beschäftigt, war für das DIZ die logische Wahl für ein gemeinsames Proof of Concept-Projekt. Denn alle Daten- und Contentmanagement-Dienste der APA-Gruppe basieren auf der von APA-Tech entwickelten Volltextdatenbank-Technologie "PowerSearch", deren Funktionalitäten um eine Vektordatenbank erweitert wurden. "Alle Services setzen heute auf sehr spezifische Abfragen, bis hin zu semantischen Suchen, die beinahe die Intention hinter einer Abfrage erkennen", erläuterte Clemens Prerovsky, APA-IT-Geschäftsführer.

"Im Gegensatz zu rein technischen Anbietern greifen wir in unserem Modell auf die intellektuelle tägliche Arbeit, das heißt die Inhalte der APA-Redaktion sowie von APA-PictureDesk, zu und stellen den Kund:innen österreich-spezifische, APA-trainierte KI-Services zur Verfügung", so Mauczka.

Für das DIZ entwickelte die APA eine Oberfläche mit verschiedenen Testfunktionen, wie etwa semantische Suche, Q/A (Frage/Antwort) oder eine Chatbot-Anwendung. Da das Standardmodell keine zufriedenstellenden Ergebnisse lieferte, entschied man sich, für den Kunden ein eigenes Modell zu trainieren und ein Embedding Modell für die semantische Suche zu bauen. Aus Datenschutzgründen kam bei der Wahl des Sprachmodells nicht ChatGPT, sondern ein lokales Setup mit Mistral, einem europäischen Modell, zum Zug. ChatGPT habe die User in puncto Leistung und Kosten verwöhnt. "Unser Ziel ist es aber, mit kleineren Modellen ähnlich gute Ergebnisse zu liefern", so Hlinka.

Besseres "Google"

"Wir sind nicht Google, aber dennoch groß: 1,4 Milliarden Dokumente sind in der APA-PowerSearch-Datenbank vorhanden, Monat für Monat kommen Millionen Datensätze hinzu", veranschaulichte Prerovsky das Alleinstellungsmerkmal. Darüber hinaus würden top gewartete Metadaten die Datenbank zu einer verifizierten Datenbasis machen. "Wir haben den technologischen Unterbau, können Modelle jederzeit niederschwellig an Kunden anpassen und skalieren", verspricht Prerovsky.

Im Modell der APA seien KI und faktenorientierte Information kein Widerspruch, das Feld der möglichen Use Cases sei weit.

www.apa.at

Kommentar schreiben

* Pflichtfelder.

leadersnet.TV