Ansprache von Philippe Gelin

Sehr geehrte Damen und Herren,

Was für ein Jahr, was für ein Jahrzehnt!

Die Initiative zur Koordinierung europäischer Sprachressourcen (European Language Resource Coordination, ELRC), wie wir sie kennen, findet nun ein Ende, war aber ein Grundpfeiler des mehrsprachigen digitalen Ökosystems, das in Europa Gestalt annimmt. 
Die Europäische Kommission bietet dem öffentlichen Sektor, KMUs, NROs und Hochschulen nun kostenlos eine bedeutende Reihe modernster Sprachtechnologie-Tools an. Performante Sprachtechnologien sind jedoch nur mit sauberen, qualitativ hochwertigen Trainingssprachdaten möglich. Mit Unterstützung der Mitgliedstaaten und der assoziierten CEF/DIGITAL-Länder hat ELRC maßgeblich dazu beigetragen, Sprachdaten für eine Reihe von Sprachen zu sammeln und zugänglich zu machen.

Seit dem Start von ELRC im Juni 2014 wurden 3.306 Sprachressourcen über das ELRC-SHARE-Repository zugänglich gemacht. Forscher, Entwickler, Verwaltungen und Sprachexperten haben davon profitiert, um nicht nur auf die Erhaltung digital gefährdeter / weniger verbreiteter Sprachen hinzuarbeiten, sondern auch Sprachbarrieren abzubauen und den Menschen den Zugang zu Informationen auch in Krisenzeiten zu erleichtern. Was für fantastische Reaktionen, als ELRC COVID-19-spezifische Textdaten  anforderte oder als ELRC direkt nach Kriegsbeginn eine Datensammlung organisierte, um die ukrainische maschinelle Übersetzung zu erstellen.   

6 Konferenzen und 86 Workshops! Europa ist groß und diversifiziert. ELRC hat nie aufgehört, die Sammlung mehrsprachiger Sprachdaten auf nationaler, regionaler und lokaler Ebene zu fördern. Einige Workshops verzeichneten eine Rekordbeteiligung, während die Konferenzen, die mit großen Zusammenkünften vor Ort in Verbindung gebracht wurden, oder Veranstaltungen der EU-Ratspräsidentschaft enorm dazu beitrugen, die Sichtbarkeit zu erhöhen und die Bedeutung sowohl von Sprachdaten als auch von den neuesten Sprachtechnologien hervorzuheben.  

Die Reihe ELRC White Papers war außerdem ein fantastisches Medium für den Informationsaustausch. Das neueste Projekt, „AI for a Multilingual Europe“, liefert wertvolle Einblicke in den Stand der Sprachressourcen in jedem der von ELRC angesprochenen Länder. In diesen White Papers wird verankert, dass die Bedeutung von Sprachdaten nicht von allen Mitgliedstaaten gleichermaßen anerkannt wird.

Die Zukunft ist glänzend und ELRC war ein wesentlicher Akteur bei ihrem Entwurf. Im Rahmen des Programms DIGITAL Europe wird das Projekt Language Data Space (LDS) im Januar 2023 starten. Dieses Projekt wird die Bemühungen von ELRC auf das nächste Level heben und ein ganzes Ökosystem rund um Sprachdaten schaffen, indem es die Sammlung und den Austausch von Sprachdaten im öffentlichen und privaten Sektor vorantreibt.  Über die LDS hinaus und dank des Digital Decade Policy Programme untersuchen wir auch aktiv, wie die Bemühungen der Mitgliedstaaten zur Nutzung von Sprachdaten weiter synchronisiert und gebündelt werden können, beispielsweise durch den Aufbau großer Sprachmodelle (large language models, LLM) und die Unterstützung von Skaleneffekten.

Zu guter Letzt wurde im Rahmen des Programms HORIZON Europe gerade eine Ausschreibung zum Thema „Natural Language Understanding and Interaction in Advanced Language Technologies“ veröffentlicht.

Lassen Sie mich Ihnen alles Gute für diese Pause zum Jahresende, aber auch für unsere zukünftigen Unternehmungen wünschen.

 

Philippe Gelin
Leiter der GD/CONNECT – Europäische Kommission