Allocution de Philippe Gelin

Chers tous,

Quelle année ! Quelle décennie !

L’initiative ELRC (Coordination européenne des ressources linguistiques) telle que nous la connaissons touche à sa fin, mais elle a été une des pierres angulaires de l’écosystème numérique multilingue qui prend forme en Europe.

La Commission européenne offre désormais gratuitement au secteur public, aux PME, aux ONG et aux universités une importante palette d’outils de pointe en matière de technologies linguistiques. Toutefois, les technologies linguistiques ne peuvent être performantes que si l’on dispose de données linguistiques d’entraînement propres et de qualité. Avec le soutien des États membres et des pays associés au programme CEF/DIGITAL, l’ELRC a joué un rôle majeur en collectant et en donnant accès aux données linguistiques d’un grand nombre de langues.

Depuis la naissance de l’ELRC en juin 2014, 3 306 ressources linguistiques ont été mises à disposition via le répertoire ELRC-SHARE. Les chercheurs, les développeurs, les administrations et les professionnels des langues en ont bénéficié non seulement pour œuvrer à la préservation des langues numériquement menacées ou moins utilisées, mais aussi pour contribuer à réduire les barrières linguistiques, facilitant ainsi l’accès des personnes à l’information, même en temps de crise. Les réactions ont été fantastiques lorsque l’ELRC a lancé son appel pour des données texte spécifiques à la COVID 191 ou organisé une collecte de données pour bâtir la traduction automatique ukrainienne immédiatement après que la guerre a éclaté.

6 conférences et 86 ateliers ! L’Europe est vaste et diversifiée. L’ELRC n’a eu de cesse de promouvoir la collecte de données linguistiques multilingues à l’échelle nationale, régionale et locale. Certains ateliers ont affiché des niveaux de participation record, tandis que les conférences, associées à des rassemblements majeurs dans le domaine ou à des évènements de la présidence du Conseil de l’UE, ont énormément contribué à accroître la visibilité et à mettre en valeur l’importance des données linguistiques et des récentes technologies linguistiques.

La série de Livres blancs de l’ELRC a aussi remarquablement contribué à la diffusion de ces informations. Le dernier, intitulé « AI for a Multilingual Europe (L’IA au service d’une Europe multilingue) », fournit de précieuses informations sur l’état des ressources linguistiques dans chacun des pays couverts par l’ELRC. Ces Livres blancs consacrent le fait que l’importance des données linguistiques ne jouit pas de la même reconnaissance dans tous les états membres.

L’avenir est radieux et c’est en très grande partie grâce à l’ELRC. Le projet Language Data Space (LDS) démarrera en janvier 2023 dans le cadre du programme pour une Europe numérique (Digital Europe Programme). Il portera les efforts de l’ELRC à un niveau supérieur et créera un écosystème complet autour des données linguistiques en faisant progresser la collecte et l’échange de données linguistiques dans les secteurs public et privé. Au-delà du LDS et grâce au programme pour la décennie numérique (Digital Decade Policy Programme), nous cherchons aussi activement comment synchroniser et fédérer davantage les efforts des États membres pour utiliser les données linguistiques, par exemple en construisant de grands modèles linguistiques et en soutenant les économies d’échelle.

Enfin, dans le cadre du programme HORIZON Europe, un appel sur le thème « Compréhension du langage naturel et interactions dans les technologies linguistiques avancées » vient d’être publié.

Permettez-moi de vous souhaiter une bonne pause de fin d’année et de vous présenter mes meilleurs voeux pour nos projets futurs.

Philippe Gelin

Directeur de DG/CONNECT – Commission européenne

2022-12-20