Contribution de The African langue Lab
Les langues africaines représentent près d'un tiers des langues parlées dans le monde. Pourtant, sur les plus de 2 000 langues parlées sur le continent, seules 49 sont disponibles sur des plateformes de traduction comme Google traduire. Pire encore, 88 % des langues africaines sont "gravement sous-représentées" ou "complètement ignorées" dans la linguistique informatique(Joshi et al., 2020).
L'intelligence artificielle (IA) offre une chance de protéger les langues sous-représentées, mais des conseils et des garde-fous sont indispensables. Sans cela, les grands modèles linguistiques risquent de renforcer les langues institutionnelles et d'accélérer le déclin des autres. Les conséquences sont désastreuses : 40 % des langues sont menacées d'extinction dans le monde, dont des centaines sont parlées en Afrique.(UNESCO, 2022).
Le Laboratoire de langues africaines (All Lab) est une collaboration dirigée par des jeunes qui s'est engagée à préserver les langues africaines en les documentant, en les numérisant, en les traduisant et en les rendant autonomes grâce à des systèmes avancés d'intelligence artificielle et de traitement de la langue naturelle (NLP). Avec des partenaires tels que Smartling, nous faisons des progrès considérables dans la réduction de la fracture numérique pour les langues africaines. Voici comment.
La nécessité d'une documentation linguistique en Afrique
La diversité linguistique est l'un des plus grands atouts du continent africain, mais elle présente également des défis monumentaux. De nombreuses communautés, en particulier les plus petites, parlent des langues uniques qui ne sont pas bien documentées. Ces langues "à faibles ressources" ne disposent pas des ensembles de données nécessaires à une utilisation informatique, ce qui rend la traduction automatique (MT), le traitement de la parole, la transcription automatique et d'autres applications NLP difficiles, voire impossibles.
Le défi est omniprésent - moins de 5 % des langues africaines disposent de ressources numériques significatives.(Association for Computational Linguistics, 2019) Il est clair que nous devons mieux documenter ces langues, mais le processus n'est pas une mince affaire.
Le défi de la documentation des langues africaines à faibles ressources(Issaka et la., 2024)
- La rareté des données : La plupart des cultures africaines ont historiquement mis l'accent sur les traditions orales. Par conséquent, de nombreuses traditions existent principalement sous forme orale, et la documentation écrite est souvent rare, voire inexistante. En l'absence de langue écrite, l'assemblage de données de corpus - une collection de langue écrite et parlée nécessaire pour former des modèles d'apprentissage automatique - devient compliqué.
- Politiques gouvernementales et financement limité de la recherche : La plupart des gouvernements africains ont donné la priorité aux langues officielles telles que l'anglais et le français - souvent des vestiges de la domination coloniale - tout en apportant peu de soutien institutionnel à la documentation, à la préservation et au développement des langues indigènes. L'insuffisance du financement universitaire due au manque d'intérêt limite également la recherche et le développement des technologies liées aux langues indigènes.
- L'éducation de la petite enfance : Certains pays africains s'efforcent de préserver la langue indigène dans l'enseignement, mais les efforts sont souvent insuffisants. Au Ghana, par exemple, une politique impose l'enseignement de la première langue de l'enfant de la maternelle à la troisième année, avant le passage à l'anglais. Cependant, elle limite l'enseignement à 11 langues parrainées par le gouvernement, ce qui se traduit par une diminution des ressources, de l'attention et des intervenants pour les autres langues. Malgré ces politiques, les éducateurs utilisent souvent l'anglais comme principal moyen d'enseignement en raison de ressources et d'une formation limitées.
- Absence d'orthographes normalisées : La collecte de données pour de nombreuses langues africaines à faibles ressources, telles que le hausa et le fulani, est très difficile en raison de leur large distribution géographique et des variations dialectales importantes. Par conséquent, la création de ressources numériques unifiées pour ces langues nécessite une coordination et une normalisation minutieuses et importantes.
- Obstacles à la collecte de données : Dans certaines régions, les conflits actifs ou la marginalisation de certains groupes linguistiques affectent négativement la collecte de données et les initiatives de développement linguistique. En outre, de nombreux locuteurs de langues à faibles ressources vivent dans des communautés rurales ou isolées, avec un accès limité à l'internet et aux technologies numériques, ce qui rend la collecte de données linguistiques encore plus difficile.
Innover pour l'équité linguistique
À l'African langue Lab, nous utilisons des systèmes d'IA et de NLP pour numériser, traduire et préserver les langues africaines afin de créer des résultats positifs pour les populations du continent. Notre approche reposant sur quatre piliers prend actuellement en charge 40 langues, du bantou parlé au khoisan moins connu, représentant diverses cultures, régions et familles linguistiques à travers le continent.
Comment le laboratoire de langues africaines soutient les langues à faibles ressources
- Collecte, extraction, nettoyage et stockage des données : Nous recueillons des données linguistiques de diverses sources, les conservons et les normalisons en supprimant les incohérences, et les stockons en toute sécurité pour l'utilisation du modèle d'IA.
- Recherche et développement de modèles : Nous menons des recherches pour construire des modèles d'IA qui améliorent la compréhension et l'application de la langue africaine.
- Nous collaborons avec les institutions, les communautés et les locuteurs natifs pour collecter et traduire les données, en garantissant une représentation authentique et une viabilité à long terme grâce à nos technologies innovantes basées sur l'IA.
- 1Déploiement technologique:2Enpartenariat avec des leaders du secteur et des institutions universitaires, nous utilisons des systèmes d'IA et de NLP pour traduire nos données en sorties linguistiques utilisables qui alimentent des plateformes telles que notre application All Voices et un chatbot multilingue, qui est intégré à l'application mobile Base.
Les pays qui intègrent la langue locale dans l'enseignement et le contenu numérique ont tendance à avoir des taux d'alphabétisation plus élevés et une meilleure rétention culturelle.
La technologie qui rend notre travail possible
La mise en œuvre de nos quatre piliers nécessite une technologie et des partenaires de collaboration adéquats. C'est pourquoi nous avons conclu un partenariat stratégique avec Smartling, un leader dans le domaine des technologies de traduction et de localisation. Ce partenariat nous permet de tirer parti des outils de pointe de Smartlingpour la traduction, la gestion et la précision contextuelle des langues, transformant ainsi la manière dont les langues à faibles ressources sont documentées et partagées numériquement.
Voici comment la technologie nous fait progresser dans la numérisation et la traduction des langues africaines.
Compilation des données existantes : Agrégation de corpus
Pour de nombreuses langues africaines, il n'existe pas de données linguistiques centralisées. Nous collectons et normalisons des données provenant de diverses sources, en utilisant des scripts Python pour nettoyer, normaliser et convertir les données dans un format commun, dans le but de créer un corpus centralisé pour une utilisation à grande échelle. La consolidation et l'amélioration des données linguistiques garantissent la cohérence et l'accessibilité, ce qui permet aux communautés de créer des ressources éducatives, des outils de traduction et des contenus numériques.
Le laboratoire des langues africaines a rassemblé plus de 400 Go de données vocales et textuelles pour 40 langues africaines à faibles ressources, ce qui a permis de faire progresser leur documentation et leur disponibilité numérique.
Réimaginer le crowdsourcing : Toutes les voix
Comme mentionné précédemment, les données incomplètes constituent une lacune critique pour la préservation des langues, qui peut être difficile à combler dans certaines communautés africaines. Notre application innovante de collecte de données, All Voices, permet aux institutions, aux communautés et aux locuteurs natifs de documenter et de numériser leur langue locale. Les contributeurs peuvent enregistrer la parole pour 40 langues africaines, répondant ainsi à notre besoin collectif de capturer des données pour les langues à faibles ressources.
À l'avenir, All Voices comblera les lacunes en matière de communication au sein des communautés et rendra les langues locales accessibles à tous. Il traduira également entre les langues africaines et les langues populaires telles que l'anglais et le français. Grâce à une traduction transparente et précise d'une grande variété de langues, All Voices vise à favoriser des échanges culturels plus profonds, tout en contribuant à un ensemble croissant de données sur les langues à faibles ressources.
Gestion des données : Du stockage à la traduction
L'agrégation et l'organisation des données linguistiques - en plus de la disponibilité pour la communauté - sont essentielles à notre travail au All Lab. Smartling joue un rôle vital dans l'ensemble de notre processus de gestion des données, de la collecte des données au stockage, en passant par la traduction. Grâce à Smartling, nous pouvons télécharger, organiser et stocker des données provenant de plusieurs projets dans un système sécurisé et centralisé.
Smartling API nous permet non seulement de partager nos données à grande échelle sur plusieurs plateformes, mais aussi d'effectuer des mises à jour en temps réel, afin que chaque membre de notre communauté ait accès au corpus numérique le plus précis et le plus complet possible.
Nous nous sommes appuyés sur la mémoire de traduction de Smartling, sur la traduction assistée par ordinateur et sur des traducteurs compétents pour assurer un contenu cohérent et précis dans les différentes langues africaines. Le référentiel linguistique structuré et accessible qui en résulte est essentiel pour développer l'accessibilité numérique et les efforts de préservation à travers la diversité linguistique de l'Afrique.
Utiliser nos données à bon escient
Notre travail au All Lab - soutenu par les technologies ci-dessus - génère des ensembles de données linguistiques africaines structurées, qui jouent un rôle essentiel dans la numérisation des langues à faibles ressources. Ces ensembles de données sont essentiels au développement de nouveaux outils de traduction automatique, de reconnaissance vocale et de préservation des langues. En fin de compte, nos données contribuent à faire avancer la recherche linguistique africaine et à soutenir le développement de modèles linguistiques plus précis et culturellement pertinents.
Nous mettons également nos ensembles de données à disposition sur des plateformes à accès libre telles que Huggingface. Notre travail favorise le développement communautaire de l'IA et encourage l'investissement dans les technologies des langues africaines.
Des avancées et un regard vers l'avenir
Au Laboratoire de langues africaines, nous avons réalisé des progrès considérables dans la réduction de la fracture numérique pour les langues africaines grâce à la collecte de données, à l'agrégation, à la normalisation, au crowdsourcing, ainsi qu'au développement et à la mise en œuvre de modèles. Nous sommes fiers de notre corpus de données linguistiques robuste et en pleine expansion - qui représente environ un demi téraoctet -, de nos outils de traduction avancés et de l'élargissement réussi de l'accès aux ressources linguistiques.
À ce jour, nous avons collecté plus de 400 Go de données vocales et textuelles pour 40 langues africaines à faibles ressources, ce qui a permis de les documenter et de les faire progresser sur le plan technologique. Grâce à des partenariats avec des institutions universitaires telles que le laboratoire MARS de l'UCLA et des leaders de l'industrie tels que Smartling, nous exploitons la recherche et la technologie de pointe pour faire avancer notre mission. Nous nous efforçons également de sensibiliser le public au paysage linguistique africain par le biais de séminaires, de conférences et d'articles techniques.
À l'avenir, nous nous efforcerons de préserver davantage de langues africaines à faibles ressources, au-delà de nos 40 langues actuelles. Nous visons également à élargir la disponibilité de nos ensembles de données et de nos outils. Enfin, nous nous engageons à stimuler l'innovation en matière de traduction automatique, de préservation des langues et de recherche linguistique pilotée par l'IA dans toute l'Afrique. Ensemble, nous veillerons à ce que le patrimoine linguistique de l'Afrique ne se contente pas de survivre, mais prospère à l'ère numérique.