La Chine accélère la numérisation des textes anciens et améliore l'accès aux données des inscriptions sur os oraculaires, avec pour objectif d'intégrer le patrimoine culturel à un chinois numérique, ont déclaré des responsables lundi. Le Ministère de l'Éducation, la Commission nationale de la langue et l'Administration du cyberspace de Chine ont publié une directive visant à promouvoir la numérisation de la langue et des caractères chinois. Cette initiative se concentre sur le développement de ressources linguistiques nationales et de modèles linguistiques chinois à grande échelle pour soutenir l'intelligence artificielle.
L'objectif de la directive est d'établir un corpus national et une base de données stratégique d'information sur les ressources linguistiques d'ici 2027. À l'horizon 2035, le pays espère avoir considérablement élargi la présence de la langue chinoise dans les scénarios numériques et d'IA générative à l'échelle mondiale.
Liu Peijun, responsable du Département de la gestion de l'information linguistique au Ministère de l'Éducation, a déclaré que la directive appelait à la numérisation du patrimoine linguistique et culturel, tout en favorisant la création d'un musée numérique national de la langue et de l'écriture. Elle souligne aussi l'importance d'avancer dans les technologies clés pour la numérisation des textes anciens, d'améliorer l'accessibilité des données des inscriptions sur os oraculaires et de lancer un programme éducatif numérique multilingue pour faciliter l'apprentissage de la langue chinoise à l'échelle mondiale.
Un élément clé de cette initiative est le développement de ressources de données linguistiques à grande échelle. La directive prévoit la construction d'un corpus national comprenant d'importantes bases de données de la langue chinoise pour soutenir les applications d'IA.
Parmi les projets pilotes, l'Université Normale de Pékin a lancé un modèle linguistique pour le chinois classique, une initiative alimentée par l'IA qui établit une nouvelle référence dans le domaine. Kang Zhen, vice-président de l'Université Normale de Pékin, a déclaré que l'université a développé une gamme de bases de données linguistiques numériques, y compris une base de données holographique complète des caractères chinois, une ressource numérique du dictionnaire ancien Shuowen Jiezi, ainsi que des dépôts d'inscriptions anciennes et de textes manuscrits.
Ces ressources jouent un rôle crucial dans la recherche linguistique et la préservation culturelle, a ajouté Kang. Le modèle linguistique AI Taiyan de l'université, un modèle de langue classique chinois entraîné avec 1,8 milliard de paramètres, a été conçu pour une interprétation précise des textes anciens, soutenant des tâches telles que les explications de mots et de phrases, ainsi que les traductions du chinois classique vers le chinois moderne.
La Chine est également à l'avant-garde de la construction d'un nouveau corpus national pour renforcer l'infrastructure linguistique à l'ère de l'IA, a déclaré Wang Hui, directeur adjoint du Département d'application et d'administration de la langue au Ministère de l'Éducation.
"Actuellement, la plupart des ensembles de données linguistiques restent limités à des formats de texte uniques et à des domaines académiques spécifiques, manquant de l'ampleur et de la diversité nécessaires pour les applications d'IA", a déclaré Wang. Le département a commencé à planifier le corpus cette année, cherchant à lancer deux bases de données phares : le corpus de la civilisation chinoise pour l'enseignement et la recherche assistés par l'IA, et le corpus du système de grande lecture chinois.
Les actions mises en place visent non seulement à enrichir la diversité des ressources linguistiques disponibles, mais également à favoriser une meilleure utilisation de ces données pour des applications innovantes et technologiquement avancées. Le développement de ces initiatives pourrait également stimuler l'intérêt et la pratique de la langue chinoise dans le monde, tout en préservant des éléments fondamentaux de son patrimoine culturel.
Dans ce contexte, la numérisation des inscriptions oraculaires, qui sont des témoignages précieux de la culture chinoise ancienne, jouera un rôle central. En rendant ces données plus accessibles et mieux intégrées dans des plateformes numériques, la Chine espère à la fois respecter son histoire et se projeter dans un avenir technologique interconnecté. Ce projet ambitieux témoigne d'une volonté forte de la part des autorités chinoises de marier tradition et modernité, en s'appuyant sur des technologies de pointe pour faire rayonner la langue et la culture chinoises au-delà des frontières.