Vers une grammaire électronique du vietnamien / LE, Hong Phuong; ROMARY, Laurent,NGUYEN, Thi Minh Huyen
Tác giả : LE, Hong Phuong; ROMARY, Laurent,NGUYEN, Thi Minh Huyen
Năm xuất bản : 2005
Chủ đề : 1. analyse. 2. étiquetage. 3. grammaire. 4. LTAG. 5. TAG. 6. vietnamien. 7. Thesis.
Thông tin chi tiết
Tóm tắt : | Au long du développement des ressources linguistiques, on peut distinguer entre des grammaires qui sont dépendantes de programmes et celles qui sont utilisables pour des applications diverses. Les formalismes de grammaire d’unification (unification-based formalisms) ont été utilisés pour développer des grammaires à large couverture pour l’anglais, le fran¸cais, l’allemand, le chinois, le japonais, le coréen, etc. Néanmoins, il n’existe pas une telle grammaire pour le vietnamien, une langue parlée par environ 85 millions de personnes dans le monde entier. Dans ce rapport, nous présentons d’abord la première grammaire LTAG (Lexicalized Tree Adjoining Grammar, grammaire d’arbres adjoints lexicalisée et augmentée par des structures de traits basées sur l’unification) pour le vietnamien, appelée vnLTAG, qui a été développée pendant notre stage de recherche au LORIA. La grammaire vise à modéliser la compétence écrite et elle est à la fois indépendante du domaine et de l’application. Elle peut être utilisée pour l’étiquetage syntaxique, l’analyse et pour la génération du vietnamien. La grammaire que nous avons développée implémente le standard international ISO/DIS 24610-1, un standard pour la représentation, l’archivage et l’échange des structures de traits dans les applications du traitement des langages naturels, pour l’annotation et la production des données linguistiques. Ensuite, nous présentons une procédure robuste d’analyse en utilisant vnLTAG et un analyseur pour la grammaire qui est basé sur LLP2 – un analyseur syntaxique du LORIA qui a été développé depuis quelques années. LLP2 est un logiciel d’analyse des grammaires d’arbres adjoints qui utilise une représentation efficace de grammaires en se basant sur un format standard XML (appelé TAGML). Pour construire un analyseur pour la grammaire vietnamien, nous avons, d’une part, adapté et perfectionné presque tous les modules de LLP2 et, d’autre part, développé quelques nouveaux modules avant de les intégrer au LLP2. Enfin, nous effectuons une évaluation pour l’analyseur en utilisant un jeu de phrases de test. Le jeu vise à couvrir les phénomènes syntaxiques majeurs pour la langue, en se basant sur un vocabulaire relativement petit. Quelques résultats initiaux sont présentés. |
Thông tin dữ liệu nguồn
Thư viện | Ký hiệu xếp giá | Dữ liệu nguồn |
---|---|---|
Viện Quốc tế Pháp ngữ - ĐHQGHN |
|
https://repository.vnu.edu.vn/handle/VNU_123/80 |