MODULE D'EXTRACTION FOCALISE ET ANALYSE AUTOMATIQUE LINGUISTIQUE DU WEB / NGUYEN, Hong San
Tác giả : NGUYEN, Hong San
Năm xuất bản : 2007
Chủ đề : 1. Thesis.
Thông tin chi tiết
Tóm tắt : | Ce stage se déroule dans un cadre d'une collaboration entre l'Institut de Recherche en Informatique de Toulouse (IRIT) et l' Équipe de Recherche en Syntaxe et Sémantique (ERSS). Notre objectif est de développer un outil informatique pour la construction automatique des corpus à partir du web en utilisant les outils analyse linguistique existés. Il s'agit de la construction d'un crawl focalisé du web et de l'intégration des outils d'analyse linguistique pour analyser les pages Web. Dans un premier temps, nous présentons un modèle de crawl focalisé qui parcourait le Web pour télécharger les pages concernées à un sujet spécifique. Le crawl doit faire sortie deux résultats importants: les contenus textuelle des pages Web et le graphe des hyperliens des pages Web. Dans un deuxième temps, nous faisons une études sur les outils d'analyse linguistique TreeTagger, Syntex et Upery et les intégrons dans le système pour l'analyse des pages Web. Nous effectuons aussi le prétraitement des textes récupérés par le crawl avant de les passer à des outils linguistique. Le résultat final est des corpus analysés qui parlent d'un sujet spécifique. |
Thông tin dữ liệu nguồn
Thư viện | Ký hiệu xếp giá | Dữ liệu nguồn |
---|---|---|
Viện Quốc tế Pháp ngữ - ĐHQGHN |
|
https://repository.vnu.edu.vn/handle/VNU_123/145 |