loading

MODULE D'EXTRACTION FOCALISE ET ANALYSE AUTOMATIQUE LINGUISTIQUE DU WEB / NGUYEN, Hong San

Tác giả : NGUYEN, Hong San

Năm xuất bản : 2007

Chủ đề : 1. Thesis.

Thông tin chi tiết

Tóm tắt :

Ce stage se déroule dans un cadre d'une collaboration entre l'Institut de Recherche en Informatique de Toulouse (IRIT) et l' Équipe de Recherche en Syntaxe et Sémantique (ERSS). Notre objectif est de développer un outil informatique pour la construction automatique des corpus à partir du web en utilisant les outils analyse linguistique existés. Il s'agit de la construction d'un crawl focalisé du web et de l'intégration des outils d'analyse linguistique pour analyser les pages Web. Dans un premier temps, nous présentons un modèle de crawl focalisé qui parcourait le Web pour télécharger les pages concernées à un sujet spécifique. Le crawl doit faire sortie deux résultats importants: les contenus textuelle des pages Web et le graphe des hyperliens des pages Web. Dans un deuxième temps, nous faisons une études sur les outils d'analyse linguistique TreeTagger, Syntex et Upery et les intégrons dans le système pour l'analyse des pages Web. Nous effectuons aussi le prétraitement des textes récupérés par le crawl avant de les passer à des outils linguistique. Le résultat final est des corpus analysés qui parlent d'un sujet spécifique.

 Thông tin dữ liệu nguồn

 Thư viện  Ký hiệu xếp giá  Dữ liệu nguồn
Viện Quốc tế Pháp ngữ - ĐHQGHN
https://repository.vnu.edu.vn/handle/VNU_123/145