Un début de corpus

Aujourd’hui, on va commencer à parler travail.

L’objectif du projet étant d’étudier un mot dans plusieurs langues et pays, nous allons construire trois corpus que nous allons tirer du web : un en français, un autre en anglais, et un dernier en russe que l’on va tirer du web.

Pour commencer, on a donc cherché des liens d’articles de presse en ces trois langues. Ce sont des sources pratiques pour concevoir un corpus, vu que l’orthographe et la syntaxe devraient y être plus soignées que sur des forums ou sur des réseaux sociaux. Bien entendu, nous n’exclurons pas ces derniers dans notre analyse pour autant, ils offriront un tout autre type de contenu.

Pour les trouver, on aurait pu utiliser des commandes Unix sophistiquées, mais mes connaissances balbutiantes en ligne de commande m’ont poussé à plutôt utiliser une extension Firefox, Link Gopher. Elle permet de facilement extraire tous les liens d’une page internet. Dans notre cas, nous l’avons utilisée sur les résultats de recherche obtenus avec Google Actualités.

C’est là qu’on a rencontré un léger problème : les hommes politiques ont souvent une actualité très riche, et c’est encore plus vrai pour Vladimir Poutine avec les attaques qu’il mène contre l’État islamique en ce moment. On se retrouve donc avec beaucoup d’articles très récents sur ces événements, ce qui peut fausser notre analyse avec des articles très partiaux sur la situation. On a donc essayé d’y remédier en prenant aussi des articles vieux de plus d’un an. On pourra aussi envisager de prendre le problème à l’envers et décider de se concentrer justement sur les impressions que les gens ont sur Poutine et sa politique dans ce contexte houleux.

Voilà donc trois fichiers contenant chacun 50 URL d’articles de presse : frurl pour les URL françaises, enurl pour les URL anglaises et ruurl pour les URL russes. Ce n’est certainement pas une liste définitive : elle sera complétée, étendue, affinée et retravaillée.

À très bientôt pour une série d’exercices sur Unix, et un post expliquant la démarche pour faire une recherche efficace et exploitable sur Twitter.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s