30.11.2005
Fiche de lecture 3 : Moteurs de recherche et bibliothèques numériques
Le Crosnier, Hervé.-Moteurs de recherche et bibliothèques numériques.-juin 2005
publié le 27 juin 2005
http://www.vecam.org/article.php3?id_article=461
Cet article est une introduction à une table ronde consacrée aux enjeux des moteurs de recherche pour les bibliothèques, qui a eu lieue le 3 juin 2005. Hervé Le Crosnier estime qu'il est necéssaire de définir et d'expliquer les termes qui allaient être grandement utilisés lors de cette table ronde. Il commence donc par la définition d'un « moteur de recherche ».
Selon lui ce terme, directement traduit de l'anglais, est avant tout technique et ne permet pas d'appréhender la nature propre de ces moteurs, qui seraient en fait un nouveau média.
On apprend ensuite ce qui compose un moteur de recherche et la façon dont il fonctionne. Les moteurs de recherche sont composés de trois parties :
*le robot d'exploration qui va naviguer et rappporter les documents du web. Il faut que celui ci soit rapide, exhaustif et régulier dans la mise à jour des pages déjà visitée.
*le système d'indexation qui va extraire les mots clés des documents. Le système de pondération (la valeur des mots dans un document) est gérée de manière linguistique (récupère tous les mots sauf les « mots vides » comme « et », « ou », « par »...), statistique (plus un mot est fréquents dans le texte plus il aura de poids) et « sociale » (nombres de liens pointant vers le document).
*l'interface de recherche qui classe, selon la demande de l'utilisateur, les pages correspondantes de manière ordonnée et par pertinence par rapport a la recherche. Il est à noter que les résultats figurant au-delà de la deuxième ou troisième page de réponse ne seront que très rarement lus.
Ainsi on peut dire que plus les terme de la recherche seront précis et nombreux, plus les résultats seront pertinents. Pourtant ces résultats peuvent être biaisés parl'achat de mots-clés permettant à des pages d'être mieux pondérées que les autres. Et enfin on voit une espèce de cercle vicieux où les sites les mieux valorisés « socialement » seront ceux qui seront en tête des résultats et seront ainsi beaucoup plus facilement repris par d'autres sites et augmentant ainsi leur pondération « sociale ».
La partie technique étant bien définie Hervé Le Crosnier se penche ensuite sur la problématique : les moteurs de recherche comme nouveaux médias.Les moteurs de recherche sont sollicités énormément de fois par jour et ce par des millions de personnes en même temps. Gérer toutes ces données requiert un savoir faire extrêmement pointu et une bonne structure afin de les utiliser du mieux possible. Ces structures sont devenues capitalistiques et essaient aujourd'hui de toujours attirer plus de monde chez elles. Ainsi elles se développent en continu afin d'élargir les services aux utilisateurs et d'augmenter leur poids en bourse afin de faire de nouveaux investissements techniques. Le financement principal de ces structures derrière les moteurs de recherche se fait essentiellement par la publicité, toujours à la recherche de nouveaux espaces et clients.
Selon Le Crosnier, cescritères sont la base de la constitution d'un nouveau média global adapté à internet. Cet espace médiatique s'est vite tranformé en champs de bataille où les moteurs américains règnent et où la concurrence disparaît vite.
Enfin dans la dernière partie de l'article, l'auteur confronte ce qu'il vient d'expliquer sur les moteurs de recherche aux enjeux des bibliothèques numériques. A priori ces les deux logiques semblent être opposées, puisque les bibliothèques numériques se veulent des collections limitées et catégorisées alors que les moteurs de recherche tentent de développer leur « fonds » en permanence.
Il nous explique le fonctionnement de la mise en place d'une bibliothèque numérique, qui mettent en ligne des « photocopies numériques » des ouvrages de la bibliothèque.
Tout d'abord il y a la numérisation, procédé par lequel on fait une copie numérique d'un document physique. Le document est « éclaté » en ses unités les plus petites (pages pour un livre, morceau pour un album musical).
On indexe ensuite ces documents, via l'ajout de métadonnées pour retrouver une unité documentaire et via le système d'indexation probabiliste et sociale qui sont en vigueur dans les moteurs de recherche, excepté qu'ici il faut passer d'abord passer par une reconnaissance de caractère puisque les copies numériques des documents sont des images.
Les bibliothèques numériques sont ensuite ouvertes au public, et afin de fonctionner correctement celles-ci se doivent d'avoir une interface de navigation simple et intuitive.
Enfin, le dernier enjeu pour les bibliothèques numériques est le choix du système de recherche documentaire. Va-t-il rester plus proche du système en vigueur dans les bibliothèques (catalogue, métadonnées) ou se tourner vers le système des moteurs de recherche (recherche par mots)?
L'auteur pense que le futur sera un mode mixte, dans lequel les bilbiothèques numériques et les moteurs de recherche coopéreront.
Commentaire
Je pense que ce prélude à une table ronde est un article important pour le monde des bibliothèques numériques puisqu'il définit précisément le fonctionnement et le rôle des moteurs de recherche et qu'il confronte les enjeux de ces derniers avec ceux des bibliothèques numériques. J'ai l'impression que le débat lancé par le projet Google-Print et sa reprise dans les médias est à l'origine de l'écriture de cet article. Il est en effet très important de savoir, avant de prendre part au débat, quels sont les termes à utiliser et ce qu'ils signifient précisément. Les définitions sont précises et bien ordonnées et permettent une très bonne appréhension des différents termes qui ont dû ête utilisés lors de cette table ronde, mais je pense qu'elles sont même à garder en tête lorsque l'on prend part au débat sur la numérisation de collections de bibliothèques.
17:00 Publié dans Fiches de lecture | Lien permanent | Commentaires (0) | Envoyer cette note


Les commentaires sont fermés.