30.11.2005

Fiche de lecture 3 : Moteurs de recherche et bibliothèques numériques

Le Crosnier, Hervé.-Moteurs de recherche et bibliothèques numériques.-juin 2005

publié le 27 juin 2005


http://www.vecam.org/article.php3?id_article=461


Cet article est une introduction à une table ronde consacrée aux enjeux des moteurs de recherche pour les bibliothèques, qui a eu lieue le 3 juin 2005. Hervé Le Crosnier estime qu'il est necéssaire de définir et d'expliquer les termes qui allaient être grandement utilisés lors de cette table ronde. Il commence donc par la définition d'un « moteur de recherche ».

Selon lui ce terme, directement traduit de l'anglais, est avant tout technique et ne permet pas d'appréhender la nature propre de ces moteurs, qui seraient en fait un nouveau média.

On apprend ensuite ce qui compose un moteur de recherche et la façon dont il fonctionne. Les moteurs de recherche sont composés de trois parties :

*le robot d'exploration qui va naviguer et rappporter les documents du web. Il faut que celui ci soit rapide, exhaustif et régulier dans la mise à jour des pages déjà visitée.


*le système d'indexation qui va extraire les mots clés des documents. Le système de pondération (la valeur des mots dans un document) est gérée de manière linguistique (récupère tous les mots sauf les « mots vides » comme « et », « ou », « par »...), statistique (plus un mot est fréquents dans le texte plus il aura de poids) et « sociale » (nombres de liens pointant vers le document).


*l'interface de recherche qui classe, selon la demande de l'utilisateur, les pages correspondantes de manière ordonnée et par pertinence par rapport a la recherche. Il est à noter que les résultats figurant au-delà de la deuxième ou troisième page de réponse ne seront que très rarement lus.


Ainsi on peut dire que plus les terme de la recherche seront précis et nombreux, plus les résultats seront pertinents. Pourtant ces résultats peuvent être biaisés parl'achat de mots-clés permettant à des pages d'être mieux pondérées que les autres. Et enfin on voit une espèce de cercle vicieux où les sites les mieux valorisés « socialement » seront ceux qui seront en tête des résultats et seront ainsi beaucoup plus facilement repris par d'autres sites et augmentant ainsi leur pondération « sociale ».


La partie technique étant bien définie Hervé Le Crosnier se penche ensuite sur la problématique : les moteurs de recherche comme nouveaux médias.Les moteurs de recherche sont sollicités énormément de fois par jour et ce par des millions de personnes en même temps. Gérer toutes ces données requiert un savoir faire extrêmement pointu et une bonne structure afin de les utiliser du mieux possible. Ces structures sont devenues capitalistiques et essaient aujourd'hui de toujours attirer plus de monde chez elles. Ainsi elles se développent en continu afin d'élargir les services aux utilisateurs et d'augmenter leur poids en bourse afin de faire de nouveaux investissements techniques. Le financement principal de ces structures derrière les moteurs de recherche se fait essentiellement par la publicité, toujours à la recherche de nouveaux espaces et clients.

Selon Le Crosnier, cescritères sont la base de la constitution d'un nouveau média global adapté à internet. Cet espace médiatique s'est vite tranformé en champs de bataille où les moteurs américains règnent et où la concurrence disparaît vite.


Enfin dans la dernière partie de l'article, l'auteur confronte ce qu'il vient d'expliquer sur les moteurs de recherche aux enjeux des bibliothèques numériques. A priori ces les deux logiques semblent être opposées, puisque les bibliothèques numériques se veulent des collections limitées et catégorisées alors que les moteurs de recherche tentent de développer leur « fonds » en permanence.

Il nous explique le fonctionnement de la mise en place d'une bibliothèque numérique, qui mettent en ligne des « photocopies numériques » des ouvrages de la bibliothèque.

Tout d'abord il y a la numérisation, procédé par lequel on fait une copie numérique d'un document physique. Le document est « éclaté » en ses unités les plus petites (pages pour un livre, morceau pour un album musical).

On indexe ensuite ces documents, via l'ajout de métadonnées pour retrouver une unité documentaire et via le système d'indexation probabiliste et sociale qui sont en vigueur dans les moteurs de recherche, excepté qu'ici il faut passer d'abord passer par une reconnaissance de caractère puisque les copies numériques des documents sont des images.

Les bibliothèques numériques sont ensuite ouvertes au public, et afin de fonctionner correctement celles-ci se doivent d'avoir une interface de navigation simple et intuitive.

Enfin, le dernier enjeu pour les bibliothèques numériques est le choix du système de recherche documentaire. Va-t-il rester plus proche du système en vigueur dans les bibliothèques (catalogue, métadonnées) ou se tourner vers le système des moteurs de recherche (recherche par mots)?

L'auteur pense que le futur sera un mode mixte, dans lequel les bilbiothèques numériques et les moteurs de recherche coopéreront.



Commentaire

Je pense que ce prélude à une table ronde est un article important pour le monde des bibliothèques numériques puisqu'il définit précisément le fonctionnement et le rôle des moteurs de recherche et qu'il confronte les enjeux de ces derniers avec ceux des bibliothèques numériques. J'ai l'impression que le débat lancé par le projet Google-Print et sa reprise dans les médias est à l'origine de l'écriture de cet article. Il est en effet très important de savoir, avant de prendre part au débat, quels sont les termes à utiliser et ce qu'ils signifient précisément. Les définitions sont précises et bien ordonnées et permettent une très bonne appréhension des différents termes qui ont dû ête utilisés lors de cette table ronde, mais je pense qu'elles sont même à garder en tête lorsque l'on prend part au débat sur la numérisation de collections de bibliothèques.

28.11.2005

Grille 1 : La canadienne

Nom et référence

Collection numérique de la Bibliothèque nationale du Quebec du magazine "la Canadienne"

Types de documents

magazine

Les journaux et magazines sont accessibles en intégralité

Tout public : francophone et anglophone

URL

http://bibnum2.bnquebec.ca/bna/cana/index.html


Dernière mise à jour

25 octobre 2005

Quantité/ taille du fonds

8 numéros numérisés


Caractéristiques générales

Intitulé

La canadienne

Type de document

Magazine illustré

Dates

Entre 1920 et 1923

Mode de recherche

Système d'arborescence déroulante où l'on peut choisir entre : un accès par numéro par année, un accès général par auteur, titre ou sujet; et un accès par genre (article, illustrations publicités,...)

Finesse et pertinence de l’indexation

Pas d’index propre.

Par contre bibliographie et webographie importantes.

Statut juridique des documents

Les référence au copyright et aux droits d'auteur est annoncé en bas de la page sur les collections. numériques.

Dernière mise à jour : 25 octobre 2005

Accès au magazine complet ou selection de page (utiles pour les connections bas débit).


Caractéristiques Techniques

Nom du fichier

Série de chiffres de codage, numéro de page et extension « .pdf »

Nombre de pages/fichiers

44 numéros sont en ligne, de 30 à 50 pages environ.

Taille de chaque fichier

La taille des fichiers pdf est de environ 1Mo pour les pages simples et environ 20Mo pour les magazines complets.

Format

Les photographies ont été numérisées en format JPEG.

Logiciels de visualisation

Acrobat Reader (gratuit) doit être installé sur l'ordinateur pour pouvoir visualiser les documents.

Est-ce une BDD unique ou distincte ?

Base de données distincte.


Caractéristiques des documents

Lisibilité

Site très clair et collection bien présentée. Chaque collection à une présentation soulignant le contexte de création et de diffusion des documents.

Un mode d'emploi clair et détaillé sur la navigation est accessible dans le même cadre que la présentation et la recherche.

Impression et enregistrement possibles ?

Téléchargement possible du fichiers pdf et impressions à partir du fichier local autorisé

Adaptation aux personnes handicapées

Pas de versions sonores pour les personnes mal voyantes.

Couleur ou N/B

Les images sont en couleur.


Modèle de grille très largement inspiré de celle de Gaëlle, merci miss pour cette belle grille.

Il est probable que je la modifie ultérieurement pour l'adapter à de futures collections.

26.11.2005

Fiche de lecture 2 : Google and God's Mind The problem is, information isn't knowledge

Gorman, Michael.-Google and God's Mind The problem is, information isn't knowledge.-décembre 2004

Chronique pour le Los Angeles Times du 17 décembre 2004.

http://www.scils.rutgers.edu/~lesk/spring05/lis553/ala-ja...



Mickael Gorman est le doyen des services bibliothécaires de l'université de Fresno en Californie, et président de l'Association des bibliothéques américaines.


Cette chronique parue il y a un an est une critique du projet Google Print, visant à numeriser et mettre en ligne les ouvrages des bibliothèques américaines, ainsi que de permettre la recherche de façon précise sur ces textes en ligne.

Mickael Gorman aborde le sujet d'un point de vue de savant, d'érudit. Il explique que les gens de Google rêvent au rassemblement de toute l'information du monde et que, selon leurs propres mots, ils veulent créer l'équivalent électronique de « l'esprit de dieu » contenant toutes ces connaissances.

Mais pour lui les livres sont bien plus que la somme de leurs différents éléments. Il se réfère alors à un cheminement de la lecture (lecture séquentielle et cumulative pour aquérir des connaissances).

Ensuite à travers un exemple partant de ce que sera surement la recherche su Google Print, il démontre que l'information hors de son contexte n'est pas très utile et que pour compléter l'information il faudrait finalement lire le livre entièrement. Mais si c'est un livre de 500 pages par exemple, peut on trouver la patience de le lire sur un écran ? Ou imprimer ses 500 pages sur notre imprimante ? C'est peu probable, et finalement, il vaudrait mieux lire un exemplaire disponible en bibliothèque, donc le service de Google est inutile d'un point de vue de travail « savant ».

Pour Gorman l'essentiel du problème se situe dans la différence entre information (données, faits, images,...) et savoir enregisté (l'interprétation cumulée de toutes les inforamtions contenues dans les textes.

Il nuance ensuite sa critique en insistant sur le fait que la numérisation de livres dont l'objectif est d'apporter des informations (comme les dictionnaires ou encyclopédies) ou des photos et des documents anciens ou uniques est très utile lorsque lors d'une consultation, il est important de voir le document (manuscrits anciens par exemple). Mais il estime que c'est une perte de temps et d'argent que de numériser des livres « savants ».

Enfin il finit par une note optimiste sur l'avenir des livres papier et des bibliothèques car il ne pense pas que les versions numériques supplanteront complétement les ouvrages physiques.


Commentaire:

Tout d'abord je voudrais revenir sur la compréhension de cet article en anglais ainsi que la traduction. Le terme « scholar » utilisé dans le texte original est difficile à traduire; il se rapproche de savant, d'érudit ou lettré, dans une acception professionnelle, un cadre de recherche universitaire.

 

Ce document se place hors du débat sur le fait que ce projet augmenterait l'hégémonie de la culture anglo saxonne sur internet et dans le monde et permet une vision professionnelle sur ce vaste projet de numérisation. Même si cet chronique date d'un an il est pourtant toujours intéressant aujourd'hui, de par sa refléxion sur les informations contenues dans les ouvrages numérisés. Ainsi sans être contre la numérisation il ne considère pas comme utile la numérisation des livres « savants » dont le contenu doit être pris comme un ensemble, et pas comme des informations que l'on peut découper et sortir de leur contexte. Je suis de son avis quand il écrit que le projet de Google ne peut pas être pris comme une attaque vers le monde « classique » du livre et des bibliothèques, puisque de toute façon la plupart des bibliothèques universitaires ou nationales ont des projets de numérisation et de mise en ligne. Mais il est vrai qu'il devrait y avoir un choix dans ce qui est numérisé par Google, un choix au niveau des ouvrages à numériser et pas seulement un choix géographique comme celui de Google. Certains ouvrages doivent être numérisés et mis en ligne, comme des manuscrits anciens précieux ou uniques, qui ne sont pas consultables directement par le public car trop fragiles ou trop éloignés; par contre on peut aussi se poser la question de l'utilité de certains ouvrages dont le contenu n'a qu'un public très restreint de spécialistes ou comme ceux dont parle Mickael Gorman, qui ne peuvent être compris que dans leur ensemble et dont on ne peut se satisfaire d'un extrait.
A noter, en bas de la page un commentaire assez cinglant par un éditorialiste d'un autre journal, dans lequel il s'étonne de l'étroitesse d'esprit du président de l'association des bibliothèques américaines.

Fiche de lecture 1 : Bibliothèques numériques et google-print.

Fiche de lecture 1 : Bibliothèques numériques et google-print.

Salaün, Jean michel.-Bibliothèques numériques et google-print.-La documentation française.-décembre 2005

Article pour la revue Regard sur l'actualité

http://archivesic.ccsd.cnrs.fr/documents/archives0/00/00/...



Cet article à paraître, disponible en ligne, est une première analyse du débat qui agite le monde du livre depuis peu. Ce débat, le projet de Google de mettre en ligne et en accès libre des millions d'ouvrages numérisés, a suscité de nombreuses réactions des acteurs de la création et de la difffusion du livre autant que des concurrents directs de Google sur le net.

Après une genèse de l'entreprise Google et l'analyse de ce qui a fait son succès, l'article nous amène au coeur du sujet : le projet de numérisation Google-Print.

Faisant partie de la stratégie multidirectionnelle de Google, ce projet démarre en 2004, lorsque Google contacte cinq bibliothèques, universitaires et publiques, avec pour objectif de numériser à grande échelle leurs collections.

Google-Print se distingue des précédents projets de numérisation par trois aspects. Tout d'abord Google voit grand. En effet, l'ensemble des fonds concernés représente 15 millions d'ouvrages et c'est la plus grande opération de numérisation jamais tentée.

Ensuite, Google montre beaucoup savoir faire en matiere de découpage de document, de rapidité d'execution et de traitement des documents, permettant ainsi des recherches simples et efficace sur les documents numérisés.

Enfin, Google a tenté une manoeuvre audacieuse en inversant l'ordre traditionnel de mise en ligne d'un ouvrage. Au lieu de demander l'autorisation pour pouvoir mettre en ligne un ouvrage, Google les met en ligne et parie sur le fait que les ayant-droits trouveront leur compte grâce à cette promotion gratuite et lui permettent de continuer.

Il y eu de nombreuses réactions face a ce projet, dont le directeur de la BNF, qui n'est pas d'accrod avec le fait que seules les collections anglo-saxonnes soient concernées. Ensuite ce sont les ayants droits qui contestent la numérisation sans autorisation et ont portés plaintes.

Même si le projet Google-Print n'est pas mené à terme ou si il prend beaucoup de retard, il est interessant de noter qu'il a tout de même permis de lancer un débat qui pose de nouvelles questions sur les enjeux culturels et commerciaux liés à la numérisation et aux collections numériques. Et comme il existe deux conceptions radicalement différentes : la latine privilégiant la transmission des savoirs et la construction des contenus alors que la vision anglo-saxonne insiste sur la diversité et l'accès a l'information.


Commentaire :

Cet article m'a beaucoup intéressé puisqu'il lance une réflexion sur la transformation de collections physiques en collections numériques. Cet article expose bien les nombreuses difficultés du projet et les diverses réactions, et pour ma part je pense que le directeur de la BNF s'est peut être emporté pour rien. En effet, Google veut commencer par les collections américaines, mais il faut bien qu'il commence par quelque chose et étant une entreprise fondée par des universitaires américains, il est normal qu'ils veuillent commencer a vec leur patrimoine.

Toutes les notes