10.04.2006

Cours RSS en ligne

De nombreux cours et pages explicatives sur RSS existent en ligne, mais néanmoins, voici un super cours en français réalisé par Stéphane Cottin, du Conseil Constitutionnel, éditeur du foisonnant site www.servicedoc.info et par ailleurs formateur à l'ADBS (et grand professionnel de tout ça, bien sur). Merci Stéphane !!!
Au fait, il est ICI

31.03.2006

Ne me parlez plus de Technorati !...

Non, décidemment, je ne veux plus entendre parler de Technorati en ce moment. C'est une vraie cata, ce moteur, et le nombre de blogs affichés sur la page d'accueil ayant beau enfler irrésistiblement, moi je n'aime pas l'interface, je ne trouve pas géniale la recherche avancée, et puis je ne m'y retrouve pas...

Bon, je ne lui en veux même pas (à Technorati, j'entends) de refuser obstinément d'indexer mon blog, même s'il continue à dire me connaître, et même par exemple, à affirmer aujourd'hui que mon blog a été "last updated 4 days ago", ce qui est faux d'ailleurs, puisque je n'y ai rien écrit depuis le 21 mars, et que nous sommes le 30 (D'abord, non mais). Bon je sais, il faut que je mette à jour mon fil RSS qui date, mais j'ai plein de trucs à faire de ce style, et voilà, au lieu de ça, je suis en train d'écrire cette note (ah la la). De loin en loin donc pour en revenir à Technorati, j'essaie l'option avancée en mettant un mot-clé là où il faut et l'adresse de mon blog, et il me répond imperturbablement "there are no posts that contain veille on inforizon.blogs.com/veille" Et va donc, si, there are posts that contain veille, puisque je te le dis !!. Je me rassure en allant sur Google BlogSearch, et en constatant avec satisfaction que la même recherche donne le résultat attendu.

Bon, sur ce je regarde qui selon Technorati, a pointé sur mon blog tout récemment (ben oui, matinée narcissique, ça ne vous arrive jamais ?), et je vois (entre les deux autres réponses qui m'énervent particulièrement car le moteur mélange les liens dans les notes avec les liens à côté...) un billet de Catherine de BlogOkat. Sur ce, j'ai un bref (et regrettable, je l'accorde volontiers) mouvement de jalousie : comment fait-elle, elle, surtout que le billet en question date du 26 mars, pour avoir les faveurs du grand Technorati et être indexée (bouh...). Soudain, un doute me saisit : Serait-il possible, me dis-je, que le moteur ait "vu" que Catherine faisait un lien vers mon blog, mais n'en ait pas pour autant indexé son billet ?? Vérification immédiate avec l'expression "blogs de filles" présente dans le billet du 26 mars concerné Réponse laconique de Technorati : "there are no posts gna gna.." Ah, il y a donc au moins parfois un "décalage d'indexation", car en revanche, si je cherche "classification" sur le même blog, je trouve bien une note de 29 janvier 2006 qui traitait du sujet (bon, il a quand même fallu que je pense à mette le curseur sur "any authority" ce qui est débile dans la mesure où j'ai restreint à un seul site). Cela me rappelle que je m'étais dit que Aref, sur Vtech devrait vraiment cesser d'utiliser  Technorati comme moteur de son blog, parce que pour y retrouver quelque chose, bonjour (je sais, deux ou trois fois, j'ai recherché un article qui m'avait intéressé et que je voulais relire, ben j'suis passée par Google au finish) ; c'est même à se demander pourquoi il met des tags sur ses articles, parce que là c'est pareil, on peut pas dire que ce soit à jour, c'est peu de le dire !!! (bon ça me rassure en un sens, parce que ça fait un moment que je me dis qu'il faut que je teste).

Bon, en fait, faudrait bien sur faire des tas de tests sur une échelle plus vaste, en tenant compte de la langue, de l'autorité, et tout... N'empeche que pour une recherche que je vais faire pour un client concernant les blogs, Technorati ne m'a pas permis d'avancer bien vite...

Tout ça pour dire que je trouve l'interface et la recherche avancée des concurrents plus claire et mieux foutue, que je m'y retrouve mieux dans les résultats et que je laisse tomber Technorati pour un temps, là.

21.03.2006

Eviter le bruit dans le contexte d'une veille automatisée ?

Je me permets de retranscrire la réponse que je viens d'envoyer sur la liste Veille à un étudiant "en stage de fin d'études dans le domaine de la veille et dans un groupe industriel international" et qui "doit mettre en place une veille automatique sur Internet" (je mettrais bien sa question in extenso, mais je pense que sans son accord, cela ne se fait pas...). C'est bien sur un début de réflexion à compléter...

Pour vous y retrouver, je pense que vous devez déjà dissocier
(intellectuellement parlant) les phases de collecte et de traitement
automatisé. Certes, plusieurs outils et plate-formes gèrent les deux étapes,
mais les process sont fondamentalement différents.
Comment s'en sortir pour ne pas avoir trop de bruit ? Une fois le ciblage de
votre (vos) veille(s) effectué, il est déjà impératif de mener un travail
approfondi sur les sources utiles (ce qui est très consommateur de temps) et
les mots-clés éventuels qui serviront de filtres. Je vous conseille de faire
ça avant de s'embarquer dans une solution de traitement automatique pour y
voir plus clair et de travailler un moment sur une analyse manuelle (à
l'aide bien entendu pour la collecte d'un agent d'alerte).
En ce qui concerne le traitement, de nombreuses solutions sont
envisageables, avec par exemple des moteurs de recherche avancés qui auront
une approche plus statistique (de type Exalead ou Matchpoint) ou bien des
solutions qui intègrent plus de sémantique (comme Sinequa ou Lingway). Comme
indiqué au début, différentes plate-formes intègrent collecte et traitement.
Pour le traitement, vous devez aussi être au clair sur ce que vous voulez
obtenir concrètement : catégorisation, classification (ou techno de
clustering), cartographies associées, extraction d'"entités nommées" (noms
de sociétés, de produits, lieux) ou de contenu spécifique (exemple fusions
acquisitions), ou autres méta-données spécifiques (auteur, source, etc.),
comptages divers (nombre de sources traitant de tel sujet), travail sur
l'environnement terminologique d'un terme en particulier, etc.,,, ce dans
combien de langues ?
Si vous voulez un exemple de traitement spécifique après la collecte, vous
pouvez regarder l'article que j'ai rédigé pour Veille après rencontre avec
l'AFII (Agence française des investissements internationaux), qui travaille
avec KB Crawl et Temis: il est disponible sur le site de TEMIS

http://www.temis.com/?id=26&selt=13


Livre Net recherche : il est sorti

Après le "Point final", le livre Net recherche : le guide pratique pour mieux trouver l’information utile, co-écrit avec Véronique Mesguich, est sorti dans les temps...
Plus d'information sur le site de l'éditeur, l'ADBS (Association des Professionnels de l'information) http://www.adbs.fr/site/publications/ouvrages/104.php

20.03.2006

Fusion Ask Teoma : disparition des "expert's links"

Un regret à l'occasion de la fusion de Teoma dans le moteur Ask (qui devient d'ailleurs Ask tout seul, ayant perdu Jeeves dans la bataille) : la perte des "Expert's links" qui apparaissait dans le quart inférieur droit des résultats de Teoma, et permettait de générer automatiquement des listes de liens sur le sujet choisi.

A propos de Ask, quel chemin parcouru depuis les premiers pas : à l'époque, le moteur fonctionnait comme une base de questions-réponses, avec une base de questions de plus en plus importante. Cette démarche originale complétait bien la recherche classique, et on ne trouve plus, je crois sur le Web à l'heure actuelle, d'initiative de ce type. Là aussi, dommage...

08.03.2006

Factiva search 2.0

Factiva Search 2.0 est sortie, et Vtech nous fait la revue des fonctionnalités de la nouvelle plate-forme (filiale de Dow Jones et Reuters) du serveur (essentiellement news).

Après Strategic Finder, voici Digimind Finder

Digimind, éditeur de la plate-forme de veille Digimind Evolution, annonce le lancement du méta-moteur Digimind Finder. Rappelons que la société a édité dès 1999 un méta-moteur monoposte particulièrement innovant Strategic Finder, malheureusement ensuite abandonné, l'effort de R&D s'étant porté sur des activités plus rentables. L'un des points forts de Strategic Finder était de pouvoir intégrer n'importe quel moteur ou base de données, contrairement à un outil comme Copernic. La contrepartie, c'était la nécessité de "mettre les mains dans le cambouis", c'est à dire que l'opération requérait de la technique.

Digimind Finder, "le méta-moteur professionnel du web profond", propose une connexion automatique aux outils de son choix, donc, sans aucune connaissance technique. L'outil permet une visualisation des résultats par moteurs, et permet de filtrer les résultats via des mots-clés. Bien sur, il ne s'agit plus d'un monoposte, mais d'une solution serveur multiutilisateurs, et aussi un des 4 modules de la plate-forme intégrée Digimind Evolution.

C'est une bonne nouvelle, cette dimension manquait vraiment à Evolution jusqu'à présent, et j'ai donc hâte de tester ce nouvel outil. Et bravo aux chercheurs du "Digimind Research Center de Grenoble" (non je ne l'ai pas inventé, c'est tout droit sorti du communiqué de presse ;)))

Outils de veille à l'honneur le 30 mars à Lille

L'ARIST et l'Université de Lille 3 organisent le Jeudi 30 mars la deuxième
édition du Congrès TELMI "Les outils pour faciliter la veille des entreprises et des territoires
ou comment gérer plus efficacement son information stratégique"

Apparemment une journée fort intéressante. Tous les renseignements sont ICI

Pour les autres événements (et il y en a moultes ces temps-ci), voir notamment Outils Froids : Christophe annonce beaucoup de séminaires ou journées d'études consacrées à l'IE

KB Crawl en version 3

Je parlais récemment de la journée organisée par Bea Conseil pour présenter à ses clients et partenaires la Version 3.0 du logiciel KB Crawl  (présentation faite par ailleurs ici à l'occasion de la sortie de la version 2.5).
Alors que ça y est, la nouvelle version sort ces jours-ci, voyons un peu plus dans le détail les améliorations apportées. Déjà, une nouveauté de taille : des modules optionnels ont été développés pour s'adapter au mieux aux besoins de chaque veilleur (coût dégressif à partir de 900 euros par module et par licence)

- Module KB Mail qui permet de de mieux planifier des emails d'alertes auprès des destinataires, et de filtrer, valider voire enrichir les alertes avant diffusion. A mon avis, ce module aurait pu faire partie du pack de base, car il paraitra vite indispensable, à moins d'être seul à veiller !

- Module KB Nav Record, module d'enregistrement de navigation. Parfois, KB Crawl avait du mal à travailler sur certains sites complexes, où qui multipliaient différents formulaires (authentification et acces base de données, par exemple).  Ce module simplifie le travail, et parait donc également indispensable, sauf si on ne travaille que sur des pages simples

- Module KB Exchange, permet l'import export des données au formal XML : facilite la communication et l'échange avec d'autres applis

- Module KB OCR : permet d'indexer le contenu textuel des images (ex : détecter des changements dans des PDF image)

Sinon, la Version 3.0 a travaillé sur l'interface, pour la rendre plus ergonomique et fonctionnelle, avec notamment une boîte à outils flottante + augmentation du nombre de formats indexés et donc surveillés (pdf, word, excel, mais aussi désormais powerpoint, flash ) +sites en ftp, possibilité de lancer une même recherche sur plusieurs moteurs, etc.

Je n'ai pas encore testé tout ça, mais bravo donc d'ores et déjà à l'équipe de BEA Conseil pour sa réactivité.

24.02.2006

Recevoir un mail par dossier avec WebSite Watcher

Un petit souci avec l'agent d'alerte WebSite Watcher : Même en ayant structuré ses sujets de veille par dossier, on reçoit un mail par page modifiée, ce qui s'avère très pénible à l'usage. Il semble qu'un fonction permettant de n'en avoir qu'un par dossier soit prévue, mais ce n'est pas encore le cas avec la version actuelle.
Mais on peut toutefois avoir (presque) le même résultat avec les scripts. Bon, c'est un peu compliqué, surtout qu'il faut aller à la peche aux infos sur l'aide, mais on y arrive. Si jamais le résultat intéresse quelqu'un, je transmets le "truc" avec plaisir.

Autre expérimentation utile, l'allliance de Net Snippets et de WebSite Watcher : Grâce à la fonction de capture d'écran disponible dans la barre des tâches de Windows avec la version pro de Net Snippets (qui reconnait certains formats, mais bon pas tous), on peut récupérer la news qui nous intéresse dans la mise à jour d'une page, et l'insérer dans les "Snippets" : c'est très pratique pour centraliser toutes les infos utiles sur un sujet (info informelle, mail, dossier pdf, note word, page web, etc.) et surtout réaliser un rapport très pro avec tous les commentaires utiles : succès garanti lors de la présentation client, d'expérience !!