Accueil ● Interface ● Interface n° 127 Juin 2012
Interface n° 127 Juin 2012
Une Concordance pour les Nuls?
Au moment où nous annoncions la mise à disposition
de la Concordance analytique de la Bible TOB
(1993) avec références aux mots hébreux, araméens ou grecs dans
Internet, associée au moteur de recherche
knowhowsphere,
une des premières réactions a été:
"À quand une version pour les Nuls?".
La question mérite réflexion de plusieurs points de
vue:
● Internet : quelques chiffres
● Que serait une version pour les "Nuls"?
● Tous les types de données dans Internet supposent-ils un seul et
même type de moteur de recherche?
Internet : quelques chiffres
Bien sûr on peut se féliciter de la progression d'Internet au niveau mondial en terme d'accès: 2,2 milliards de personnes sur la planète ont, aujourd'hui, accès à Internet. L'Internet visible annonce plusieurs milliards de pages accessibles sans compter l'Internet "caché" les bases de données, les images, les vidéos, les réseaux sociaux… De ces milliards d'information, seuls 35% sont indexés par les moteurs les plus utilisés: Google en tête avec plus de 50% des requêtes et plus de 2 milliards de requêtes par jour.
Que serait une version pour les "Nuls"*?
*"pour les Nuls" : ayant pour ambition de répondre aux questions des utilisateurs peu expérimentés
Les "Nuls" sont-ils ces 2,2 milliards
d'Internautes? Si non, à quel poucentage d'utilisateurs un moteur de
recherche doit-il s'adresser pour être qualifié de "pour les Nuls"?
Y a-t-il un langage d'interrogation d'Internet qui s'adresse au plus
grand nombre? Quelle est la norme en ce domaine? Entendrait-on par
là une interrogation en "langage naturel" très en vogue
actuellement? Et si oui qu'est-ce que cela signifie?
- "poser des questions avec ses propres mots",
- "offrir la possibilité de ne pas devoir choisir de mots-clés"…?
Dans tous ces cas, la requête doit alors être
analysée par le programme de recherche:
- éliminer les mots jugés "vides" (quels sont-ils? sont-ils vraiment
vides de sens? leur élimination n'apportera-t-elle pas de
confusion?),
- chercher des relations entre les mots de la requête ET, OU?…
avant d'être adressée à la base de données en tant que requête
booléenne construite.
Oui c'est bien prendre l'utilisateur pour un "Nul"
que de lui laisser penser qu'il s'adresse à une base de données en
langage naturel, mais en fait, transformer sa demande en une requête
construite, composée de mots-clés et d'opérateurs. Avec tous les
risques de mauvaises compréhensions de la question initiale, donc de
bruit dans le résultat de la requête. L'utilisateur ne voit
évidemment pas la requête réelle posée au moteur de recherche
puisqu'il est "Nul", jugé incapable de comprendre une telle requête!
Finalement ce type de recherche est une évolution réductrice de la
recherche sur texte libre (full-text search) qui permettait de
chercher une chaîne exacte de caractères.
Est-ce vraiment aider l'utilisateur? Un peu comme ce moteur de recherche, le plus répandu qui transforme d'autorité la requête en remplaçant des mots par des mots-clés fréquents (ou sponsorisés!), ou en pensant que vous êtes incapables de taper correctement les mots de votre requête. Bien sûr, là, peu de tromperie, on peut juger de l'interprétation de la question par la fonction "suggest" dont l'algorithme est bien entendu secret défense (basé plus sur la popularité - réelle ou payante - d'un mot).
Bien sûr nous l'utilisons tous fréquemment et il faut reconnaître que pour une première approche d'un sujet de recherche dans des milliards d'information, cela permet rapidement de trouver "quelque chose" sur le sujet. Sachant qu'il faut se méfier de la fausse popularité, que le résultat ne peut jamais être exhaustif, que la base de départ est inconnue, que les choix philologiques liés à une langue ne sont pas explicités…
Tous les types de données dans Internet supposent-ils un seul et même type de moteur de recherche?
Mais n'y a-t-il aucune base de données, aucun
utilisateur, aucune requête qui mérite mieux qu'une recherche
aménagée par un algorithme et dont la réponse n'est pas exhaustive
et dépend d'un tas de facteurs inconnus?
Par ailleurs, ne serait-il pas plus utile d'augmenter l'expertise de
l'utilisateur en l'éduquant à formuler des requêtes précises?
Attend-on le même type de précision dans les questions à des dépêches de presse, des pages "perso" (blogs), des descriptions techniques de produits, des sites de commerce, des collections de vidéos, des livres numériques, des corpus cohérents de données…?
Osons espérer que non:
● Qu'il y a encore des utilisateurs expérimentés - ou prêts à le
devenir,
● Qu'il y a des ensembles de données où l'interprétation aveugle et
programmé n'a pas sa place,
● Que certaines questions peuvent exiger des réponses exhaustives
sur des ensembles bien définis.
L'important ne serait-il pas, dans tous les cas,
d'"annoncer la couleur":
● Quelle est l'étendue exacte de la base indexée (aucun moteur
n'indexe la totalité des données disponibles dans Internet)?
● Comment cette base a-t-elle été constituée: par des robots
(reconnaissance optique de caractères), avec relecture ou pas, avec
quelle fiabilité?
● Comment sera traitée la requête (élimination, interprétation,
opérateurs…)
● Les réponses seront-elles précises ou "bruitées"?
● L'utilisateur doit-il être plus ou moins expérimenté?
● Y a-t-il plusieurs niveaux possibles de recherche?
Hélas, ce n'est pas vraiment la tendance observée depuis quinze ou vingt ans. La tendance est de faire croire à l'utilisateur qu'il est intelligent tout en le prenant pour un "Nul" et en remplaçant son manque supposé d'expertise par de la programmation.
Internet laissera-t-il une petite place à de la recherche précise qui demande que l'utilisateur s'investisse dans l'apprentissage de l'utilisation du mode de recherche proposé?
Autant de questions qu'il vaut mieux laisser ouvertes pour nourrir l'espoir d'un sursaut de promotion de l'intelligence vraiment humaine (… et pas artificielle!).
Y. Juste