Informatique & Bible ● Interface

Accueil ● Interface ● Interface n° 127 Juin 2012

Interface n° 127 Juin 2012

Une Concordance pour les Nuls?

Au moment où nous annoncions la mise à disposition de la Concordance analytique de la Bible TOB (1993) avec références aux mots hébreux, araméens ou grecs dans Internet, associée au moteur de recherche knowhowsphere, une des premières réactions a été:
"À quand une version pour les Nuls?".

La question mérite réflexion de plusieurs points de vue:
● Internet : quelques chiffres
● Que serait une version pour les "Nuls"?
● Tous les types de données dans Internet supposent-ils un seul et même type de moteur de recherche?

Internet : quelques chiffres

Bien sûr on peut se féliciter de la progression d'Internet au niveau mondial en terme d'accès: 2,2 milliards de personnes sur la planète ont, aujourd'hui, accès à Internet. L'Internet visible annonce plusieurs milliards de pages accessibles sans compter l'Internet "caché" les bases de données, les images, les vidéos, les réseaux sociaux… De ces milliards d'information, seuls 35% sont indexés par les moteurs les plus utilisés: Google en tête avec plus de 50% des requêtes et plus de 2 milliards de requêtes par jour.

Que serait une version pour les "Nuls"*?

*"pour les Nuls" : ayant pour ambition de répondre aux questions des utilisateurs peu expérimentés

Les "Nuls" sont-ils ces 2,2 milliards d'Internautes? Si non, à quel poucentage d'utilisateurs un moteur de recherche doit-il s'adresser pour être qualifié de "pour les Nuls"? Y a-t-il un langage d'interrogation d'Internet qui s'adresse au plus grand nombre? Quelle est la norme en ce domaine? Entendrait-on par là une interrogation en "langage naturel" très en vogue actuellement? Et si oui qu'est-ce que cela signifie?

- "poser des questions avec ses propres mots",
- "offrir la possibilité de ne pas devoir choisir de mots-clés"…?

Dans tous ces cas, la requête doit alors être analysée par le programme de recherche:

- éliminer les mots jugés "vides" (quels sont-ils? sont-ils vraiment vides de sens? leur élimination n'apportera-t-elle pas de confusion?),
- chercher des relations entre les mots de la requête ET, OU?…

avant d'être adressée à la base de données en tant que requête booléenne construite.

Oui c'est bien prendre l'utilisateur pour un "Nul" que de lui laisser penser qu'il s'adresse à une base de données en langage naturel, mais en fait, transformer sa demande en une requête construite, composée de mots-clés et d'opérateurs. Avec tous les risques de mauvaises compréhensions de la question initiale, donc de bruit dans le résultat de la requête. L'utilisateur ne voit évidemment pas la requête réelle posée au moteur de recherche puisqu'il est "Nul", jugé incapable de comprendre une telle requête!
Finalement ce type de recherche est une évolution réductrice de la recherche sur texte libre (full-text search) qui permettait de chercher une chaîne exacte de caractères.

Est-ce vraiment aider l'utilisateur? Un peu comme ce moteur de recherche, le plus répandu qui transforme d'autorité la requête en remplaçant des mots par des mots-clés fréquents (ou sponsorisés!), ou en pensant que vous êtes incapables de taper correctement les mots de votre requête. Bien sûr, là, peu de tromperie, on peut juger de l'interprétation de la question par la fonction "suggest" dont l'algorithme est bien entendu secret défense (basé plus sur la popularité - réelle ou payante - d'un mot).

Bien sûr nous l'utilisons tous fréquemment et il faut reconnaître que pour une première approche d'un sujet de recherche dans des milliards d'information, cela permet rapidement de trouver "quelque chose" sur le sujet. Sachant qu'il faut se méfier de la fausse popularité, que le résultat ne peut jamais être exhaustif, que la base de départ est inconnue, que les choix philologiques liés à une langue ne sont pas explicités…

Tous les types de données dans Internet supposent-ils un seul et même type de moteur de recherche?

Mais n'y a-t-il aucune base de données, aucun utilisateur, aucune requête qui mérite mieux qu'une recherche aménagée par un algorithme et dont la réponse n'est pas exhaustive et dépend d'un tas de facteurs inconnus?
Par ailleurs, ne serait-il pas plus utile d'augmenter l'expertise de l'utilisateur en l'éduquant à formuler des requêtes précises?

Attend-on le même type de précision dans les questions à des dépêches de presse, des pages "perso" (blogs), des descriptions techniques de produits, des sites de commerce, des collections de vidéos, des livres numériques, des corpus cohérents de données…?

Osons espérer que non:
● Qu'il y a encore des utilisateurs expérimentés - ou prêts à le devenir,
● Qu'il y a des ensembles de données où l'interprétation aveugle et programmé n'a pas sa place,
● Que certaines questions peuvent exiger des réponses exhaustives sur des ensembles bien définis.

L'important ne serait-il pas, dans tous les cas, d'"annoncer la couleur":
● Quelle est l'étendue exacte de la base indexée (aucun moteur n'indexe la totalité des données disponibles dans Internet)?
● Comment cette base a-t-elle été constituée: par des robots (reconnaissance optique de caractères), avec relecture ou pas, avec quelle fiabilité?
● Comment sera traitée la requête (élimination, interprétation, opérateurs…)
● Les réponses seront-elles précises ou "bruitées"?
● L'utilisateur doit-il être plus ou moins expérimenté?
● Y a-t-il plusieurs niveaux possibles de recherche?

Hélas, ce n'est pas vraiment la tendance observée depuis quinze ou vingt ans. La tendance est de faire croire à l'utilisateur qu'il est intelligent tout en le prenant pour un "Nul" et en remplaçant son manque supposé d'expertise par de la programmation.

Internet laissera-t-il une petite place à de la recherche précise qui demande que l'utilisateur s'investisse dans l'apprentissage de l'utilisation du mode de recherche proposé?

Autant de questions qu'il vaut mieux laisser ouvertes pour nourrir l'espoir d'un sursaut de promotion de l'intelligence vraiment humaine (… et pas artificielle!).

Y. Juste

Accueil ● Interface ● Interface n° 127 Juin 2012