JDNet Développeurs - Cas pratique : un moteur de recherche en Php.

Développeur

BOURSE

RUBRIQUES

Services

Benchmark Group

L'internaute Magazine

TUTORIELS

Cas pratique : un moteur de recherche en Php.
Première partie: Exemple d'indexation de contenu (1/4)

Dans cette nouvelle série de tutoriels nous nous proposons d'explorer les principes de bases d'un "moteur de recherche". Notre méthode sera basique mais nous l'espérons pédagogique. Ce sera également l'occasion d'apprendre ou de réviser bon nombre de fonctions Php. (19 janvier 2002)

Pages 1 | 2 | 3 | 4

Autant le dire tout de suite, le but de cette série n'a pas la prétention de faire de l'ombre à Google... Loin s'en faut.

Le but ici est de se construire un petit moteur de recherche basique, capable de faire remonter les pages de notre site correspondant au(x) critère(s) de recherche (seul le singulier s'appliquera dans un premier temps).
Il nous faut pour cela adopter une politique d'indexation du contenu de nos pages, c'est l'objet du présent tutoriel.

Le poids des mots...

Nous effectuerons nos tests sur cinq tutoriels issus du site JDN Développeurs, certains se trouveront à la racine de notre site de test, tandis que d'autres seront placés dans des sous-répertoires.

Il sera souhaitable, dans le futur, de se construire une interface permettant d'automatiser l'indexation pour un site ou un répertoire donnés, capable de gérer également les sous-répertoires.

Pour ce premier tutoriel de la série, cette interface n'est pas disponible, aussi c'est "en dur" que sera inscrit le nom du fichier HTML à indexer.

De nombreux traitements sont à effectuer sur ce fichier HTML. Le but est en effet d'obtenir à la fin de ce tutoriel une liste de mots issus de ce fichier, d'au moins trois lettres, avec leur fréquence d'apparition, le tout dans une base de données.

Celle-ci comportera (sous réserve de modification ultérieure) 5 champs :
(table "moteur")
- "id", la clef primaire...
- "mot"
- "occurence", stocke le nombre d'apparition du mot dans le fichier concerné
- "origine" emplacement du fichier concerné
- "titre_page"

Revenons sur les deux derniers champs : "origine" et "titre_page". Le premier permet d'identifier de manière unique le fichier auquel se rapporte un mot et son nombre d'occurences, le second stocke le titre de la page.

De plus, nous accordons l'équivalent de 10 occurences pour un mot qui apparaît dans le champ "title" du fichier HTML, c'est un choix arbitraire mais paramétrable. Nous estimons en effet qu'un mot apparaissant entre les tags <TITLE></TITLE> possède une connotation particulière qu'il convient de prendre en compte.

Pages 1 | 2 | 3 | 4


[ Arnaud Gadal, JDNet





Accueil \| Haut de page