>> Électroniques Technologie >  >> Maison intelligente >> Vie intelligente

Comment créer un bot Web

Les moteurs de recherche, comme Google ou Yahoo!, tirent des pages Web dans leurs résultats de recherche en utilisant des robots Web (aussi parfois appelés araignées ou robots), qui sont des programmes qui analysent Internet et indexent les sites Web dans une base de données. Les robots Web peuvent être créés à l'aide de la plupart des langages de programmation, y compris C, Perl, Python et PHP, qui permettent tous aux ingénieurs logiciels d'écrire des scripts qui exécutent des tâches procédurales, telles que la numérisation et l'indexation Web.

Étape 1

Ouvrez une application d'édition de texte brut, telle que le Bloc-notes, qui est inclus avec Microsoft Windows, ou TextEdit de Mac OS X, où vous créerez une application Python Web bot.

Étape 2

Lancez le script Python en incluant les lignes de code suivantes et en remplaçant l'exemple d'URL par l'URL du site Web que vous souhaitez analyser et le nom de l'exemple de base de données par la base de données qui stockera les résultats :

import urllib2, re, string enter_point ='http://www.exampleurl.com' db_name ='example.sql'

Étape 3

Incluez les lignes de code suivantes pour définir la séquence d'opérations que le bot Web suivra :

def uniq(seq):set ={} map(set.setitem , seq, []) renvoie set.keys()

Étape 4

Obtenez les URL dans la structure du site Web en utilisant les lignes de code suivantes :

def geturls(url):items =[] request =urllib2.Request(url) request.add.header('User', 'Bot_name;)') content =urllib2.urlopen(request).read() items =re. findall('href="http://.?"', content) urls =[] urls de retour

Étape 5

Définissez la base de données que le bot Web utilisera et spécifiez les informations qu'il doit stocker pour terminer la création du bot Web :

db =open(db_name, 'a') allurls =uniq(geturls(enter_point))

Étape 6

Enregistrez le document texte et téléchargez-le sur un serveur ou un ordinateur avec une connexion Internet où vous pouvez exécuter le script et commencer à numériser des pages Web.


Vie intelligente