Como funciona os motores de busca na web
Por: craandrade • 18/3/2016 • Projeto de pesquisa • 2.140 Palavras (9 Páginas) • 367 Visualizações
[pic 1]
Como funciona um motor de busca ?
Junho 2014
Os motores de busca são indispensáveis na internet.
O site mais conhecido da internet é, provavelmente, um motor de busca: o Google. Mas como é que funciona? Existem (geralmente) várias etapas:[pic 2]
a coleta[pic 3]
o armazenamento a extração[pic 4][pic 5]
a indexação[pic 6]
a classificação[pic 7]
a pesquisa em si[pic 8]
(Note que alguns motores de busca podem ter etapas específicas a mais ou a menos. Aqui, só apresento o caso geral).
A coleta
Todos os motores de busca teem softwares que percorrem, de forma contínua, todos os sites do planeta. Estes softwares se comportam como um simples usuário: eles baixam páginas HTML e seguem os links de hipertextos que elas conteem (como quando você clica em um link em uma página). A única diferença em relação a você é:
Eles não carregam imagens ou vídeos que estão presentes nas páginas (os robôs só se interessam pelas páginas HTML)[pic 9]
Eles percorrem todos os links que encontram em um site.[pic 10]
Chamamos esses softwares de "robôs". O Google, o MSN e outros motores de busca teem, cada um, os seus robôs. (Na prática, eles são simples computadores conectados à Internet e equipados com um software especial). Como esses robôs são muito rápidos, pode acontecer
que eles "desmoronem" um site, fazendo muitas solicitações ou procurando páginas que não são relevantes. Existe uma maneira de regulá-los, colocando um arquivo especial (robot-rules) em cada site. O arquivo robots.txt (colocado na raiz do site) contém regras que indicam aos robôs o que eles podem, ou não, recuperar. A maioria dos robôs (Google, Yahoo, MSN, etc)
respeita estas regras. Isso permite que você, por exemplo, proiba o Google de indexar uma parte do seu site.
O armazenamento
Os robôs recuperam páginas e as armazenam no disco. Em centenas de discos rígidos. Em
geral, eles também armazenam a data da última visita do site, para visitar a página de novo, após algum tempo. (Alguns robôs visitam sites com mais frequência do que outros).
A extração
Uma vez que a página html foi recuperada, um programa extrai todo o seu conteúdo. O que interessa os robôs é:
todo o texto da página.[pic 11]
as meta-informações (autor da página, palavras-chave, URL da página...)[pic 12]
os links para outras páginas (links de hipertexto)[pic 13]
E os robôs ignoram o resto:
o layout gráfico (cores, fontes de caracteres, tamanho, localização...) é ignorado. geralmente, as imagens, vídeos, sons e música são ignorados.[pic 14][pic 15]
Portanto, há uma grande diferença entre o que você vê em uma página, e o que os robôs veem. Por exemplo, os robôs não poderão ler isto:[pic 16]
Porque para eles isto é uma imagem. Assim sendo, eles serão incapazes de ler o conteúdo e indexá-lo. Consequência: Esta imagem será totalmente ignorada pelos robôs.
A indexação
Agora que recuperamos o texto de todas essas páginas, vamos criar meios eficazs para pesquisar. Vamos executar a indexação das páginas. Existem diferentes métodos de indexação. Veja um bem simples: Consideremos o seguinte texto: 1. Madame sonha com atomizadores 2. E os cilindros são tão longos 3. Eles são os únicos 4. Que a enchem de felicidade 5. Madame sonha com artifícios 6. E formas oblongas 7. E totems que a punem (Eu numerei as linhas de propósito). Para cada palavra encontrada, vamos anotar a que linha ela pertence.
Palavra | Aparece nas linhas |
Madame | 1 e 5 |
sonha | 1 e 5 |
atomizadores | 1 |
felicidade | 4 |
... | ... |
Assim, se eu tiver que encontrar a palavra "sonha", eu sei imediatamente que ela se encontra nas linhas 1 e 5. Da mesma forma, para cada palavra encontrada, os motores de busca vão ver em que páginas (que URLs), estas palavras aparecem. Com iso, eles poderão te dar, imediatamente, a lista das páginas com determinada palavra.[pic 17]
Palavra URL onde essa palavra aparece
comprendre | www.comprendrelabourse.com, www.comprendre.org, www.lirepourcomprendre.org, sebsauvage.net/comprendre/... |
ordinateur | www.01net.com, www.dicofr.com/cgi-bin/n.pl/ dicofr/definition/20010101003926, fr.wikipedia.org/wiki/Ordinateur, www.commentcamarche.net/pc/pc.php3... |
No entanto, em muitos idiomas certas palavras são muito comuns (o, a, os, as, de, etc). Por
exemplo, procurar o "o" em uma página seria irrelevante. Isso se chama "stop-words". Esses "stop-words" são automaticamente eliminados e, consequentemente, não são indexados. Note- se que existem muitos outros métodos de indexação.
A classificação
Bom, nós indexamos as páginas. Agora temos um pequeno problema: tem muita página! Por exemplo, a palavra "computador" retorna mais de 5 milhões de páginas para o Google. Tal motor de busca seria perfeitamente inútil: O infeliz do usuário ainda teria que percorrer esses 5 milhões de páginas para encontrar o mais relevante. Portanto, é indispensvel classificar essas páginas por relevância, ou seja, colocar em primeiro lugar as páginas com mais probabilidade de dar a resposta correta para a palavra solicitada. Isso não é tarefa fácil! Existem vários métodos diferentes. Veja dois:
...