Como funciona os mecanismos de busca

Data: 15/01/2010
Categoria: Google
Visualizações: 72
Comentários: Nenhum comentário
VN:F [1.7.8_1020]
Dê a sua nota:
Nota: 9.5/10 (2 Votos)
Como funciona os mecanismos de busca

Na World Wide Web, é que existem centenas de milhões de páginas disponíveis esperando para apresentar informações em uma impressionante variedade de tópicos e categorias.

Pena que na Internet existem centenas de milhões de páginas disponíveis, a maioria delas intitulada de acordo com os caprichos de seus autores, e quase todas elas acomodadas em servidores com nome criptografados.

Quando você precisa saber um assunto particular, como sabe que páginas deve ler? Se você é como a maioria das pessoas, você visita um mecanismo de busca da Internet.Motores de busca

Um motor de busca, motor de pesquisa, máquina de busca, mecanismo de busca ou buscador é um sistema de software projetado para encontrar informações armazenadas em um sistema computacional a partir de palavras-chave indicadas pelo utilizador, reduzindo o tempo necessário para encontrar informações.

  • Eles buscam na Internet, ou selecionam pedaços da Internet, com base em palavras importantes (Palaras Chave).
  • Eles mantêm um índice das palavras que encontram, e onde eles as encontram.
  • Eles permitem que os usuários procurem palavras ou combinações de palavras localizadas nesse índice.

Os primeiros mecanismos de busca mantinham um índice de algumas centenas de milhares de páginas e documentos, e recebiam, talvez, mil ou duas mil pesquisas por dia. Hoje, um mecanismo de busca de ponta indexa centenas de milhões de páginas, e responde a  de milhões de buscas por dia.

Quando a maioria das pessoas fala sobre os mecanismos de busca da Internet, elas, de fato, se referem aos mecanismos de busca da World Wide Web. Antes de a Web se tornar a parte mais visível da Internet, já existiam mecanismos de busca para ajudar as pessoas a encontrar informações na Rede. Programas com nomes como “gopher” e “Archie” mantinham índices de arquivos armazenados em servidores conectados à Internet e reduziam drasticamente a quantidade de tempo requerida para encontrar programas e documentos. No final da década de 1980, extrair o máximo valor da Internet significava saber usar o gopher, Archie, Veronica e outros.

Hoje, a maioria dos usuários da Internet limita suas buscas à Web; assim, limitaremos este artigo aos mecanismos de busca que se concentram no conteúdo das páginas da Web.

O “pequeno” começo

Antes de um mecanismo de busca poder dizer a você onde um arquivo ou documento está, ele deve ser encontrado. Para encontrar informações em centenas de milhões de páginas da Web, um mecanismo de busca empregaiBUSCAS_aranha_na_web robôs de software especiais, chamados aranhas, para construir listas de palavras encontradas nos sites da Web. Quando uma aranha está construindo suas listas, o processo é chamado de rastejamento da Web. (Existem algumas desvantagens em chamar parte da Internet de World Wide Web: um grande conjunto de nomes “aracnídeos” para as ferramentas é uma delas.) Para construir e manter uma lista útil de palavras, as aranhas de um mecanismo de busca precisam olhar várias páginas.

Como qualquer aranha começa suas viagens na Web? Os pontos iniciais usuais são as listas de servidores muito usados e páginas muito procuradas. A aranha começará por um site popular, indexando as palavras em suas páginas e seguindo cada link encontrado dentro do site. Dessa forma, o sistema de aranhas inicia rapidamente a viagem, alastrando-se pelas partes mais amplamente usadas da Web.

O Google começou como um mecanismo de busca acadêmico. No documento que descreve como o sistema foi construído, Sergey Brin e Lawrence Page dão um exemplo do quão rapidamente suas aranhas podem funcionar. Eles construíram seu sistema inicial para usar múltiplas aranhas, geralmente três ao mesmo tempo. Cada aranha poderia manter cerca de 300 conexões com páginas da Web abertas ao mesmo tempo. Em seu desempenho máximo, usando quatro aranhas, o sistemas deles poderia rastejar sobre 100 páginas por segundo, gerando cerca de 600 kilobytes de dados a cada segundo.

Manter tudo executando rapidamente significava construir um sistema para alimentar as informações necessárias para as aranhas. O primeiro sistema do Google tinha um servidor dedicado a fornecer URLs às aranhas. Em vez de depender de um provedor de serviços da internet para um servidor de nome e domínio(DNS) que traduz um nome de servidor em um endereço, o Google tinha seu próprio DNS, para manter os atrasos em patamares mínimos.

Quando a aranha do Google olhou para uma página HTML, ela anotou duas coisas:

  • as palavras dentro da página;
  • onde as palavras foram encontradas.

As palavras que ocorrem no título, subtítulos, meta tags e outras posições de relativa importância foram anotadas para consideração especial durante a busca de usuário subseqüente. A aranha do Google foi criada para indexar toda palavra significante em uma página, desconsiderando os “um”, “uma”, “o” e “a”. Outras aranhas seguem abordagens diferentes.

Essas abordagens diferentes geralmente tentam fazer a aranha operar mais rápido ou permitir aos usuários buscar com mais eficiência, ou ambos. Por exemplo, algumas aranhas controlarão as palavras no título, subtítulos e links, juntamente com as 100 palavras mais freqüentemente usadas na página e cada palavra nas primeiras 20 linhas de texto. Acredita-se que o Lycos (em inglês) use essa abordagem para vasculhar a Web com suas aranhas.

Outros sistemas, como o AltaVista (em inglês), vão em outra direção, indexando cada palavra de uma página, incluindo “um”, “uma”, “o”, “a” e outras palavras “insignificantes”. O avanço em direção à totalidade dessa abordagem é equiparado por outros sistemas na atenção dada à parte não vista da página da Web, as meta tags.

Funcionamento

Um search engine opera na seguinte ordem:

  1. Web crawling (percorrer por links)
  2. Indexação
  3. Busca

Os sistemas de busca trabalham armazenando informações sobre um grande número de páginas, as quais eles obtém da própria WWW. Estas páginas são recuperadas por um Web crawler (também conhecido como spider) — um Web browser automatizado que segue cada link que vê. As exclusões podem ser feitas pelo uso do robots.txt. O conteúdo de cada página então é analisado para determinar como deverá ser indexado (por exemplo, as palavras são extraídas de títulos, cabeçalhos ou campos especiais chamados meta tags). Os dados sobre as páginas são armazenados em um banco de dados indexado para uso nas pesquisas futuras. Alguns sistemas, como o do Google, armazenam todo ou parte da página de origem (referido como um cache) assim como informações sobre as páginas, no qual alguns armazenam cada palavra de cada página encontrada, como o AltaVista. Esta página em cache sempre guarda o próprio texto de busca pois, como ele mesmo foi indexado, pode ser útil quando o conteúdo da página atual foi atualizado e os termos de pesquisa não mais estão contidos nela. Este problema pode ser considerado uma forma moderada de linkrot (perda de links em documentos da Internet, ou seja, quando os sites deixaram de existir ou mudaram de endereço), e a maneira como o Google lida com isso aumenta a usabilidade ao satisfazer as expectativas dos usuários pelo fato de o termo de busca estarão na página retornada. Isto satisfaz o princípio de “menos surpresa”, pois o usuário normalmente espera que os termos de pesquisa estejam nas páginas retornadas. A relevância crescente das buscas torna muito útil estas páginas em cache, mesmo com o fato de que podem manter dados que não mais estão disponíveis em outro lugar.

Quando um usuário faz uma busca, tipicamente digitando palavras-chave, o sistema procura o índice e fornece uma lista das páginas que melhor combinam ao critério, normalmente com um breve resumo contendo o título do documento e, às vezes, partes do seu texto. A maior parte dos sistemas suportam o uso de termos booleanos AND, OR e NOT para melhor especificar a busca. E uma funcionalidade avançada é a busca aproximada, que permite definir a distância entre as palavras-chave.

A utilidade de um sistema de busca depende da relevância do resultado que retorna. Enquanto pode haver milhões de páginas que incluam uma palavra ou frase em particular, alguns sites podem ser mais relevantes ou populares do que outros. A maioria dos sistemas de busca usam métodos para criar um ranking dos resultados para prover o “melhor” resultado primeiro. Como um sistema decide quais páginas são melhores combinações, e qual ordem os resultados aparecerão, varia muito de um sistema para outro. Os métodos também modificam-se ao longo do tempo, enquanto o uso da Internet muda e novas técnicas evoluem. A maior parte dos sistemas de busca são iniciativas comerciais suportadas por rendimentos de propaganda e, como resultado, alguns usam a prática controversa de permitir aos anunciantes pagar para ter sua listagem mais alta no ranking nos resultados da busca.

A vasta maioria dos serviços de pesquisa são rodados por empresas privadas usando algoritmos proprietários e bancos de dados fechados, sendo os mais populares o Google, Bing e Yahoo! Search. De qualquer forma, a tecnologia de código-aberto para sistemas de busca existe, tal como ht://Dig, Nutch, Senas, Egothor, OpenFTS, DataparkSearch e muitos outros.

Custos de armazenamento e tempo de crawling

Os custos de armazenamento não são o recurso limitador na implementação de um sistema de busca. Armazenar simplesmente 10 bilhões de páginas de 10 kbytes cada (comprimidas) requer 100TB e outros aproximados 100TB para índices, dando um custo de hardware total em menos de $200k: 400 drives de disco de 500GB em 100 PCs baratos.

De qualquer forma, um sistema público de busca consideravelmente requer mais recursos para calcular os resultados e prover alta disponibilidade. E os custos de operar uma grande server farm não são triviais.

Passar por 10B páginas com 100 máquinas percorrendo links a 100 páginas/segundo levaria 1M segundos, ou 11.6 dias em uma conexão de Internet de alta capacidade. A maior parte dos sistemas percorre uma pequena fatia da Web (10-20% das páginas) perto desta freqüência ou melhor, mas também percorre sites dinâmicos (por exemplo, sites de notícias e blogs) em uma freqüência muito mais alta.

Motores de busca geoespaciais

Uma recente melhoria na tecnologia de busca é a adição de geocodificação e geoparsing para o processamento dos documentos ingeridos. O geoparsing tenta combinar qualquer referência encontrada a lugares para um quadro geoespacial de referência, como um endereço de rua, localizações de dicionário de termos geográficos, ou a uma área (como um limite poligonal para uma municipalidade). Através deste processo de geoparsing, as latitudes e longitudes são atribuídas aos lugares encontrados e são indexadas para uma busca espacial posterior. Isto pode melhorar muito o processo de busca pois permite ao usuário procurar documentos para uma dada extensão do mapa, ou ao contrário, indicar a localização de documentos combinando com uma dada palavra-chave para analisar incidência e agrupamento, ou qualquer combinação dos dois. Uma empresa que desenvolvou este tipo de tecnologia é a MetaCarta, que disponibiliza seu produto como um XML Web Service para permitir maior integração às aplicações existentes.

A MetaCarta também provê uma extensão para o programa GIS como a ArcGIS (ESRI) para permitir aos analistas fazerem buscas interativamente e obter documentos em um contexto avançado geoespacial e analítico.

Meta tags

As meta tags permitem aos proprietários de uma página especificar palavras-chave e determinar sob quais delas a página será indexada. Isso pode ser útil, especialmente nos casos em que as palavras na página podem ter significados duplos ou triplos: as meta tags podem guiar o mecanismo de busca para escolher qual desses vários possíveis significados para essas palavras é o correto. Existe, porém, um perigo em se confiar em excesso nas meta tags, porque um dono de página inescrupuloso ou descuidado pode acrescentar meta tags que se encaixem em tópicos muitos populares, mas que não tenham nada a ver com o real conteúdo da página. Para se proteger contra isso, as aranhas correlacionam as meta tags com o conteúdo da página, rejeitando aquelas que não coincidam com as palavras na página.

Tudo isso presume que o proprietário de uma página, de fato, deseja que essas palavras sejam incluídas nos resultados das atividades de um mecanismo de busca. Muitas vezes, o proprietário da página não deseja que ela seja mostrada em um mecanismo de busca grande, ou não deseja a atividade de uma aranha acessando a página. Considere, por exemplo, um jogo que cria páginas ativas novas sempre que as seções da página são exibidas ou novos links são seguidos. Se uma aranha da Web acessar uma dessas páginas e começar a seguir todos os links para novas páginas, o jogo poderia confundir a atividade para um jogador humano muito veloz e sair de controle. Para evitar situações como essas, o protocolo de exclusão de robô foi desenvolvido. Esse protocolo, implementado na seção de meta tag no início de uma página da Web, diz a uma aranha para deixar a página: não indexar as palavras na página nem tentar seguir seus links.

Tipos de buscadores

Existem variados tipos de buscadores:

  • Buscadores globais são buscadores que pesquisam todos os documentos na rede, e a apresentação do resultado é aleatória, dependendo do ranking de acessos aos sites. As informações podem referir-se a qualquer tema. Google, Yahoo, MSN são os buscadores globais mais acessados.
  • Buscadores verticais são buscadores que realizam pesquisas “especializadas” em bases de dados próprias de acordo com suas propensões. Geralmente, a inclusão em um buscador vertical está relacionada ao pagamento de uma mensalidade ou de um valor por clique. BizRate, AchaNoticias, Oodle, Catho, SAPO, BuscaPé e Become.com são alguns exemplos de buscadores verticais.
  • Guias locais são buscadores exclusivamente locais ou regionais. As informações se referem a endereços de empresas ou prestadores de serviços. O resultado é priorizados pelo destaque de quem contrata o serviço. Listão, GuiaMais, AcheCerto, EuAcheiFácil entre outras. Geralmente são cadastros e publicações pagas. É indicado para profissionais e empresas que desejam oferecer seus produtos ou serviços em uma região, Estado ou Cidade.
  • Guias de busca local ou buscador local são buscadores de abrangência nacional que lista as empresas e prestadores de serviços próximas ao endereço do internauta a partir de um texto digitado. A proximidade é avaliada normalmente pelo cep, Donavera.com, ou por coordenadas de GPs. Os cadastros Básicos são gratuitos para que as micros empresas ou profissionais liberais possam estar presente na WEB sem que invistam em um sites próprio. É indicado para profissionais e empresas que desejam oferecer seus produtos ou serviços em uma Localidade, rua, bairro, cidade ou Estado e possibilitando ainda a forma mais rápida de atualização dos registros de contatos por seus clientes ou fornecedores.
  • Diretórios de websites são índices de sites, usualmente organizados por categorias e sub-categorias. Tem como finalidade principal permitir ao usuário encontrar rápidamente sites que desejar, buscando por categorias, e não por palavras-chave. Os diretórios de sites geralmente possuem uma busca interna, para que usuários possam encontrar sites dentro de seu próprio índice. Diretórios podem ser a nivel regional, nacional ou global, e até mesmo especializados em determinado assunto. Open Directory Project é exemplo de diretórios de sites.

A divulgação de sites de empresas com negócios regionais são acessados em sua grande maioria quando os profissionais da WEB cadastram seus sites nos Buscadores Locais para aumentarem as visitas de internautas, pois não há um sistema de atualização automática dos dados que abranja todos os tipos de categorias e em rapidez necessária. Por esta razão, somente cerca de 20% a 25% de tudo que existe na WEB é publicada nos buscadores.

A novidade agora são os ontobuscadores, isto é, buscadores baseados em Ontologias, como o Ontoweb

Abaixo uma lista dos maiores e mais antigos buscadores até 2009:

Ano Engine Evento
1993 Wandex Lançamento
1993 Aliweb Lançamento
1994 WebCrawler Lançamento
Infoseek Lançamento
Lycos Lançamento
1995 AltaVista Lançamento (parte do DEC)
1995 Sapo.pt Lançamento
Excite Lançamento
1996 Dogpile Lançamento
Inktomi Fundado
Ask Jeeves Fundado
1997 Northern Light Lançamento
1997 Sapo.pt Fundado
1998 Google Lançamento
1999 AlltheWeb Lançamento
1999 Baidu Fundado
2000 Singingfish Lançamento
2000 Teoma Fundado
2000 Vivisimo Fundado
2003 Objects Search Lançamento
2004 Yahoo! Search Lançamento final (primeiros resultados originais)
MSN Search Lançamento beta
2005 MSN Search Lançamento final
2005 Bupor Lançamento
2006 Quaero Fundado
2007 Ask.com Fundado
2007 AMGEM Force (16 languages) Fundado
2008 Cuil Fundado
2009 Buscador.com.br Fundado
2009 Bing Fundado
2009 YouNinja.net Fundado
2009 CooBi.netne.netSearch Naftalina Tech! Lançado

Fonte:  Wikipédia, HowStuffWorks

Como funciona os mecanismos de busca9.5102
Compartilhe:
  • Print
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Blogplay
  • blogmarks
  • Diigo
  • DZone
  • Gwar
  • LinkArena
  • LinkedIn
  • Linkter
  • MSN Reporter
  • Netvouz
  • PDF
  • RSS
  • Socialogs
  • Technorati
  • Twitter
  • Webnews.de
  • Yahoo! Bookmarks
  • Yahoo! Buzz
  • Yigg

Deixe um comentário

Top Acessos
Nero 9 9.4.26.0
15.462 Visualizações
Atualizar servidores Emule
8.793 Visualizações
Avast! Home Edition 4.8.1368
7.511 Visualizações
Guitar Rage 2.4.3
5.484 Visualizações
Broken Aero Vista Black
5.237 Visualizações
Cartão de visitas (CorelDraw)
4.756 Visualizações
NOD32 4.0.474
4.382 Visualizações
Cross Fire 1041
4.066 Visualizações
Ofertas imbatíveis!

© 2008 - 2010 Pontuaki - Downloads | Todos os direitos reservados | Política de privacidade

Proibida a reprodução total ou parcial sem prévia autorização.