Deep Web
Trabalho Escolar: Deep Web. Pesquise 862.000+ trabalhos acadêmicosPor: maranoack • 31/3/2013 • 1.703 Palavras (7 Páginas) • 2.614 Visualizações
Deep Web
Aluno: Rafael de Castro Gomes Pereira
Matéria: Tecnologia de Redes
Professor: Luiz H. Elizeu
Deep Web
A Deep Web (também chamado de Deepnet , a Web Invisível , a Undernet ou o Web escondido ) é World Wide Web conteúdo que não faz parte da Web de superfície , que é indexado por padrão motores de busca .
Não deve ser confundida com a Internet escuro , os computadores que já não pode ser alcançado através de Internet ou com o compartilhamento de arquivos de rede distribuída Darknet , o que poderia ser classificada como uma parte menor do Deep Web.
Mike Bergman , fundador da BrightPlanet, creditado com cunhar a frase, [ 1 ] disse que a procura na internet hoje pode ser comparada a uma rede de arrastar ao longo da superfície do oceano: um grande negócio pode ser apanhada na rede, mas é uma riqueza de informações que é profunda e, portanto, não atendidas. [ 2 ] A maioria das informações na Web é enterrado longe para baixo em sites gerados dinamicamente, e motores de busca padrão não encontrá-lo. Motores de busca tradicionais não podem "ver" ou recuperar o conteúdo no fundo Web essas páginas não existem até que sejam criados dinamicamente como o resultado de uma pesquisa específica. A Web profunda é várias ordens de grandeza maior do que a Web superfície.
Tamanho
Estimativas baseadas em extrapolações a partir de um estudo feito na Universidade da Califórnia, Berkeley no ano de 2001, [ 3 ] especular que a Web profunda consiste de cerca de 7.500 terabytes . Estimativas mais precisas estão disponíveis para o número de recursos na Web profunda: Ele detectou cerca de 300.000 sites profundas em toda a Web em 2004, [ 4 ] e, de acordo com a Shestakov, cerca de 14.000 sites profundas existia na parte russa do Web em 2006
Bergman, em um artigo seminal sobre a Web profunda publicado no Journal of Electronic Publishing, mencionou que Jill Ellsworth usou o termo Web invisível em 1994 para se referir a sites que não foram registrados com qualquer motor de busca. [ 3 ] Bergman citou um jan 1996 artigo de Frank Garcia [ desambiguação necessária ] : [ 6 ]
"Seria um site que é possivelmente projetada razoavelmente, mas eles não se preocuparam em registrá-lo com qualquer um dos motores de busca. Então, ninguém pode encontrá-los! Você está escondido. Que eu chamo de Web do invisível".
Outro uso precoce do termo Web Invisível foi por Bruce Monte e Mateus B. Koll de Software Biblioteca Pessoal, em uma descrição da ferramenta Web @ uma profunda encontrada em um comunicado de imprensa dezembro de 1996. [ 7 ]
O primeiro uso do termo específico Web profunda , agora geralmente aceite, ocorreu no referido estudo Bergman de 2001
Recursos Profundos
Recursos da Web profunda podem ser classificadas em uma ou mais das seguintes categorias:
O conteúdo dinâmico: páginas dinâmicas que são devolvidos em resposta a uma consulta apresentada ou acessadas somente por meio de um formulário, especialmente se elementos aberto domínio de entrada (como campos de texto) são usados; esses campos são difíceis de navegar sem o conhecimento de domínio.
Desvinculada conteúdo: páginas que não estão ligados a por outras páginas, que podem impedir Web rastejando programas de acessar o conteúdo. Este conteúdo é referido como páginas sem backlinks (ou inlinks).
Web Privada: sites que exigem registro e login (protegidas por senha recursos).
Web contextual: páginas com conteúdo variável para contextos de acesso diferentes (por exemplo, intervalos de endereços IP de clientes ou seqüência de navegação anterior).
Conteúdo de acesso limitado: sites que limitam o acesso às suas páginas de forma técnica (por exemplo, usando o padrão de exclusão de robôs , CAPTCHAs , ou não-cache Pragma cabeçalhos HTTP que proíbem os motores de busca de navegar e criando em cache cópias [ 8 ] ).
Conteúdo script: páginas que só são acessíveis através de links produzidos por JavaScript , bem como conteúdo dinamicamente baixado dos servidores da Web através do Flash ou Ajax soluções.
Non-HTML/text conteúdo: conteúdo textual codificado em multimídia (imagem ou vídeo) arquivos ou específicas formatos de arquivo não tratadas pelos motores de busca.
Conteúdo de texto utilizando o protocolo Gopher e arquivos hospedados em FTP que não são indexados pela maioria dos motores de busca. Motores como o Google fazer páginas não índice fora de HTTP ou HTTPS . [ 9 ]
[ editar ] Acessando
Para descobrir o conteúdo na Web, motores de busca usam crawlers que seguem hiperlinks através de conhecidos virtuais de protocolo números de porta . Esta técnica é ideal para descobrir recursos na Web de superfície , mas é muitas vezes ineficaz em encontrar recursos da Web profundas. Por exemplo, esses rastreadores não tente encontrar páginas dinâmicas que são o resultado de consultas do banco de dados devido ao número infinito de consultas que são possíveis. [ 1 ] Tem-se observado que esta pode ser (parcialmente) superados, fornecendo links para consultar resultados, mas isso poderia involuntariamente inflar a popularidade de um membro da Web profunda.
Em 2005, o Yahoo! fez uma pequena parte do pesquisável Web profunda, liberando Assinaturas Yahoo!. Este motor de pesquisas através de alguns sites de assinatura apenas da Web. Alguns sites de subscrição exibir seu conteúdo completo para robôs do Search Engine assim que vai aparecer nas buscas do usuário, mas, em seguida, mostrar aos usuários uma página de login ou subscrição quando clicar em um link a partir da página de resultados do motor.
DeepPeep , Intute , Tecnologias Web profunda , e Scirus são alguns motores de busca que acessaram a web profunda. Intute ficou sem financiamento e agora é um arquivo temporário estática a partir de julho de 2011. [ 10 ]
[ editar ] indexação da web profunda
Pesquisadores têm vindo a explorar a forma como a Web profunda pode ser rastreado de forma automática. Em 2001, Sriram Raghavan e Hector Garcia-Molina [ 11 ] [ 12 ] apresentaram um modelo de arquitetura para um rastreador escondido-Web que usou termos-chave fornecidos por usuários ou recolhidos a partir das interfaces de consulta para consultar um formulário Web e rastrear os profundos recursos da Web . Alexandros Ntoulas,
...