Descargar os datos do directorio Curlie
Curlie.org é o directorio editado por persoas máis extenso e máis completo da Web. O noso directorio mantido pola comunidade está curado por editores apaixonados e só contén sitios web de alta calidade sen spam.
Cada sitio web está clasificado nunha ou máis categorías, e as categorías en si están organizadas en forma de árbore para cubrir todos os temas que lle importan á humanidade. En consecuencia, Curlie consta da friolera de 2,9 millóns de entradas ben estruturadas!
Podes descargar os datos do directorio Curlie baixo unha licenza de código aberto. Usa os datos, por exemplo, para crear o teu propio directorio web de nicho libre de spam, motor de busca ou experto en intelixencia artificial!
Descargar datos do directorio Curlie
Socios
Para que a descarga do directorio Curlie se poida realizar, asociámonos con Leibniz Supercomputing Centre (LRZ) e OpenWebSearch.eu.
Licenza
A licenza de código aberto e as condicións de atribución para a descarga dos datos do directorio Curlie están detalladas na páxina de licenzas.
Datos na descarga
A descarga contén a xerarquía de categorías, categorías e sitios web. Para os sitios web, hai o URL, o título e a descrición editorial. Para cada categoría, hai o seu título, descrición e lugar na árbore de categorías. 45.000 categorías (cidades, por exemplo) tamén teñen coordenadas xeográficas.
Formato do ficheiro
O arquivo de descarga está comprimido en tar/gzip, usa unha ferramenta como tar ou 7zip para descomprimilo.
O formato do ficheiro (conxunto de caracteres UTF8) son simplemente valores separados por tabulacións (TSV, unha variante de CSV). Para familiarizarte cos datos, podes ver os ficheiros cun editor de texto. Tamén é doado cargalos en columnas do teu programa de follas de cálculo. A correspondencia das entradas do sitio web (ficheiros *-c.tsv) coas categorías (ficheiros *-s.tsv) realízase mediante identificadores.
Obtén máis información sobre o formato do ficheiro no ficheiro Readme incluído na descarga.