[ Foro de Python ]

deberes a cambio pago

06-Apr-2021 16:45
Invitado (usuario___random)
0 Respuestas

Tengo que hacer lo siguiente, alguien me ayuda?:

Esta práctica crearemos un programa que permita analizar y extraer información de una página web, para ello utilizaremos la librería requests para descargar el código fuente de una url.
Ejemplo de como se carga el código fuente en una variable y se imprime por consola:
import requests

url = "https://www.microsiervos.com/"
r = requests.get(url)
page_source = r.text
print(page_source)

Aunque el programa debería diseñarse para funcionar con cualquier url, la página que utilizaremos para las pruebas será “https://www.microsiervos.com/”
Funciones:
extraer_codigo_fuente() -> recibe una url y extrae el código fuente de una url dada.
extraer_links() -> recibe el código fuente y extrae todos los links que contenga (se pueden encontrar porque empiezan por href= ).
extraer_tags() -> recibe una lista de tags html y el código fuente, y retorna una lista donde cada posición es trozo de código que delimitas esos tags.
contar_palabras() -> recibe texto y retorna un diccionario donde la clave es la palabra y el valor las veces que aparece la palabra.
eliminar_palabras() -> recibe un texto y una lista de palabras y retorna el mismo texto pero del que se han eliminado la palabras de la lista.
limpiar_stopwords() -> recibe un texto y retorna el mismo texto de donde se han eliminado las stopwords (ver lista más abajo)
limpiar_signos_punt()-> recibe un texto y retorna el mismo texto in los signos de puntuación.
limpiar_tags() -> recibe una lista de tags html y un texto, y retorna el mismo texto pero de donde se han eliminado las etiquetas seleccionadas:
Ejemplo:
Texto original->
<p>Uno de los servicios que ofrece Rocket Lab es <a href="https://www.microsiervos.com/archivo/espacio/photon-plataforma-satelites-artificiales-rocket-lab.html">la plataforma Photon para satélites artificiales</a>. Básicamente es la tercera etapa del Electrón a la que se le añade lo que la empresa llama «la maleta». En ella van, básicamente, un sistema muy preciso de <strong>control de actitud</strong> para colocar el satélite.p>

Texto límpio->
Uno de los servicios que ofrece Rocket Lab es la plataforma Photon para satélites artificiales. Básicamente es la tercera etapa del Electrón a la que se le añade lo que la empresa llama «la maleta». En ella van, básicamente, un sistema muy preciso de control de actitud para colocar el satélite.

Se pide:
Un programa que muestre las 10 palabras relevantes más repetidas en una url y un listado de los links que contiene, para ello se deberá:
a) Acceder a la url y extraer el código fuente.
b) Extraer del código funente los tags con texto leíble por los usuarios, como son los tags( p, h1, h2, h3, li, etc…).
c) Limpiar el texto extraído para que solo quede el texto leíble y sin stopwords.
d) Contar todas las palabras y mostrar las 10 más repetidas
e) Extraer todos los links del código fuente y mostrarlos por pantalla.
Condiciones:
• Se deben implementar y utilizar para la práctica todas y cada una de las funciones descritas el apartado funciones.
• Se debe utilizar la lista de stopwords que se encuentra en este documento.
• No se pueden utilizar librerías de terceros más allá de la librería requests necesaria para cargar el código fuente.
• Se valorará la eficiencia del código y los comentarios.




(No se puede continuar esta discusión porque tiene más de dos meses de antigüedad. Si tienes dudas parecidas, abre un nuevo hilo.)