Herramientas de usuario

Herramientas del sitio


ia:desinformadores

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
ia:desinformadores [2025/01/31 20:55]
anonimo
ia:desinformadores [2025/02/01 03:57] (actual)
anonimo
Línea 1: Línea 1:
 +1º Tomar como base los principales desinformadores de España, que son los que proporcionan una información más heterogenea en datos\\ ​
 +2º Extraer los títulos de los vídeos,​shorts y directos de youtube mediante web scrapping\\ ​
 +3º Limpiarlos de caracteres extraños, tildes, artículos y preposiciones que no sirven para el propósito mediante el editor de textos sed\\ 
 +4º Hacer pruebas midiendo el grado de similitud ideológica de diferentes usuarios/​seguidores respecto a dichos desinformadores\\ ​
 +
 +
 **Extraemos los títulos de los vídeos, shorts y directos mediante web scrapping** **Extraemos los títulos de los vídeos, shorts y directos mediante web scrapping**
 <code python> <code python>
Línea 174: Línea 180:
 python3 raspado.py > geoestratego.txt python3 raspado.py > geoestratego.txt
 </​code>​ </​code>​
 +El resultado está en éste archivo {{ :​ia:​desinformadores.gz |}}\\ 
 +
 **El .txt hay que prepararlo y no lo está, ésto contienen las 4 primeras líneas** **El .txt hay que prepararlo y no lo está, ésto contienen las 4 primeras líneas**
 <code bash> <code bash>
Línea 185: Línea 193:
 <code bash> <code bash>
 cat geoestratego.txt | grep Título | sed '/​^Título:​ ,/​d;​s/​^Título:​ //g;s/, Enlace: .*$//​g;​s/​[A-Z]/​\L&/​g;​y/​áéíóú/​aeiou/;​s/​[^a-zñ0-9 ]/ /g;s/  \+/ /g' | perl -ple '​s/​[^a-zñÑ0-9 ]//gi' | perl -ple '​$_=lc'​ | sed 's/ \+/ /g;s/^ //g' > geoestratego_.txt cat geoestratego.txt | grep Título | sed '/​^Título:​ ,/​d;​s/​^Título:​ //g;s/, Enlace: .*$//​g;​s/​[A-Z]/​\L&/​g;​y/​áéíóú/​aeiou/;​s/​[^a-zñ0-9 ]/ /g;s/  \+/ /g' | perl -ple '​s/​[^a-zñÑ0-9 ]//gi' | perl -ple '​$_=lc'​ | sed 's/ \+/ /g;s/^ //g' > geoestratego_.txt
 +</​code>​
 +**volvemos a limpiar**\\ ​
 +<code bash>
 +sed -Ei 's/ de / /g;s/ la / /g;s/ los / /g;s/ las / /g;s/ y / /g;s/ el / /g;s/ del / /g;s/ al / /g;s/ a / /g;s/^el |^la |^los |^las //g;s/^lo //g;s/ en / /g;s/ un / /g;s/^ //g;' geoestratego_.txt
 </​code>​ </​code>​
  **El .txt ya está preparado, éstas son las 4 primeras líneas**  **El .txt ya está preparado, éstas son las 4 primeras líneas**
 <code bash> <code bash>
 cat geoestratego_.txt | sed -n '​1,​4p'​ cat geoestratego_.txt | sed -n '​1,​4p'​
-el plan final de biden para desestabilizar ​el mundo+plan final biden para desestabilizar mundo
 marcha militar coronel pedro baños marcha militar coronel pedro baños
-pedro baños ​y la geopolitica 2 3  +pedro baños geopolitica 2 3  
-los medios ​de comunicacion pierden ​el control+medios comunicacion pierden control 
  
 cat geoestratego_.txt | wc -l cat geoestratego_.txt | wc -l
Línea 246: Línea 259:
         print(f"​Similitud entre frase {i + 1} de usuario y frase {j + 1} de geoestratego_:​ {cosine_sim[i,​ j]:​.2f}"​)         print(f"​Similitud entre frase {i + 1} de usuario y frase {j + 1} de geoestratego_:​ {cosine_sim[i,​ j]:​.2f}"​)
 </​code>​ </​code>​
-{{ :​ia:​desinformadores.gz |}} 
ia/desinformadores.1738353336.txt.gz · Última modificación: 2025/01/31 20:55 por anonimo