Herramientas de usuario

Herramientas del sitio


ia:desinformadores

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
ia:desinformadores [2025/02/01 02:39]
anonimo
ia:desinformadores [2025/02/01 03:57] (actual)
anonimo
Línea 2: Línea 2:
 2º Extraer los títulos de los vídeos,​shorts y directos de youtube mediante web scrapping\\ ​ 2º Extraer los títulos de los vídeos,​shorts y directos de youtube mediante web scrapping\\ ​
 3º Limpiarlos de caracteres extraños, tildes, artículos y preposiciones que no sirven para el propósito mediante el editor de textos sed\\  3º Limpiarlos de caracteres extraños, tildes, artículos y preposiciones que no sirven para el propósito mediante el editor de textos sed\\ 
-4º Hacer pruebas midiendo el grado de similitud ideológica de diferentes seguidores respecto a dichos desinformadores\\ ​+4º Hacer pruebas midiendo el grado de similitud ideológica de diferentes ​usuarios/seguidores respecto a dichos desinformadores\\ ​
  
  
Línea 180: Línea 180:
 python3 raspado.py > geoestratego.txt python3 raspado.py > geoestratego.txt
 </​code>​ </​code>​
 +El resultado está en éste archivo {{ :​ia:​desinformadores.gz |}}\\ 
 +
 **El .txt hay que prepararlo y no lo está, ésto contienen las 4 primeras líneas** **El .txt hay que prepararlo y no lo está, ésto contienen las 4 primeras líneas**
 <code bash> <code bash>
Línea 191: Línea 193:
 <code bash> <code bash>
 cat geoestratego.txt | grep Título | sed '/​^Título:​ ,/​d;​s/​^Título:​ //g;s/, Enlace: .*$//​g;​s/​[A-Z]/​\L&/​g;​y/​áéíóú/​aeiou/;​s/​[^a-zñ0-9 ]/ /g;s/  \+/ /g' | perl -ple '​s/​[^a-zñÑ0-9 ]//gi' | perl -ple '​$_=lc'​ | sed 's/ \+/ /g;s/^ //g' > geoestratego_.txt cat geoestratego.txt | grep Título | sed '/​^Título:​ ,/​d;​s/​^Título:​ //g;s/, Enlace: .*$//​g;​s/​[A-Z]/​\L&/​g;​y/​áéíóú/​aeiou/;​s/​[^a-zñ0-9 ]/ /g;s/  \+/ /g' | perl -ple '​s/​[^a-zñÑ0-9 ]//gi' | perl -ple '​$_=lc'​ | sed 's/ \+/ /g;s/^ //g' > geoestratego_.txt
 +</​code>​
 +**volvemos a limpiar**\\ ​
 +<code bash>
 +sed -Ei 's/ de / /g;s/ la / /g;s/ los / /g;s/ las / /g;s/ y / /g;s/ el / /g;s/ del / /g;s/ al / /g;s/ a / /g;s/^el |^la |^los |^las //g;s/^lo //g;s/ en / /g;s/ un / /g;s/^ //g;' geoestratego_.txt
 </​code>​ </​code>​
  **El .txt ya está preparado, éstas son las 4 primeras líneas**  **El .txt ya está preparado, éstas son las 4 primeras líneas**
 <code bash> <code bash>
 cat geoestratego_.txt | sed -n '​1,​4p'​ cat geoestratego_.txt | sed -n '​1,​4p'​
-el plan final de biden para desestabilizar ​el mundo+plan final biden para desestabilizar mundo
 marcha militar coronel pedro baños marcha militar coronel pedro baños
-pedro baños ​y la geopolitica 2 3  +pedro baños geopolitica 2 3  
-los medios ​de comunicacion pierden ​el control+medios comunicacion pierden control 
  
 cat geoestratego_.txt | wc -l cat geoestratego_.txt | wc -l
Línea 252: Línea 259:
         print(f"​Similitud entre frase {i + 1} de usuario y frase {j + 1} de geoestratego_:​ {cosine_sim[i,​ j]:​.2f}"​)         print(f"​Similitud entre frase {i + 1} de usuario y frase {j + 1} de geoestratego_:​ {cosine_sim[i,​ j]:​.2f}"​)
 </​code>​ </​code>​
-{{ :​ia:​desinformadores.gz |}} 
ia/desinformadores.1738373991.txt.gz · Última modificación: 2025/02/01 02:39 por anonimo