Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anterior Revisión previa Próxima revisión | Revisión previa | ||
|
ia:desinformadores [2025/02/01 02:39] anonimo |
ia:desinformadores [2025/02/01 03:57] (actual) anonimo |
||
|---|---|---|---|
| Línea 2: | Línea 2: | ||
| 2º Extraer los títulos de los vídeos,shorts y directos de youtube mediante web scrapping\\ | 2º Extraer los títulos de los vídeos,shorts y directos de youtube mediante web scrapping\\ | ||
| 3º Limpiarlos de caracteres extraños, tildes, artículos y preposiciones que no sirven para el propósito mediante el editor de textos sed\\ | 3º Limpiarlos de caracteres extraños, tildes, artículos y preposiciones que no sirven para el propósito mediante el editor de textos sed\\ | ||
| - | 4º Hacer pruebas midiendo el grado de similitud ideológica de diferentes seguidores respecto a dichos desinformadores\\ | + | 4º Hacer pruebas midiendo el grado de similitud ideológica de diferentes usuarios/seguidores respecto a dichos desinformadores\\ |
| Línea 180: | Línea 180: | ||
| python3 raspado.py > geoestratego.txt | python3 raspado.py > geoestratego.txt | ||
| </code> | </code> | ||
| + | El resultado está en éste archivo {{ :ia:desinformadores.gz |}}\\ | ||
| + | |||
| **El .txt hay que prepararlo y no lo está, ésto contienen las 4 primeras líneas** | **El .txt hay que prepararlo y no lo está, ésto contienen las 4 primeras líneas** | ||
| <code bash> | <code bash> | ||
| Línea 191: | Línea 193: | ||
| <code bash> | <code bash> | ||
| cat geoestratego.txt | grep Título | sed '/^Título: ,/d;s/^Título: //g;s/, Enlace: .*$//g;s/[A-Z]/\L&/g;y/áéíóú/aeiou/;s/[^a-zñ0-9 ]/ /g;s/ \+/ /g' | perl -ple 's/[^a-zñÑ0-9 ]//gi' | perl -ple '$_=lc' | sed 's/ \+/ /g;s/^ //g' > geoestratego_.txt | cat geoestratego.txt | grep Título | sed '/^Título: ,/d;s/^Título: //g;s/, Enlace: .*$//g;s/[A-Z]/\L&/g;y/áéíóú/aeiou/;s/[^a-zñ0-9 ]/ /g;s/ \+/ /g' | perl -ple 's/[^a-zñÑ0-9 ]//gi' | perl -ple '$_=lc' | sed 's/ \+/ /g;s/^ //g' > geoestratego_.txt | ||
| + | </code> | ||
| + | **volvemos a limpiar**\\ | ||
| + | <code bash> | ||
| + | sed -Ei 's/ de / /g;s/ la / /g;s/ los / /g;s/ las / /g;s/ y / /g;s/ el / /g;s/ del / /g;s/ al / /g;s/ a / /g;s/^el |^la |^los |^las //g;s/^lo //g;s/ en / /g;s/ un / /g;s/^ //g;' geoestratego_.txt | ||
| </code> | </code> | ||
| **El .txt ya está preparado, éstas son las 4 primeras líneas** | **El .txt ya está preparado, éstas son las 4 primeras líneas** | ||
| <code bash> | <code bash> | ||
| cat geoestratego_.txt | sed -n '1,4p' | cat geoestratego_.txt | sed -n '1,4p' | ||
| - | el plan final de biden para desestabilizar el mundo | + | plan final biden para desestabilizar mundo |
| marcha militar coronel pedro baños | marcha militar coronel pedro baños | ||
| - | pedro baños y la geopolitica 2 3 | + | pedro baños geopolitica 2 3 |
| - | los medios de comunicacion pierden el control | + | medios comunicacion pierden control |
| cat geoestratego_.txt | wc -l | cat geoestratego_.txt | wc -l | ||
| Línea 252: | Línea 259: | ||
| print(f"Similitud entre frase {i + 1} de usuario y frase {j + 1} de geoestratego_: {cosine_sim[i, j]:.2f}") | print(f"Similitud entre frase {i + 1} de usuario y frase {j + 1} de geoestratego_: {cosine_sim[i, j]:.2f}") | ||
| </code> | </code> | ||
| - | {{ :ia:desinformadores.gz |}} | ||