PROJET AUTOBLOG


Korben

Site original : Korben

⇐ retour index

Mise à jour

Mise à jour de la base de données, veuillez patienter...

Trafilatura – Explorez et scraper le Web avec cet outil Python

vendredi 9 juin 2023 à 09:00

Bonjour à tous ! Aujourd’hui, je vais vous parler d’un nouvel allié dans notre quête pour explorer et capturer l’immensité du web : Trafilatura.

Cet outil open source codé en Python va vous permettre de collecter efficacement des textes sur des pages Web tout en simplifiant grandement la tâche des développeurs et utilisateurs. Plongeons ensemble dans les détails.

Trafilatura est à la fois un logiciel en ligne de commande et une lib Python (+ R) développé pour répondre aux besoins spécifiques que sont le crawling mais aussi l’extraction et le traitement de texte à partir de sources Internet.

L’outil est également capable de récupérer des métadonnées ou encore des commentaires issus des pages webs. L’idée derrière ce projet c’est réussir à ne pas se perdre dans cette jungle HTML en ne conservant que l’essentiel du contenu et en faisant abstraction du reste (sidebar, header, footer…etc). Le challenge ici est donc d’éliminer ces « éléments parasites » inutiles et de pouvoir accéder uniquement au contenu intéressant.

Pour l’installer, c’est hyper simple avec pip :

pip install trafilatura

Et pour le code, voici un exemple d’utilisation :

from trafilutura import fetch_url, extract

downloaded = fetch_url('https://korben.info')
result = extract(downloaded)
print(result['content']) # Affiche seulement le contenu principal.

Maintenant que vous avez une idée de ce à quoi sert Trafilatura, parlons un peu plus en détail des fonctionnalités dispo. Trafilatura est capable de gérer les sitemaps (txt et xml) ainsi que les flux (atom, json, rss). Vous pouvez lui donner des listes de liens à récupérer mais également filtrer certains contenus, voire les dé-dupliquer si besoin.

Au niveau des sources, comme je le disais, il peut prendre en entrée une simple URL mais vous pouvez aussi lui passer directement le HTML. Il gère bien les demandes, ce qui évitera de se faire bloquer par les serveurs et vous pourrez lancer plusieurs récupérations en parallèle. Au niveau des données récupérées, je vous ai parlé des métadonnées et du texte, mais il peut aussi récupérer les liens, la mise en forme HTML et les commentaires des gens sur les pages.

Au niveau de la sortie, il peut vous pondre du texte, du CSV, du JSON ou encore du XML.

Vous pouvez également l’appeler directement depuis votre terminal comme ceci :

trafilatura -u "https://korben.info"

En résumé, Trafilatura est un outil vraiment intéressant pour tous ceux qui travaillent avec des données en provenance du web et qui veulent aller directement à l’essentiel.

Source

Faraday – Un client LLM super sympa pour faire tourner vos IA localement sous macOS et Windows

jeudi 8 juin 2023 à 17:49

Ça vous dirait de tester en local certains modèles LLM (IA) sans trop vous prendre la tête à télécharger des trucs et à installer des machins ?

Et bien, j’ai ce qu’il vous faut !

Cela s’appelle Faraday et c’est un client LLM développé en Proton qui permet d’expérimenter des tas de modèles différents comme Vicuna, Wizard ou encore Vigogne (en français). Une fois le ou les modèles de votre choix récupéré, et bien y’a plus qu’à discuter avec l’outil en vous réglant un persona selon vos propres désirs.

De quoi remplacer ChatGPT pour pas mal d’usages pratiques comme faire des synthèses ou rédiger des tweets. Des tâches simples qui fonctionneront très bien et qui la plupart du temps vous suffiront. Après ça dépendra des modèles que vous utiliserez et il y a fort à parier que dans le futur, ce sera encore plus ouf.

Quoiqu’il en soit, vous devrez avoir une machine puissante, mais rassurez-vous, si vous êtes trop gourmand, Faraday vous informera que le modèle que vous essayez de télécharger est trop costaud pour votre config misérable.

Merci à KaosProject pour le partage.

Faraday est à télécharger ici.

Next INpact, bientôt la fin ?

jeudi 8 juin 2023 à 11:30

Next INpact vient de fêter ses 23 années d’existence et ce média indépendant bien connu de tous, traverse actuellement une période financière plutôt difficile. Leur modèle économique reposant sur les abonnements et la pub, cette aventure risque aujourd’hui de s’achever à cause d’une campagne de financement faiblarde.

La société derrière Next INpact a besoin de 200 000 euros pour continuer son aventure sereinement cette année et si ça foire, elle devra déposer le bilan.

J’ai toujours trouvé ça hyper tendu de faire tenir des salaires uniquement grâce au soutien des lecteurs, mais je pensais que si un média Tech pouvait le faire, ce serait bien Next INpact. Toutefois en 2019, ils ont été contraints de faire quelques ajustements, ce qui malheureusement n’a pas suffi.

Évidemment, j’aurais encore beaucoup de choses à dire sur tout ça, avec mes 19 ans d’existence et après avoir failli également disparaitre moi-même (enfin, le site ^^) il y a 2 ans.

Sur le financement par abonnement bien sûr, mais également au sujet de la publicité sous toutes ses formes, sur le fonctionnement d’un média en ligne et sur sa résilience. Sans oublier de parler des internautes qui « consomment » ces contenus et bien sûr, de la fameuse indépendance éditoriale chère à tous… mais je pense que ce n’est pas le moment opportun donc on verra ça plus tard.

Bref, si comme moi, vous appréciez le travail de Next INpact et que vous voulez les soutenir, cliquez ici !

Je suis certain que leur appel au secours sera suffisant pour continuer cette année grâce à tous ! Merci pour eux.

(et merci à Johnny de m’avoir alerté)

Comment apprendre la cryptographie en s’amusant ?

jeudi 8 juin 2023 à 09:00

Vous avez toujours été fasciné par le monde mystérieux de la cryptographie ?

Et bien, aujourd’hui, je vous présente une plateforme en ligne gratuite et vraiment très fun qui va vous permettre de vous plonger dans cet univers captivant: CryptoHack !

Cette plateforme en ligne vous propose une série d’énigmes crypto et de défis pour apprendre la cryptographie moderne tout simplement en… la cassant. Hé oui !

Ainsi, en résolvant des défis, vous gagnerez des points ce qui vous fera monter dans le classement. Avant de commencer, vous devrez évidemment installer Python et pip ainsi que diverses libs qui vous seront demandés au fur et à mesure des challenges.

Les défis de CryptoHack couvrent divers sujets liés à la crypto et ceux-ci deviendront de plus en plus pointus au fur et à mesure de votre progression. Mais rassurez-vous, ce sera toujours bien expliqué dans les leçons (en anglais et très fun à faire. C’est comme un jeu finalement et en plus, c’est totalement gratuit.

À vous de jouer ! Et vous trouverez également d’autres ressources (dont root_me) pour vous exercer au Ethical Hacking en cliquant sur ce lien.

Découvrez « Retour à la Case Mémoire » – Picsou de retour en film !

jeudi 8 juin 2023 à 07:12

Retour à la Case Mémoire

Salut les amis, aujourd’hui je vous propose de retourner un peu en enfance (enfin surtout ceux nés dans les années 70, 80, 90, 2000 et 2010… tout le monde, presque) et on va parler d’un de nos superhéros de l’époque, j’ai nommé … Picsou !

Eh oui, je suis persuadé que si tout le monde regarde Wall Street et les traders de crypto avec des gros yeux aujourd’hui, c’est parce que l’oncle Picsou nous a fait rêver en nageant dans sa piscine remplie de pièces de 5 centimes (si si, je suis sûr de mon coup).

Si vous me suivez sur TikTok, vous avez peut-être vu passer une de mes vidéos ou je vous parlais du courrier des lecteurs de Picsou Magazine. Et bien tous les chemins du web menant à Korben, j’ai été contacté par Hugo et Adrien, assistants-réalisateurs de métier qui, eux aussi, grands fans de Picsou.

Ils sont justement en train de réaliser un court-métrage en hommage au célèbre canard et son entourage : Retour à la Case Mémoire.

En plus, ils ont décidé de faire ce fan film avec de vrais acteurs !

Retour à la Case Mémoire : Picsou

Comme j’ai trouvé le projet très fun, j’ai décidé de les mettre en avant, car je sais que certains lecteurs sont aussi d’anciens amateurs de Picsou Mag (grâce à nos discussions Twitch j’en sais plus sur vous que le fisc, ou presque…).

Donc n’hésitez pas à leur donner de la force ou les soutenir via un don sur leur page Helloasso si vous aussi vous voulez voir le projet aboutir !

Ils m’ont envoyé une première scène pour me faire une idée et j’ai trouvé ça très très sympa ! Sur l’aspect visuel j’avoue que je ne savais pas trop à quoi m’attendre, et c’est souvent compliqué de retranscrire un monde qui est au départ illustré (sous forme de BD ou d’animé) en version « réelle » qui tienne la route.

Par exemple les films de superhéros ont longtemps été un peu foireux avant l’arrivée des effets spéciaux d’une certaine qualité, qui ont rendu les scènes d’actions crédibles. Evidemment, on fera abstraction des films Astérix et Obélix, Bob et Bobette, Popeye, Dragon Ball… lol

Bon, je me tais pendant 2 min 30 pour vous laisser voir l’extrait en question. Regardez bien, car il y a un tas de petits clins d’oeil sympa, des objets que l’on a vus dans les BD, etc. (marque de la voiture, panneaux publicitaires …).

Ce n’est que le début et le projet final devrait arriver fin de l’année, avec un tournage prévu cet été. Là vous n’avez vu qu’une petite portion puisque le petit film devrait durer environ 30 minutes une fois terminé. Et il sera ambitieux puisqu’on m’a soufflé dans l’oreille que nous aurons droit à des courses poursuites, des décors et des costumes faits sur mesure ainsi que des incrustations BD, du matte painting, des maquettes, des acteurs pros, etc.

Bref vous comprenez la raison du crowdfunding, tout cela a un coût.

Je ne sais pas vous, mais je trouve que l’ambiance est directement posée. Après vous imaginez bien que pour des raisons de droits ils ne peuvent pas nommer leurs héros de la même manière que ceux de Disney. Nous avons donc dans le rôle de Picsou, Edgard Merrill qui fait appel à Damien (aka Donald) ou encore  Véronique Augereau dans le rôle de Miss Frappe. Perso j’espère surtout qu’on verra un ou deux méchants également ^^.

Bref, n’hésitez pas à partager l’info autour de vous et à les soutenir si le coeur vous en dit 😉

La chaine YouTube – le Facebook – la campagne Helloasso

Et pour vous prouver que je ne baratine pas sur mon amour du canard le plus riche du monde (et des dinosaures), voici un scan d’une lettre de mini-moi parue dans le courrier des lecteurs du magazine. Merci à Julien, lecteur du site, qui m’a rappelé ce bon souvenir en m’envoyant ça par mail. Si ma mémoire est bonne, cela remonte à 1992.