Aller au contenu principal
Mur d'archive a casiers recevant des extraits papier flottant venant du haut du cadre

Obsidian Web Clipper : review du plugin officiel pour capturer le web en Markdown

Retour au blog
Intelligence artificielle
Nicolas
11 min de lecture
Mur d'archive a casiers recevant des extraits papier flottant venant du haut du cadre

Obsidian Web Clipper est sorti en version stable il y a un peu plus d’un an, et la question concrète pour un utilisateur Obsidian déjà installé n’a rien de marketing : faut-il arrêter MarkDownload pour passer au plugin officiel, ou laisser tourner l’existant ?

Cette review couvre trois semaines d’usage quotidien sur un vault de référence pour la veille IA et le shopping technique.

L’objectif : trier ce qui résiste à l’usage de ce qui sent encore la version 1.x.

L’article met en avant la pile Defuddle + Turndown + Reader + Highlighter comme un mini-ETL côté navigateur, puis ouvre sur le mode Interpréteur LLM et les bugs ouverts.

En bref

  • Stack à connaître : Defuddle isole le contenu, Turndown produit le Markdown, Reader sert de base d’extraction et Highlighter capture des passages persistants.
  • Mode Interpréteur LLM optionnel : Claude Haiku, Gemini Flash, GPT Mini ou un modèle local via Ollama, configurés par template.
  • Templates conditionnels : déclenchement par pattern d’URL, variables {{title}}, {{content|markdown}}, {{schema:author.name}}, le tout sauvé en frontmatter.
  • Quand l’Interpréteur sert : résumé court en frontmatter, tags auto, extraction JSON structurée d’une page de spec ou d’un article scientifique.
  • Limites assumées : PDF non gérés (issue #646), transcript YouTube dépend du panneau ouvert, conflit possible avec Templater sur le même dossier.
  • Verdict tranché : MarkDownload reste valide pour un usage simple, Web Clipper gagne dès qu’on veut templates par site, schema.org ou Interpréteur LLM.

La pile technique de Web Clipper

Le plugin officiel s’appuie sur trois briques techniques qui agissent en chaîne dans le navigateur.

Defuddle attaque le DOM de la page et isole le bloc de contenu principal, en jetant la navigation, les barres latérales et les inserts publicitaires.

Le projet est intégré au Clipper depuis la version 1.1 et reste disponible en standalone sur github.com/kepano/defuddle pour ceux qui veulent l’utiliser ailleurs.

La version Firefox Android sortie en mars 2026 a poussé Defuddle en 0.14, signe que la lib continue d’évoluer indépendamment du Clipper.

Turndown prend le relais et convertit ce HTML nettoyé en Markdown.

C’est lui qui décide comment rendre une liste, un tableau, un bloc de code ou une note de bas de page.

La qualité du Markdown final dépend autant de Defuddle que de Turndown : si l’extraction laisse passer du bruit, le rendu Markdown le contient.

Si Defuddle laisse passer une barre latérale, Turndown la rend en liste à puces sans broncher.

Le mode Reader sert de base d’extraction épurée, comme un Reader Safari ou Firefox, mais branché sur Defuddle.

Le Highlighter ajoute une couche dessus : un curseur qui devient surligneur, les blocs DOM s’éclairent au survol comme des post-it virtuels, et les surlignages persistent sur la page.

Au moment de clipper, l’extension propose trois portées : article entier, sélection libre, ou seulement les highlights enregistrés.

Panneau web vertical se desassemblant en bandes de texte structure qui derivent vers le bas du cadre

Le workflow au quotidien

Le but n’est pas de clipper plus, c’est de clipper utile.

Un template bien réglé vaut plus qu’un dump brut, et c’est exactement ce que la doc officielle a du mal à expliquer : Web Clipper joue le rôle d’un mini-ETL côté navigateur.

Defuddle extrait le contenu principal, Turndown produit le Markdown, les variables et filtres injectent les métadonnées, et la note arrive dans le vault avec une frontmatter prête à requêter.

La note arrive dans un dossier dédié, frontmatter pré-remplie

La règle qui change tout au quotidien : tous les clips vont dans un seul dossier, par exemple /clippings.

Chaque note hérite d’une frontmatter cohérente : source, auteur, date, et un champ status: inbox qui signale qu’il faut encore la trier.

Le clip lui-même reste brut, le tri humain vient ensuite.

Le tri quotidien des clips via Dataview

La Daily Note de Periodic Notes héberge une requête Dataview qui liste les clips du jour, filtrée sur le champ status égal à inbox.

En cinq minutes par jour, on traite sa boîte d’entrée et on bascule les clips utiles vers des notes de littérature, ailleurs dans le vault.

Ce pattern rapproche le résultat d’une base de connaissance Obsidian assistée par LLM, où le clipping devient une matière première organisée plutôt qu’une bibliothèque morte.

Le piège Templater à connaître : si un template Templater est attaché au dossier /clippings, il peut écraser la frontmatter posée par Web Clipper au moment de la création du fichier.

Le forum Obsidian a un thread dédié à ce conflit, et la solution la plus stable consiste à séparer les deux : Web Clipper pose sa frontmatter, Templater agit après, sur un dossier différent ou sur action manuelle.

Templates conditionnels et mode Interpréteur

Le système de templates de Web Clipper est ce qui pousse la plupart des nouveaux utilisateurs à migrer depuis MarkDownload.

Le principe : un template par site, déclenché par un pattern d’URL.

Le repo communautaire github.com/obsidian-community/web-clipper-templates rassemble des modèles prêts à l’emploi pour YouTube, Reddit, Wikipedia et IMDb.

Variables, filtres et un exemple IMDb concret

Une variable cible un champ de la page et un filtre la formate.

Les variables les plus utiles dans la doctrine officielle sont {{title}}, {{content|markdown}}, et la famille schema: qui pioche dans le balisage Schema.org de la page.

L’exemple IMDb illustré par Stephan Miller pose un template déclenché sur le pattern imdb.com/title/, qui récupère {{schema:Movie:name}} pour le titre du film, {{schema:datePublished}} pour l’année, et un sélecteur CSS pour le casting.

On peut faire la même chose pour les pages Wikipedia, un blog scientifique ou une page produit Amazon, avec quelques lignes de JSON.

Interpréteur LLM : providers, cas d’usage, latence

L’Interpréteur ajoute un appel LLM optionnel au moment du clip, configuré par template.

Les providers supportés incluent OpenAI, Anthropic, Gemini, OpenRouter, Ollama local, ou tout endpoint compatible chat completions custom.

La doc officielle recommande les petits modèles : Claude Haiku, Gemini Flash, Llama 3B ou 8B via Ollama, série Mini d’OpenAI, plus rapides et assez précis pour cet usage.

Trois cas où l’Interpréteur fait gagner du temps : résumé court en frontmatter, tags auto à partir du contenu, et extraction JSON structurée d’une page de spec.

La latence va de quelques centaines de millisecondes pour Gemini Flash sur une page courte à plus de 30 secondes via un modèle local sur un long article.

Piège Ollama : son contexte par défaut est de 2048 tokens, et une page un peu longue déborde sans erreur visible, retour silencieux d’un résultat médiocre.

La parade documentée par l’équipe Obsidian : OLLAMA_ORIGINS et le paramètre num_ctx à élargir au lancement du serveur, ou trimmer le contexte avec un filtre type slice:0,1000 dans le template.

Limites concrètes d’Obsidian Web Clipper

La principale limite reste les PDF ouverts directement dans le viewer du navigateur : le Clipper voit le viewer, pas du HTML, et produit une note vide.

L’issue GitHub #646 tracke ce comportement depuis plusieurs releases sans correctif définitif.

Le transcript YouTube remarche depuis la mise à jour de février 2026 du flux YTS UI, à condition que le panneau de transcript soit ouvert dans la page au moment du clip.

Si le panneau est fermé, le Clipper ne récupère que le titre et la description.

Le Clipper ne devine pas, il voit ce que voit le navigateur au moment du clic, et seulement ça.

Côté Linux, le bug Wayland documenté en 1.11.4 fait que le Clipper n’envoie que le titre de la page et que la fenêtre Obsidian ne reprend pas le focus, le workaround officiel consiste à repasser temporairement en session X11.

Les triggers de templates fonctionnent en logique OR uniquement, et la communauté demande une combinaison AND dans l’issue #648 pour pouvoir conditionner un template sur deux patterns d’URL en même temps.

Le conflit Templater + Web Clipper évoqué plus haut tombe dans la même famille : deux outils qui touchent la frontmatter au même moment, sans coordination explicite.

Les SPA et flux dynamiques restent fragiles : Twitter (X) et Reddit sont gérés par des Extractors dédiés, mais une SPA récente non listée renverra un Markdown pauvre.

Les paywalls durs sont par définition hors d’atteinte : Web Clipper voit ce que voit le navigateur, pas plus.

Obsidian Web Clipper, verdict par profil

Trois profils, trois décisions claires.

Premier profil : vous utilisez MarkDownload depuis deux ans et votre workflow tient debout.

Ne migrez pas par principe.

Basculez si vous voulez des templates par site, du schema.org, ou l’Interpréteur LLM pour automatiser les tags et résumés.

Deuxième profil : vous démarrez Obsidian aujourd’hui ou votre workflow de capture web n’est pas encore figé.

Prenez Web Clipper directement.

Le gap fonctionnel avec MarkDownload est trop large pour justifier un détour, et le maintien officiel par l’équipe Obsidian compte sur la durée.

Troisième profil : Notion reste votre système principal et votre vault Obsidian est secondaire.

Restez sur Notion Web Clipper pour vos clips Notion et gardez Web Clipper Obsidian pour les contenus que vous voulez héberger en Markdown local sur le long terme.

Une double pile fonctionne très bien tant que la frontière est claire dans votre tête.

Le détail qui fait basculer les utilisateurs IA cette année : depuis fin 2025, Web Clipper sait sauvegarder une conversation ChatGPT ou Claude comme note Obsidian, via une mise à jour des release notes GitHub.

Le mode Embedded sorti en parallèle ouvre Web Clipper comme barre latérale dans la page elle-même, ce qui rend possible le clip de plusieurs onglets en file.

Web Clipper a passé le seuil d’outil sérieux il y a plus d’un an, et 2026 confirme la trajectoire avec les Extractors X et Reddit, le mode Embedded, et l’export de conversations LLM.

Il ne remplace pas un système de prise de notes, il alimente celui que vous avez déjà.

La meilleure manière de l’évaluer chez vous : prendre un template du repo communautaire, le brancher sur un site que vous lisez tous les jours, activer l’Interpréteur sur ce seul template pour générer des tags, et observer pendant deux semaines.

Si vous voulez aller plus loin, l’article sur la veille assistée par LLM publié sur Anthem Creation donne le cadre pour brancher Web Clipper sur un pipeline de veille plus large.

Obsidian Web Clipper trouve sa place exactement là, comme couche de capture entre le navigateur et un vault qui sert déjà à penser.

Questions fréquentes

Qu’est-ce qui change concrètement si je passe de MarkDownload à Web Clipper ?

Vous gagnez les templates conditionnels par site, l’accès aux variables Schema.org, et le mode Interpréteur LLM, en échange d’une courbe d’apprentissage sur le JSON des templates.

Le Markdown produit reste-t-il propre sur les pages complexes ?

Sur un article de blog standard, une page Wikipedia ou une page IMDb avec balisage Schema.org, le rendu est solide.

Sur des SPA non listées dans les Extractors ou des pages riches en JavaScript, le Markdown peut être pauvre ou décalé.

Comment ça marche sur YouTube en 2026 ?

Le transcript se récupère via le mode Reader depuis la mise à jour de février 2026, à condition que le panneau de transcript soit ouvert dans l’onglet au moment du clip.

L’Interpréteur LLM est-il indispensable ?

Non, il est strictement optionnel et désactivé par défaut, beaucoup d’utilisateurs s’en passent et restent sur des templates statiques.

Puis-je utiliser Ollama en local pour rester privé ?

Oui, l’Interpréteur supporte Ollama, à condition de lancer le serveur avec OLLAMA_ORIGINS qui autorise les extensions navigateur et d’élargir num_ctx pour les longues pages.

Web Clipper fonctionne-t-il offline ?

L’extraction et le clip vers le vault tournent localement, mais l’Interpréteur LLM cloud demande une connexion sortante, sauf si vous utilisez Ollama.

Comment éviter le conflit Templater + Web Clipper sur la frontmatter ?

Séparez les rôles : Web Clipper pose la frontmatter dans /clippings, Templater agit ailleurs ou sur action manuelle après tri humain.

Quelles pages cassent et que faire ?

PDF ouverts dans le navigateur (issue #646), SPA non listées dans les Extractors, paywalls durs, transcript YouTube si le panneau est fermé.

Pour ces cas, basculer en sélection manuelle ou en clip de la version cache, ou attendre une mise à jour Extractors.

Comment connecter Web Clipper à ma Daily Note ?

Tous les clips vont dans /clippings avec une propriété status égale à inbox, et une requête Dataview placée dans la Daily Note via Periodic Notes liste les clips du jour à trier.

Si je suis sur Notion, dois-je basculer ?

Restez sur Notion Web Clipper pour vos pages Notion et ajoutez Web Clipper Obsidian uniquement pour les contenus que vous voulez archiver en Markdown local sur le long terme.

Articles Similaires

Prêt à créer votre système IA ?

Anthem Creation vous accompagne dans votre transformation IA

Disponibilité : 3 nouveaux projets pour Mai/Juin
Échanger sur mon besoin
Une question ?
✉️

Encore quelques questions ?

Laissez-moi votre email pour qu'on puisse continuer cette conversation. Promis, je garde ça précieusement (et je ne vous bombarderai pas de newsletters).

  • 💬 Accès illimité au chatbot
  • 🚀 Des réponses plus poussées
  • 🔐 Vos données restent entre nous
Cette réponse vous a-t-elle aidé ? Merci !