我自己在网页上浏览信息时,比较不喜欢各种侧边栏广告、浮动的订阅弹窗,以及底部那些没有意义的评论区。
所以过去我一直有使用「阅读模式」的浏览器插件来强化阅读体验,但实际使用下来的效果并不是很好,即便谷歌浏览器内置的这种功能都不好用。
自己过去也写过一些类似屏蔽干扰的插件,但没办法做到很完善的适配,可能针对 A 网站比较适用,但在 B 网站使用时便又不行了。
然后这几天在浏览信息时看到个不错的项目,我觉得可以很好满足只看内容正文的这种需求。

看信息介绍,这款工具是 Obsidian 的首席执行官 Steph Ango 开发的,能非常方便的从混乱的网页中剔除与主要内容无关元素,还原内容最本真的模样
不同于 Readability 这样的开源库,这款工具是为了满足更现代更结构化的内容提取需求而设计的。

使用起来非常简单,直接将内容链接扔进来,分分钟便可以获取到清晰版的正文内容。
下午我自己测试了十几个不同网站上的内容,其正文内容的呈现都没有任何问题。
所以如果你是 Markdown 笔记的拥趸,或者 Obsidian 这款笔记软件的深度用户,那这款工具就真的非常适合了。
出于好奇,我下午也搜索了解了这款工具的核心原理,发现这款工具的出众点就在于其移动端优先的设计思路。
它会利用网页的移动端样式来猜测哪些是核心元素,哪些是装饰性元素。
并通过对 DOM 节点进行打分(考虑链接密度、文字长度、特定 CSS 类名等),从而更准确地识别出导航栏、社交分享按钮等等噪音。

比如上面这个截图,就是我自己看自己博客中某篇文章的示例,做的真的非常优秀。
另外这款开源库,也是可以集成到我们自己的开发项目中的。
如果你不喜欢频繁打开工具官网,也可以尝试使用 CLI 命令行工具来直接使用,或者将这个开源库集成到自己的浏览器插件中去。






