GNE: 4行代码实现新闻类网站通用爬虫

GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提 … Continue reading GNE: 4行代码实现新闻类网站通用爬虫