PS:你知道weibo问答的力量有多么的强大了吧???
==
总结我用过的网页正文抽取工具: decruft python-readability boilerpipe python-boilerpipe pismo Goose Python Goose
:有个测试链接: 测试了个链接,goose没提出来,cx-ectractor提出来了;不过goose的metadata以及image等不错;谁有空写个吧,两者优点结合一下。
: 转cx-ectractor( )的维护者 //: cx-extractor //: 这个确实有难度,我们也没有什么好。: 在我的硕士论文中给出了形式化数学表示,详细请见:,希望对大家有帮助
:自吹自擂一下。
:可看看这个开源项目
:h2w.iask.cn
:NReadability
:搜一下这篇论文:DOM Based Content Extraction via Text Density
@梁斌 推一下,各大公司都有做这个的,搜狗这个叫PA,page analysis,我也短期维护过,目前是某哥们再搞
最后:
正文抽取的开源代码,基于文本密度的html2article: 基于标签比例的机器学习Dragnet: 专注新闻类网页提取的Newspaper: 集成goose等三种算法的readbilitybundle 我觉得最好的方法还可能是视觉系方法
原文地址:http://www.zhizhihu.com/html/y2013/4202.html

评论