2025-02-1314:08:29其他杂项58字数 8289阅读27分37秒阅读模式2025-02-13

技能篇：想要挖掘商机，先学会这个能力

原创

o君言o

君言戏语

2021年03月16日 13:03

前言

在我过往的从业生涯里，见到过很多运营推广人员，绝大多数并不会技术，当然作为运营推广人员并不需要具备技术能力，也不应该去要求有技术能力。

但是但凡一个能力较为出众的运营推广人员，一般都有自己收集数据和分析数据的手段（并不一定是学技术）。

问题

作为一名不懂技术的从业者，如何轻松学会一个收集自己需要的数据的能力，同时：考虑到学习成本，这项能力还应该具有一定的普遍适用性。

在未来的工作里，它是可以反复使用的，并且可以适用在绝大多数挖掘场景。

学习是枯燥的，但适当的正反馈可以增加学习的乐趣，今天这一篇文章，我们带着工作场景来把这个技能走一遍。

同时在结尾我给愿意学习的朋友留下一个思路：看看自己是否能够现学现用，挖掘到一些让自己眼前一亮的信息。

刚才说过，高阶的运营推广人员一般都有自己整合数据的能力且并不一定是学一门技术语言，今天这篇也是如此。

场景一：搜索引擎挖词

从之前分享的关键词数据来看，很多朋友还没能拥有自己挖词的能力，作为一名SEOer或者SEMer，这应该是一项基本能力。

任何挖词工具的数据来源其实都是来自搜索引擎，我们是完全可以直接从搜索引擎拿词的。

步骤1：

从付费行为里给自己找一个兼职当作副业[1]

这是我在知乎的一篇文章，内容是讲解如何使用web scraper来收集自己需要的数据，文章从安装到入门完整的说明了一个例子，所以看这篇就可以学会web scraper的基础知识。

类似这样的教程网上也有很多，但是：这只是web scraper的初阶用法，我发现网上对于接下来要谈的高阶用法却是篇幅极少，几乎没有。

在那篇文章里，我们知道了web scraper的基本功能，通过点击鼠标和简单设置，就可以让web scraper自动翻页挖掘同类目下的目标数据，全程不需要代码。

这其实是web挖掘的一个典型场景：

https://www.xxx.com/?page=1

像这样的一个链接，web scraper可以通过配置让page这个翻页数字不断递增，从而不断采集下一页的内容，类似搜索引擎蜘蛛的深度遍历。

但是web挖掘还有其他更普遍的场景，比如：

https://www.xxx.com?keyword=xxx&page=1

keyword是另一个参数，它需要你输入指定的值，比如这里是一个关键词，不同的关键词，网页会返回相应不同的信息。

这个时候，挖掘场景变了，我们不想翻页，page永远是1，但是我们希望keyword会变，这样可以挖掘同一个页面同一个版块的不同信息，这是一种宽度遍历。

严格来说：这一种变换方式包含上一种而上一种不包含这一种。

可以运用在哪里？

百度相关搜索

如上：当我们在百度搜索一个关键词的时候，百度会有“相关搜索”这个版块，这里的这些关键词，我们翻多少页它都是一样的。

其他人还在搜

这个“其他人还在搜”的版块，我们翻到第二页就压根看不到它了。

所以：如果我们想挖掘这两个版块推荐出来的长尾词，不是翻页，而是不断的变更搜索词，这样就可以从这两个版块源源不断的挖词。

下拉关键词

这里也是同理的，通过不断键入各种词汇，这里可以给我们带来源源不断的各种长尾词。

仅仅只是这样吗？还不止：

知乎

头条

搜狗微信

以此类推，所有你能想象到的web搜索下的各种下拉、相关推荐等板块的长尾词你都可以收集整合下来。

同样的：

360

搜狗

很多搜索引擎都有很多版块会出现长尾词，这些渠道都可以收集，还会担心没词吗？

问题在于，使用之前学习的web scraper初阶应用是没办法这样采集的，web scraper可以通过格式设置：page[1-10] 让工具明白要把url里的page的值从1递增到10。

如果有些网站的page每次递增不是1而是指定倍数，比如百度的pn是0开始，递增10，那么可以设置pn[0-10:10] 这样pn的值就是0、10、20 ……

这很灵活，但是诸如上面提到的keyword=某个文字或字符，这种方式就不适用了。

接下来走一遍流程，看看具体如何解决！

ps：对于没学过web scraper基础的朋友，接下去有些工具步骤是看不明白的，你可以先跟着走一遍，看看最后可以做到什么样的效果，然后再去学习上一篇的基础。

步骤2：

https://www.baidu.com/s?wd=

这是百度搜索结果最基本的一条url，百度搜索结果有很多参数，都有它各种作用，比如pn是翻页，rn是设置返回结果数，这里的wd就是搜索词。

https://www.baidu.com/s?wd=赚钱

这条链接就代表你在百度搜索了“赚钱”这个词：

搜索赚钱

我们打开web scraper新建一个“baidu_like”的工程，并指定url：

新建工程

这样我们就可以采集https://www.baidu.com/s?wd=赚钱这个搜索结果里的指定内容，比如“相关搜索”这个版块。

我们来配置规则，新建一个选择器：

新建选择器

通过按照上下或左右顺序点击四个“相关搜索”版块里的关键词，就可以自动选中所有关键词：

选中所有词

保存这个选择器，我们就可以开始采集了，因为数据已经被我们圈中了。

但是，这只是https://www.baidu.com/s?wd=赚钱这个搜索结果下的数据，充其量才9个，我们还希望wd后面有各种各样的关键词，进而采集对应的数据。

其实web scraper已经给了这个功能：

选择工程

在初始界面选择我们刚刚创建的工程，然后点击这个按钮：

修改配置

来到如下界面：

配置界面

我们可以看到：在“start url”这个字段尾部有一个+-号，通过点击这里的+号我们可以再新加入一条链接：

新增url

点击保存之后，再运行这个工程，我们就可以抓取两个关键词的搜索结果了，这个工程下的所有规则配置（就是刚才的选择器）都是被这两个url共用的。

所以运行这个工程，程序会自动抓取这两个页面的“相关搜索”这个版块下的所有关键词，也就是我们会收集到18个词，这就是web scraper另一个运用，然而这么一个简单的操作却足以让功能提升一个维度。

虽然只增加了一条，但实际上这是从1到N的一个变化，接下来就很简单了，不断点击+号，反复加入我们需要抓取的页面即可。

可问题在于：

人工点击操作，这实在太累了，因为说到挖词，那肯定不会是10个8个的场景，作为拓词的种子词，百个千个是起步。

步骤3：

同样是刚才的步骤进入工程，这一次我们选择：

导出地图

web scraper支持工程的导入和导出，当我把一个工程配置好之后（比如这个工程专门挖掘相关搜索），我可以导出发给你，你只要简单的点击两下导入进去，就拥有这个工程了，然后立马就可以采集（文章底部也提供了一些挖词工程）。

我们看到点击完export sitemap后的界面：

sitemap

虽然我们使用web scraper是不用写代码的，但它毕竟是一个软件工具，它的背后还是代码，把这份代码给别人，就如同把整个定制的采集功能给别人使用了。

这是一段json格式的内容，我们可以看到里面有（左滑）：

"startUrl":["https://www.baidu.com/s?wd=赚钱","https://www.baidu.com/s?wd=创业"]

这样一段内容，即使不会代码我们也可以想明白，刚才加入的两个start url在代码里是以"url","url"这样的形式体现的。

所以可以想象到，当我们再新增一个url的时候，它应该会是：

"startUrl":["https://www.baidu.com/s?wd=赚钱","https://www.baidu.com/s?wd=创业","https://www.baidu.com/s?wd=发财"]

我们现在把[]里面的链接替换进去：

修改start url

全选复制并点击“Sitemaps”：

复制工程代码

然后把我们刚才配置的整个工程删除掉：

删除工程

点击“create new sitemap”并选择“import sitemap”（导入）：

导入工程

把我们刚才复制的代码黏贴进去，并为工程命名，可以和刚才一样，然后保存工程：

保存工程

这个时候我们再同样刚才的步骤进入工程选择“edit metadata”，可以看到：

start url

start url已经在我们修改了代码后也跟着增加了一个url。

通过修改固定的代码那太简单了，不用一个个点，速度快还方便，那现在的问题又转移了，如何自动生成一批url？

我们当下的url格式是：

https://www.baidu.com/s?wd=赚钱

显然我们要把想拓词的种子词批量组合到链接后面，这是一点。

其次在web scraper的代码里，start url的格式是固定的：

"startUrl":["https://www.baidu.com/s?wd=赚钱","https://www.baidu.com/s?wd=创业","https://www.baidu.com/s?wd=发财"]

在代码眼里1就是1，一点都不马虎。

我们要填上[]里面的内容，其他不用管，所以每个url前后还得用""号(英文状态下输入)包起来，并且所有url之间用,号连接，最后把这一片放到[]里，这个事就成了。

我们先来看看方案1：

如上图：我们把关键词放到A列，把固定的url部分放到B列（复制填满，与关键词数一致），其中作为变量的参数部分用*代替，然后在C列输入：

=SUBSTITUTE(B1,"*",A1)

回车后就看到C1的值已经组合起来了，是我们要的：

点击+号，自动填充即可：

url搞定，现在考虑如何链接起来，同时每一个前后还要""号。

excel有个神奇功能，我们随便点击一个空的单元格，输入：=

然后连选所有url，可以看到：

这个时候，直接按下键盘的F9，目标单元格的内容就自动变成：

这是Excel将单元格转为数组的一个方式，转换后的格式与我们需要的一模一样，只是中间用;连接，这很简单，在Excel或者txt里替换成,即可。

鼠标单机该单元格，把{}里的内容复制出来，然后就可以返回刚才的步骤，放入start url里：

再重复刚才的步骤，复制所有代码、删除、新建导入，现在我们就可以看到：

我们刚才批量组合出来的url已经放进工程里了，接下来运行程序，这是收集完的数据：

另外，我们刚才介绍的时候url中都带中文：

https://www.baidu.com/s?wd=赚钱

这要看网站对于中文是否支持，一般情况下网站的url里带中文的值都是以utf-8或者gb2312的形式，基本是utf-8，这是url编码。

所以“赚钱”这两个字转为utf-8是：%e8%b5%9a%e9%92%b1

刚才的链接应该是：

https://www.baidu.com/s?wd=%e8%b5%9a%e9%92%b1

访问这条链接就相当于在百度里搜索“赚钱”，是一样的，百度也可以直接输入中文，但是一般是转化为utf-8的形式。

是中文还是编码，只需要在浏览器的地址栏里把url复制出来：

随便黏贴到一个地方，是编码的部分就会自己变成编码：

是编码的话是什么编码，那就需要转换一下，这里推荐：

站长工具

百度一搜第一名就是，可以很方便的批量编码和解码：

如果你遇到要转码，只需要把Excel里的关键词复制黏贴到这个工具里，编码一下再替换回去，其他操作是一样的：

但是接下来有个尴尬的地方，利用Excel转换这个方式有个缺陷：

使用F9将单元格转换为数组形式这个功能对内容长度有限制，我尝试转换1000条链接发现不行，具体能有多少条还看单条url的长度。

有个很委屈的方式是分批次处理再把每批次合在一起，不是太长的链接小几百次应该是可以的。

这是没有办法的，Excel的很多公式或功能我也是现搜现用，应该用vba是可以搞定，但这就涉及到编程，如果有哪位朋友有好的公式也请告诉我一下。

其实这个功能用代码不过是一句话的事情：

print(','.join(['"https://www.baidu.com/s?wd=%s"' % keyword for keyword in keyword_list]))

但我是想既然是不写代码的教程尽可能不要涉及，但又没办法，所以我顺手写了个脚本可以批量转换，没有限制，脚本打开就能用。

解决了操作层面的问题，挖词思路就很简单了：

1：准备一批种子词

2：使用上诉流程把目标版块的长尾词收集回来

3：把收集回来的长尾词作为新的种子词重复这个步骤

渠道的选择就看我们需要多少数据了，各个搜索引擎或者有搜索引擎的地方都可以去研究，最后对数据去重即可。

现在，我们把刚才的流程梳理一遍，会发现实在太简单，作为一名SEOer或者SEMer，需要的时候，简单几步为自己的工作收集一批长尾词是分分钟就可以开始的事情，一次配置长久使用。

场景二：结构化数据

我们刚才使用这个方式去挖掘了搜索引擎的长尾词，但是长尾词是一种单一的数据，在收集数据的时候，往往是结构化的，也就是一条信息有各种不同的列。

除了在选择器的配置上多了几步之外（要选中各种字段），数据不一定是像上面挖掘长尾词那样清清楚楚的摆在一个位置，它有层级和深浅，所以还得简单分析下数据在web端的形式，进而思考挖掘策略。

ps：上一个版块已经把操作逻辑讲解了一遍，接下去的版块在工具使用上都是一样的，所以重在体验挖掘思路。

假设我们现在准备经营知乎好物，领域是“家用电器”，希望收集一份这个领域的大V数据，了解下他们的粉丝数、发文数等，作为竞争程度的参考。

立马可以想到的是：

知乎搜索用户

但是从搜索这里挖掘用户一是很多做这个领域的并不一定取“家用电器”相关的名称，其次系统并不一定按照大V的某个数据指标来返回，所以也不一定是大V。

根据现有的web数据思考相对科学的挖掘策略这是经常要碰到的过程。

在知乎有“话题”这个版块，其实话题相当于与领域，同时话题版块下还有：

话题精华TOP

这里是按照点赞数排序的，能在这里获得高赞的用户，整体数据都不会太差，另外虽然精华只有展示前1000个，但是“家用电器”这个领域的话题并不止这个，知乎话题旁边还有：

父子话题

通过这个话题结构我们还可以拿到很多的相关话题：

话题结构

如果他是一个大V没理由不出现在这里的各种相关话题。

把我们需要的子话题展开，再使用web scraper的选择器点选每一个需要的话题（这里只有一页，不一定使用web scraper，能快速拿到都可以）：

这一步的目的是为了收集话题ID。

https://www.zhihu.com/topic/话题ID/top-answers

这是知乎话题top精华的url，中间的话题ID是一串数字，比如123456，我们把这个数字当成刚才的搜索词，道理就一样了。

收集各种ID，使用刚才同样的逻辑，这样就可以采集同领域不同话题下的所有精华数据里的用户ID：

用户ID

用户ID的怎么选出来，这点不懂基础的朋友看开头提到的文章即可。

只是在列表选择时要记得：

知乎一般都是下拉加载新数据而不是翻页，精华版块也是，所以要选择“element scroll down”，这样工具会自动下拉。

使用“element scroll down”，一般要控制数量，知乎的精华最多是1000条，所以要加上“:nth-of-type(-n+1000)”，里面的1000是可以替换其他数值的。

这样一来我们就获得了目标用户数据：

知乎用户主页的url规则是：

https://www.zhihu.com/people/xxxxxx，机构是org

xxxx是系统生成或用户自定义过的字符，这一段代表用户ID

我们上面已经收集了目标用户ID了，那自然而然的我们使用刚才增加start url的方式就可以开始收集了，不需要再修改组合url，因为每一条都是不同的了。

剩下的就看我们需要用户主页里的什么数据，回答数、文章数、各种数，甚至包括简介，点选一下即可。

收集下来的数据类似：

回顾一下：

1：我们先分析了什么地方可以大量收集我们的目标数据（用户ID）

2：又收集了同领域各种不同的话题ID

3：组合不同的话题ID，生成大量话题精华的url

4：用这些url采集到每一个用户的ID

5：再使用这些用户ID采集每一个用户的相关数据

我们把这两个场景结合一下，你会发现身在公司上班也好，或者为自己工作也好，这个简单的技能足以应对很多数据收集场景，能解决很多问题。

小运用

360的搜索广告是很有意思的，这在业内大家都很清楚，有意思的地方在于：但凡你在百度没办法开户的行业，只要不明确违法，360的朋友都会想方设法帮你搞定！

同时360的推送机制也是层出不穷，有基于此我们能轻易在360搜索上发现各种奇奇怪怪、你不相信的业务。

我们在搜索引擎一般会看到如下版块：

参考资料

[1]

从付费行为里给自己找一个兼职当作副业: https://zhuanlan.zhihu.com/p/195582033

[2]

web scraper: https://www.webscraper.io/

[3]

文档文献: https://www.webscraper.io/documentation

[4]

css选择器: https://www.runoob.com/cssref/css-selectors.html

热门搜索

技能篇：想要挖掘商机，先学会这个能力

前言

问题

场景一：搜索引擎挖词

场景二：结构化数据

小运用

相关资源

参考资料