数据处理篇:从大量广告文案中能提取出什么?

其他杂项26字数 3215阅读10分43秒阅读模式

原文链接: https://mp.weixin.qq.com/s?__biz=MzU5OTE2MDM3Ng==&mid=224748...

原创o君言o 君言戏语

这是一条竞价广告标题文案:

小吃加盟-特色小吃开店的费用及流程

以我们的常识来看,可以很轻易的理解:这是一则关于小吃的广告,小吃这个词是这条文案的核心词汇。

但这是我们人脑来看,如果让程序来识别呢?毕竟我们有近1000万的竞价广告标题要处理。

那么这篇文章我们利用另一种思路:

借助关联数据。

如上图,广告是基于搜索词(关键词)搜索得到的,所以搜索词广告标题之间会存在对应关系。

我们会发现,搜索词广告标题之间:有个别词汇相同,进而带来“飘红”效果。

这是基于竞价广告的“匹配规则”:搜索词和广告标题必然(几乎)会有重叠词汇,这个词汇往往是核心词汇

我们显然可以利用这个规则:搜索词广告标题是一组对应关系的数据,它们之间存在关联性;

所以能同时出现在搜索词广告标题这两个字段的词汇,视为核心词汇,是它将两者关联起来。

那么在美食小吃培训小吃加盟-特色小吃开店的费用及流程这样一组数据里,只有小吃这个词是同时出现在两边的;

它就是核心的重要词汇,可以起到描述主要业务、区分其他业务的作用。

一个竞价广告,不止有标题,还有描述:

将:搜索词广告标题广告描述等三个字段组合起来作为一组关联对应的数据,

再优化上面的逻辑:能同时出现在三个字段的词汇就是最重要的核心词汇。

当我们在搜索引擎里搜索一个关键词时,可以得到1-N条广告,进而得到这样一张表:

当我们搜索很多关键词并做统计之后,就可以得到这样的一份数据:

这三个字段互为关联数据,是一一对应的关系。

再利用我们上面的逻辑,就可以大量计算每一条广告的核心词汇,再得到这样一份数据:

第一列的核心词汇可以直观的告诉你这是一条关于什么业务的广告。

如果我们在Excel里以第一列排序,可以很轻松的把相关业务的广告聚集在一起:

这就实现了聚类的效果。

这个逻辑是可以适用在很多数据上的处理的,比如很多地方存在标题(昵称)-描述这样的结构数据。

核心的逻辑虽然简单,但是技术实现起来,还需要很多的细节处理;文末再做说明。

我们有积累近千万的广告数据,这里面可以看到十几年来成千上万的各种各样的广告业务。

最终我们得到的各种核心词汇里,有主要三种类型:

1:产品名称

比如上面罗列的这些词汇,都是历年在竞价广告里风靡一时的暴利产品。

这些词汇是很直接的产品名称,一般作为参考,因为很多产品早已是红海到甚至赚不了钱了。

PS:你可能会发现,好像有些行业或产品没看到,比如典型的H五类、丰Jzhuang、医疗类等等。

那是因为这些我连考虑都不考虑,所以我过滤掉了这些行业,包括旅游之类的大热门、传统机械业务等。

当然,也不要想当然的以为这些东西早就听过了,现在根本不让做、根本不赚钱了。

实际上其中有些词你拿去搜索,可能会颠覆你的认知:

当你在PC端搜索AJ,你可能看不到什么,但是你到手机端搜索看看:

如果你有意挖掘,起码可以找到十几家在投的广告,你猜他们赚不赚钱呢。

2:直接业务

这上面是否有你意想不到的、没有见过的业务呢?

你完全可以过后把这些词汇直接拿到搜索引擎搜索看看,每一个词都有对应的广告,他们一直在投放着。

研究一下他们的广告页面,加个微信看看、下载个程序试试,你就知道他们在赚什么钱。

这里面有不少人家的自动赚钱机器,连售后维护都不需要。

3:热门词根

这些词汇并不是直接的产品或业务,但是基于他们可以关联出很多的产品和业务。

可不要小看这些词汇,你比如下载这个词,在会员社群里,之前有位成员就发过一个案例:

在百度搜索Python下载,可以看到有几个广告,点击广告进入页面之后:

可以下载exe程序来安装,这是安装之后的界面:

激活就要收钱了:

如果你关掉程序它还会给你10块优惠券,现在支付18块就可以“激活”安装程序,这就是还个价。

然而实际上,这个并不是Python安装包的官方下载渠道,Python官方是有网站的:

在这里面可以免费下载所有版本的安装程序,唯一缺点是:速度慢一点。

你说他这样做,有钱赚吗?明明往下拉就能看到Python官方网站,谁会这么傻?

不清楚,但是这个广告起码可以追溯到一年前,也就是至少投放了一年多了。

这是Python下载这个关键词的百度官方显示的搜索量:

光PC端一天接近2000的搜索量(猜测是综合数据),很高了。

PS:以我个人推测,可以赚,但倒也没有想象中的夸张,转化可能没有那么好;实际没有跑过,不清楚ROI情况。

于此类似的,我之前在知乎也看到了相同案例:

仅站在商业角度来看,他们这种发现商机的能力是优秀的

激活零基础充值会员 …… 等等很多词根,搜索下去都会牵扯出很多的业务出来。

那么如何使用这些热门词根呢?

如果你有百度竞价的官方工具:关键词规划师(注册开户才有),那可以直接拿这些词根去搜索:

先根据“点击指导价”降序,然后结合“月均搜索量”来筛选,把看到的关键词拿去搜索看看有没有广告,进而再做下一步的广告调查。

其次可以使用5118这个工具:

在5118的拓词工具里拓展这个词,然后根据“竞价公司数量”降序:

你就可以看到很多有广告的关键词,点击“竞价公司数量”这一列相应的数字,来到下图:

在这里就可以看到有什么广告。

PS:由于淘宝、京东等大平台以及一些头部平台、包括百度的子产品(文库、爱采购等等)会采用通投的策略,导致很多词都有他们的广告:

他们的广告不需要看。

我总共统计出了几十万的核心词汇.

当然,这里面也包含小部分错误数据,这是难免的;

此外,有些数据也存在重合,比如小吃培训小吃加盟,本质上基本是一样的业务。

不过毕竟是将千万级的数据转化为几十万的词汇,这已经极大的提升了效率。

我在浏览了大概1W个的词汇后,梳理了一份数据,包含:产品、业务、词根,总计200个;这些基本是我特意挑选的。

它们有的有借鉴价值,有的是我觉得一定能赚钱的、有的是可以进一步挖掘更多业务的,并且去除了没有参考价值的业务或产品,基本都在投放着。

越往下挖掘,可以看到的是更加细分和冷门的业务,所以这些数据还有待慢慢研究。

VIP会员可以按照我们平时领取资源的方式去领取这份数据。

其他朋友,但凡有在公众号支持过的,哪怕只是赞赏过,也可以加我微信领取,感谢!

对技术层面的疑问、广告业务有不理解的地方,也可以留言或私信。

正文结束!

接下来的内容面向想要自己折腾的技术朋友,罗列一些细节要点;非技术人员可以不看。

正确分词

首先是只对广告标题进行分词,因为我们需要的核心词汇必然出现在广告标题,但不百分百出现在关键词或描述。

关键词和描述只用于判断来自标题的每个分词是否包含存在,存在则+1,三者同时存在最多得分为3;得3分的词汇则可能是核心词汇。

有时候并一定能得3分,但一般至少有2分。

其次是不能采用类似jieba分词这样的方案,因为广告五花八门,很多词汇对于jieba词库来说都是陌生的。

应该采用我以前提到过的片段分割的策略:

最短两个字,最长等于文本(标题)总长度-1;这样可以确保得到每一个可能正确的词汇或词组。

标点符号可以先去除再分割。

建立否词

对每一个候选词汇(每一个分割后的文本片段)做过滤,过滤掉:

城市词、省份词、询价词、疑问词、停止词,以及其他无实意词,比如广告文案里经常出现的诸如:优质、专属、诚意、满意 等等。

只需要对大量广告标题做下分词统计(jieba),就可以得到很多这种无实意的常见词。

另外,一般过滤单字,不用单字做为核心词汇。

优选更长文本

小吃小吃加小吃加盟,这三个文本片段可能都得到3分,这是可能的。

那么优先选择最长的,这往往更完整,更具备描述性。

核心词汇为空

可能吗,也可能,特别是一些敏感行业,只买词,但是由于平台限制,文案描述不可以出现某些词。

这种相对少,可以单独做标记拎出来以后看。

以上是所有计算当中比较重要的策略,其他更好的条件、规则,可以自行加入,让生成的结果更优。

 
  • 本文由 asdfasd 发表于 2025-02-1314:10:42
  • 转载请务必保留本文链接:http://wp.fangfa.me/other-note/%e6%95%b0%e6%8d%ae%e5%a4%84%e7%90%86%e7%af%87%ef%bc%9a%e4%bb%8e%e5%a4%a7%e9%87%8f%e5%b9%bf%e5%91%8a%e6%96%87%e6%a1%88%e4%b8%ad%e8%83%bd%e6%8f%90%e5%8f%96%e5%87%ba%e4%bb%80%e4%b9%88%ef%bc%9f.html