Python结构化人名-细说如何利用结构化人名实现变现

开年第一篇以挣钱话题开篇,祝朋友们19年都能开拓自己的被动收入渠道。本来想写个跟情人节相关的文章,写了又删,又写又删,觉得没啥意义,所以还是写Python技术和爬虫挣钱的文章吧。

 

看过我过往文章的老朋友知道我的一个写作方向是爬虫挣钱系列,今年会持续输出。文章里说的事例有的是我亲身实践过,比如接爬虫外包项目,比如数据整合做网站流量,挣百度网盟,比如爬虫技术去做增长黑客。有的事例是我基于上述经验而思索的方向,没有亲自实践。

 

今天这篇是我亲自实践过,每年能带来近10万被动收入的数据整合机会结构化人名。

 

爬虫挣钱系列:数据整合之--结构化人名的机会

 

 

什么叫结构化人名:

这个世界上有很多名人,红人,企业高管,各行业,各垂直领域,有很多很多。只要有一点名气就会有人在搜索引擎上输入你的名字,检索你的信息。每天这些搜索流量是高得可怕。

但是这些流量大头都被百度百科截获了,比如娱乐,体育,企业高管这些名人。

 

爬虫挣钱系列:数据整合之--结构化人名的机会

 

上图是一些名人的百度指数,都是几千几万的搜索量。

 

这些人都在百度百科里有词条了,那我们还有机会吗?

有,其实还有很多很多小名人,他们是没有百度百科的,用户在百度上搜索这些人名,只能在很多张网页中看到他们的只言片语,他们的信息都散落在各个网页里,需要使用技术手段把这些人物结构化出来,把他们的发言,简介等个人相关信息结构化出来做成一张张网页。

 

哪些人物还有这种结构化机会?

大公司的基中层管理者,网络小V(相对于大V来说),小公司的高级管理者,垂直领域的知名者。举几个例子:

吴翰清,你知道是谁吗?

他是阿里云首席科学家,人称道哥,他是没有百度百科的。

看看他的百度指数:

 

爬虫挣钱系列:数据整合之--结构化人名的机会

 

每天1000多人搜索。

 

再比如曹政,网络名caoz,知名网络大V,他也是没有百度百科的。他没有百度指数,但是从我的百度流量统计数据看,每天也有上百人搜索他。

 

爬虫挣钱系列:数据整合之--结构化人名的机会

 

上图是我的百度统计的搜索词流量的部分截图,你可以看到还有好些人名,他们都是各个领域的小有名气者。每天都有人在百度上搜索他们的名字。

PS:曹政的公众号:caoz ,的文章干货满满,很能开拓运营视野和知识边界。

 

结构化这些人名之后干什么?

做成网站,做成一个页面简单的人物介绍网站,一个人物一张网页,网页里是这个人物的个人介绍相关内容(这些是靠技术结构化出来的)。以便于被百度搜录,让网站有搜索流量进入,每天挣百度网盟费。

 

这是在做垃圾网站吗?

No. 用户搜索这些人名是想了解他们的信息,而这些信息之前都是散落在不同地方的,用户在搜索引擎里要一张张网页点击寻找,查阅是很繁琐的,你把这些信息聚合在一起一次性展示给用户,是节约用户时间,搜索引擎也是很欢迎这样做的。

 

涉及到的知识?

爬虫技术,数据结构化,自然语言处理,Web知识,简单网站运营技巧。

 

这是考验你各方面抓取能力的,你需要写一个不错的爬虫程序去大量抓取网页;

你需要运用各种手段(正则,bsxpath等)去抽取千奇百怪的网页格式数据;

还需要一点自然语言处理技术来提高结构化的准确度和效率。

无论是自己搭建简易网站还是使用wp等博客系统,都需要对Web知识和网站运营有一点了解。

 

如何抓取?

抓取网页需要入口,需要准备一些关键字,比如:嘉宾介绍、高管介绍,作者简介、公司董事等等关键词借助百度,google,微信,微博等搜索渠道,过滤出可能的网页,然后对这些网页实施抓取和结构化。结构化是超级繁琐的事情。

 

要结构化多大量的人名?

你需要大量结构化至少数十万条人名才能每天有过万的流量,这个没办法靠人工,一个一个去网页上找然后整理编辑,因为这些人名的每天搜索量很小,靠人工每天去编辑几十条,要到猴年马月去了。我结构化了大约10万个人名,每天有4IP左右,IP对应的百度网盟收入是:100:1的关系。

 

爬虫挣钱系列:数据整合之--结构化人名的机会

 

为什么我要说这些?

1.我写的结合爬虫挣钱系列文章是一种思路,需要同时俱备不错的技术能力和流量运营思维。有这个技术的人可能不懂得如何运营,有这个流量视野的人可能技术上不行。

 

2.筑巢引凤,我领悟到了这里面的流量机会,如果能把人名结构化规模扩大到百万级,每年的网盟收入就会有百万级。

未经允许不得转载:996ICU » Python结构化人名-细说如何利用结构化人名实现变现

赞 (0) 打赏