Python结构化人名-细说如何利用结构化人名实现变现(完结)

本篇是写利用爬虫技术来结构化人物做网站挣网盟收入的第三篇,也是完结篇,这篇主要写我是怎么思考的,是如何分析到这个领域的, 我会再举一个我思考过的实例。

结构化人名的搜索流量有这么大吗?

Yes. 非常大,Linkedin大家应该都知道吧,美国一个职业社交网站,简单理解就是个人简历/职业信息网站。我曾经看到Linkedin做增长黑客的一篇报道。

爬虫挣钱系列-(完结篇)结构化人名挣钱第三篇

里面提到了Linkedin为了增加搜索流量,把用户的个人档案页面开放给搜索引擎索引,此举让Linkedin搜索流量倍增,让我明白了人名这一块的搜索流量原来如此大, 这么多人搜索。在这之前我的认知是只有明星,大人物才会有人在网上搜索,其实小人物(相对的),公司小领导,乃至平常百姓都会有人在网上搜索。

爬虫挣钱系列-(完结篇)结构化人名挣钱第三篇

上图是Linkedin一个月的访问量是10亿,换算成每天是3千万。

爬虫挣钱系列-(完结篇)结构化人名挣钱第三篇

上图是Linkedin的流量来源占比,搜索流量占23.7%,可以想象这个流量有多么巨大。

 

由此我花了很多时间去研究这块流量的挣钱机会,发现还有很多人物是没有百度百科,linkedin的(如果百度百科或linkedin上已经有这些人物了,你做同样的人物有搜索排名的概率很小),他们的信息都零星散落在一些新闻报道,人物采访,会议的嘉宾介绍上,需要利用爬虫手段把这些网页全部抓回来存储好,然后研究使用各种文本结构化技术来提取相关跟人物相关的信息。(这个过程很痛苦,没毅力的就算了)。

 

这让我结构化了小十万人名,网站流量做到小四万,每年10万左右的网盟收入。

 

举个结构化人名的例子:

之前疫(苗)问题的长春[生物]董事长:高-俊芳,我之前也不知道这么个人,也不知道什么时候结构化她的信息,事情发生第二天早上我例行查看网站流量,发现流量异常的高,都是在搜索她的名字。那天她的流量超过2万,那天中午才有人在百度百科编辑上她的百科信息。

 

爬虫挣钱系列-(完结篇)结构化人名挣钱第三篇

 

再说一个结构化人名的机会

这个我没有实践过,是分析的时候曾经想过。我把视角一直放在国内,一直在结构化国内的人名,在中国有这种搜索行为,在国外也会有这种搜索人名的行为。为何不去做一个英语网站,关于人物介绍的英语网站呢?寻找还没有维基百科的人物。而且英语比中文的文本处理要容易,至少不需要中文分词,英语单词间都是空格隔开的。

 

还有就是挣google adsense(类似百度网盟),挣的是美金,美金跟人名币是1:6.7的关系,也就是同样情况下,你在国内百度网盟一年挣10万RMB,做google是10万美刀(合67万人民币),有想法的可以深入研究下这块的人名机会。

 

需要运用到的技术

1.不错的爬虫抓取技术(抓网页,抓微博,抓微信公众号)

 

2.不错的文本结构化技术

对中文做文本处理,懂点自然语言处理(nlp)是必须的。

 

3.Web开发技术

无论是自己写网站还是使用开源博客系统,至少要懂得怎么配置nginx(web服务器),linux,mysql,python(或php)

 

4.搜索引擎优化技巧

各大搜索引擎都提供官方的优化指南,理解并按照官方规则实施即可,其实我没有过度关注搜索优化,因为你提供了搜索引擎缺失的内容,它是喜欢的,你需要有耐心等待有搜索排名的那一刻。

 

整合数据做网站挣搜索流量的思考

1.结构化人名只是整合数据的一个方向之一,而且是比较累的,相信还有其他领域是有这个机会的,只是我的视野还没有看到。整合数据做网站不是做垃圾网站,不是做拷贝复制网站,是要找到搜索引擎还缺失的内容,去弥补这块内容,你的网站满足了搜索引擎,它自然会给你的网站有搜索排名。

 

典型的如企业工商信息查询,官方一直是有企业工商信息网站的,但是信息很分散,另一个就是搜索引擎爬虫很难爬取这类官方网站,这给了天眼查/企查查机会,把企业工商信息全部结构化出来很方便用户查阅,每天的搜索流量几十万。

 

2.结构化的规模一定要大才有机会,因为这些的每一个搜索量都非常小,只有结构化足够规模才能积少成多。

 

未经允许不得转载:996ICU » Python结构化人名-细说如何利用结构化人名实现变现(完结)

赞 (0) 打赏