你的位置:韬贝SEO > SEO案例 >正文

SEO如何处理采集内容

分类:SEO案例发布:2018-04-02 13:03

    说道处理采集内容的两个先后步骤:

  对原始内容的处理

  对处理后内容进行组织

  第一块,对原始内容的处理,上篇主要针对html源码信息的处理,但没说对文本信息该如何处理。

  下面分享下本渣渣曾经使用的一些,对采集内容文本的处理方式…

  对原始采集内容文本信息的处理

  对元数据的处理,这边忽略,因为元数据主要是添加逻辑上的映射。比如我一个企业黄页的网站,去抓了“XXX公司的规模、商标、年营业额、法人信息”等元数据,我需将这些元数据与本站库内对应的企业做个关联即可。因为元数据属于短文本,即采即上,无需做重复性方面的处理。


如果采集内容是连续大段的长文本,为了保证SEO效果,对html源码处理后,也可以进行文本的处理。

  文本信息处理,包括标题和正文两部分(不考虑人工修改,只考虑批量处理)

  标题

  要我说SEO最重要的点、最最核心的点,就是“词”,其他的SEO手法、技巧都是在“选对词”的基础上才有大效果。

  最终目的是让标题中出现用户可能会搜索的词,详情页标题中的词最好是有一点点搜索量的、百度搜索结果少的,而不是热词、谁都抢着做的词。

  首先一个网页标题出现的关键词越热门,被收录的几率越低,这是可以肯定的,所以不要58赶集这些大站点做啥词,一个采集站也跟着做,除非本身权重高,否则基本没戏的。

  其次,在垂直行业领域和充满个性化搜索内容的领域,竞争小且有些流量的词可以挖出很多的。垂直领域的这些词不容易找,因为需要对行业的理解,仅靠SEO工具不容易发现。

  个性化搜索内容领域,如编程开发、娱乐八卦等,这类领域永远充满个性化的搜索词,随着时间的推移会源源不断的产生新的搜索行为,只要搜索引擎不完蛋,这个领域就永远充满搜索流量,所以仔细观察,好些活的挺长的流量站,内容选型大多符合这个特性,不像“招聘、二手车”之类的行业,用户的搜索行为基本是不变的,几个站都抢同一批词,都饱和白热化了,流量自然不好做。

  采集标题如何插入搜索词

  如果采集的目标网站,他们的标题本身就不符合SEO,比如抓了一堆新闻标题,如何让标题尽可能的集中用户可能会搜的词?本渣渣之前尝试过这些方法:

  方法一:精简原始标题

  步骤如下:

  对原始标题分词

  去除停止词

  获取词缀词性

  去除修饰词,如形容词、副词、介词…,保留原标题主谓宾,获取句子主干

  基于python的jieba模块实现,要删除的修饰词可以预先分析大量的标题来提取,追加到字典中。github有现成的提取句子主干的轮子,好像用的nltk。

  貌似1688部分产品页的title就是这么搞的,把用户发布的产品名中一些无关大雅的词缀干掉,提取主干放到title标签中。

  方法二:插入搜索词

  步骤如下:

  搭建xunsearch或其他的开源搜索,对采集标题创建索引

  用提前准保好的搜索词(就是要做的那些词)依次到搜索接口中搜索

  对搜索结果中出现的标题前方插入当前搜索词

  比如原标题是:“斗鱼美女主播直播睡觉一夜狂澜20万”…..,我要做的词有“斗鱼美女直播”,则标题前插入关键词:“[斗鱼美女直播]斗鱼美女主播直播睡觉一夜狂澜20万”

  当然也可以:“{强行插入的搜索词}{精简后的原始标题}”

  方法三:插入当前标题已包含搜索词的衍生词、相关搜索词

  步骤如下:

  抓取标题已包含搜索词的百度相关搜索或下拉框,或者通过Word2vec算法分析其他抓取内容正文,获取该搜索词的同义词..

  标题中插入相关搜索或下拉框的词

  如:”[{百度相关搜索词1}]{精简标题}”、“[{下拉框推荐词1}{原始标题}]”……相互组合啦……

  正文

  正文的处理主要是针对重复性,尽量降低与原始内容的相似性,本渣渣用过以下方法:

  正文开头、结尾处插入随机文本

  比如插入当前标题包含搜索词的相关搜索词:“本文包含其他主题:{相关搜索词1}  {相关搜索词2}  {相关搜索词3}…”

  比如插入当前页面的历史referer词,“用户曾经通过 {referer词1}  {referer词2}  {referer词3}…搜索到本页”

  比如提前准备一些能够通用的文本模板,随机调用

  修改正文内容

  基于pagerank提取关键词,textrank算法提取文本摘要,其实就是把正文内容精简,提取主干信息,可能最终获得原始内容50%左右的字数。

  为了防止字数过少,可以提前用k-means和tfidf,找出当前文章的相似文章,可以提取它们正文字数最长的段落的摘要,加到当前的文章中用作字数上的补全。

  这样基本上文章是读的通的,符合中文语法,且原始正文是以词缀为粒度的删减,所以一定程度能够减少搜索引擎三字一判的重复性识别,对用户和搜索引擎都相对友好,虽然肯定比不上人工编辑的质量,但比市面上粗暴的同义词替换、段落增删的软件比起来好很多。比中文原封不动不改好一些。


 

有基友问采集的内容怎么分类,抓取的词怎么分类。其实很简单,做个小网站就都明白了,本渣渣在此科普下

  采集内容清洗后是要入库的,入库就得有逻辑,所以在采集一开始就得想到这点,并设计采集到上线的流程

  每个站点情况都不一样,但最最基础的模式类似下面这种:

确定要做的主题,从这个主题里选几个词根,一个词根或几个词根就代表一个内容分类

  用词跟去扩展,挖出要做的流量词

  挖出来的词,依次去抓取对应的内容

  如上图,比方说我设定1个词根,从这个词根挖出10个扩展词,每个扩展词分别抓20篇内容,那么在这个词根(内容主题)下,我有100篇内容可以上线。那要上线的页面一般分两个:

  详情页面

  聚合页面

  那么,详情页面就是抓过来的100篇内容;聚合页面就是由词根挖出来的10个扩展词,每个扩展词生成一个列表页或其他形式的聚合页面,页面内容就是对应这个词采集的20篇内容。

  数据表格式

  所以,上线起码要有3个表,用mysql举例,要是用mongodb啥的非关系型数据库自己转化一下

  每个扩展词都标记所属频道的id,这样上线的时候就可以做同频道扩展词的相互推荐

  另外可以对每个扩展词,通过竞争度、搜索量、挖词渠道质量、收录、排名等指标设定这个词的优先级,优先级高的词在站内给予更多的链接支持

  这个字段可以弄成动态的,比方说上线后每周查一遍排名,凡是在第二页、第三页的关键词优先级都调整到最高,提供更多的链接支持冲到第一页去…

  相关词就是这类词的同义词,或者干脆抓这个词的相关搜索,把这些词嵌入到页面中,万一被用户搜索命中就能跑到首页呢…

  其他根据具体需求设置调整扩展词表的字段,全靠创新,没固定的套路

  每个文章都映射所属扩展词id和所属频道

  举个实例

  以上是个最简单的模式,可以用这个模式根据网站本身的情况去套,比方说我有个卖音乐设备的站,网站主要内容就是围绕产品或品牌的产品信息。

  音乐设备行业固定搜索词不多,但深挖的话有能找到不少个性化的搜索词,比如“XX鼓简单曲子” “xxx和什么搭配好”…这种搜索行为只能基于某个产品或某个品牌才会产生这种搜索,不能像“XX价格”、“XX测评”适用于所有产品和品牌,可以批量上页面的。

  但又想拿到这些个性化搜索词的流量怎么办?没办法通过改现有页面标题来覆盖,那就只能每个词生成新页面来覆盖了,而网站主要内容是产品信息,无法覆盖这种个性化搜索词,那就只能去采集喽

  那么根据上图的套路,那么词根就是每个产品和品牌,用这些词去各种渠道找流量词,找到流量词再去大平台抓对应的内容。

  到了上线阶段,理想情况下是每个扩展词采集20篇内容,这样生成的聚合页都有20条信息(Zero大神测试过,列表页信息条数在20条的时候,获得首页排名的概率比其他条数要高),但理想很美好,现实很残酷,并不可能所有的扩展词都能抓到20条内容,那么怎么办?

  每个扩展词都有所属词根的,而每个所属词根在站内都是有产品信息内容的,所以一个词根下的扩展词,在数据库内除了有采集过来的内容,也有原先就有的产品信息内容,这些两类内容虽然说得不是一个词,但是都在同一个主题下,都是属于某个品牌或产品的。一个扩展词只采集到3条内容,生成新页面则是个空短页面,不会被收录,那么可以再调用这个扩展词所属词根的产品信息来补全,以此来提升页面质量


2017最具性价比SEO:按天收费!有排名才扣费,上一天扣一天费用
Copyright © 2010-2018 韬贝SEO (www.hft2010.com) 版权所有 ICP备15021152号-1号
本站关键词:关键词排名优化 网站关键字优化排名 排名优化支持:韬贝SEO
那艾认证