飓风算法2.0——严厉打击恶劣采集行为
百度搜索于2017年7月4日发布飓风算法,严厉打击恶劣采集问题,并在2018年9月13日公布飓风算法升级为2.0版本。
飓风算法2.0主要打击以下四类恶劣采集行为:
1.存在大量从其他站点或公众号等内容生产方采集、搬运而来的内容,信息未经整合,排版混乱,文章可读性差,有明显采集痕迹,对用户无任何增益价值。
问题示例1:文章有明显采集痕迹
2.存在多段文章拼接的内容,文章逻辑性差,无法满足用户需求,阅读体验差。
问题示例2:文章内容拼接
3.站点内存在大量采集内容,网站自身的内容生产力极差。
4.站点内存在大量与本站主题无关的采集内容,领域专注度差,恶意获取流量。例如:科技网站采集大量娱乐八卦、社会新闻等情况。
问题示例3:学习类站点发布美食类内容
1.2 细雨算法——针对B2B领域的受益行为
2018年6月,百度搜索发布细雨算法,针对B2B行业的网站受益问题进行规范和引导。
细雨算法主要针对以下问题:
1.页面标题作弊及误导,主要有下面四类:
(1)非公司官网,title中包含“官网”等字样,误导搜索用户认为是官网
问题示例4:
(2)页面title中堆砌相近关键词;
问题示例5:
(3)页面title中穿插火星文字或者特殊符号,影响正常阅读;
问题示例6:
(4) 页面title中穿插受益方式。
问题示例7:
2.页面正文内容中存在受益信息,主要包括以下三类问题:
(1)正文内容不完整,频繁穿插变形的受益方式。
具体是指:正文内容为无价值内容的拼接或者正文内容不完整,同时采用“英文字母”、“汉字谐音”、“特殊符合”、“全角符合”等方式代替联系方式,穿插在正文内容中。
举例:5992八⑧⑧⑧
举例:13800138000
问题示例8:
(2)文章的配图图片中存在受益联系方式。
具体是指:图片中联系方式水印面积较大,严重损害浏览体验。
问题示例9:
(3)正文中商品或者服务信息内容为乱采集、拼接而成、排版混乱、用户从页面中无法获得商品或者服务信息。
问题示例10:
1.3 蓝天算法——严厉打击售卖软文、目录行为
2016年11月,百度搜索推出蓝天算法,持续打击新闻类站点售卖软文、目录的行为,还用户一片搜索蓝天。被“蓝天算法”所覆盖的站点将会被降低其在百度搜索系统中的评价。
问题示例11:
关于蓝天算法的更多信息请参考:
2016.11.21 百度推出蓝天算法,严厉打击新闻类站点售卖目录
1.4 极光算法——倡导重视落地页时间规范
2018年5月底,百度搜索上线极光算法,旨在倡导资源方重视网站落地页时间规范。落地页时间因子是百度搜索判断网站收录、展示、排序结果的重要参考依据。
为了让用户获得更满意的搜索浏览体验,百度给予符合落地页时间因子要求且时效性较高的网页更多的收录、展现机会,同时减少不符合规定的网站的展现机会。
百度搜索落地页时间因子规范
一、前言
落地页时间因子是百度搜索判断网站收录、展示、排序结果的重要参考依据,百度搜索综合用户对落地页中关于时间因子的实际感受,发现目前PC端及移动端大量网站落地页存在页面时间标注不清、页面无时间等对用户浏览体验不友好行为。为了让搜索用户获得更满意的搜索浏览体验,我们将给予符合落地页时间因子要求、且时效性较高的网页更多的收录和展现机会,同时对不符合的网站减少展现机会。
为了让百度搜索的重要合作伙伴——优质站点免遭损失,百度搜索推出《百度搜索落地页时间因子规范》,开放对落地页时间因子的提取规范,满足搜索用户的浏览体验,同时避免站长造成损失,实现共赢。
二、时间因子提交格式:PC和移动端页面仅支持JSON-LD格式提交时间因子。
*可复制效果如下:
"pubDate": "2017-06-15T08:00:01",
"upDate": "2017-06-16T01:02:03",
"lrDate": "2017-06-17T09:10:11",
四、页面提交时间因子规范:
根据不同的页面类型,用户需要参考的时间不同。以下根据不同的页面类型,建议优先提交不同的时间。
1、首页
包含主要网站首页(如新浪首页、网易首页)、分频道首页(如新浪体育频道)等。该类页面的特征是,具有多种内容,多种链接,内容更新较快,提供最新更新时间即可。
首页类型 | 页面样式举例 | 建议时间 |
网站首页 | 新浪首页、网易首页、企业官网 | 提供该列表所有内容中的最新更新时间(update) |
分频道首页 | 新浪体育、网易科技、新浪NBA |
2、列表页
该类页面与首页类似,也是具有多种内容,多个链接,页面整体更新较快,需要提供最新更新时间。专题页是一种特殊的列表页,一般是对同一事件的优质内容聚合页面,除更新时间外,专题页的发布时间也很重要。
列表页类型 | 页面样式举例 | 建议时间 |
小说/视频 封面页 | 斗破苍穹、急诊科医生 | 提供该列表所有内容中的最新更新时间(update); 如果有发布时间,建议补充专题页发布时间(pubdate); *更新时间(update)为必填时间 |
搜索/筛选结果页 | 58狗粮筛选、京东s8筛选 | |
贴吧/blog/直播等个人首页 | 直播个人首页、吧首页 | |
专题页 | 十九大专题 |
3、详情页
该类页面主要是内容型页面,包括文章详情页、视频播放页、小说章节内容详情页等,这类页面在发布后,大部分更新较少,用户主要关注发布时间。
问答、论坛等具有交互的详情页比较特殊,需要提供更多的内容,详见下表。
详情面类型 | 页面样式举例 | 建议时间 |
文章详情页 | 新闻文章、菜谱介绍 | 优先提供内容的发布时间(pubdate) 如果内容有更新,需补充内容更新时间(update) *发布时间(pubdate)为必填时间;时间精确到分钟级 |
视频播放页 | 急诊科医生 | |
商品/产品/黄页/供求页 | 商品、供求页 | |
公司介绍页 | 公司介绍页面、公司信息 | |
问答详情页面 | 有问有答的详情页,如:百度知道、知乎问答 | 提供问题发布时间(pubdate) 第一个用户可看到的回答时间(update) 最新回答时间(lrDate) *三个时间都为必填时间 |
论坛详情页面 | 论坛帖子页,如,贴吧、天涯等 | 提供帖子发布时间(pubdate) 第一个用户可看到的回帖时间(update) 最新回帖时间(lrDate) *三个时间都为必填时间 |