不知道大家有没有发现,我们使用百度的频率在减少,就算有时遇到一些问题,需要用百度来寻找答案,也会经常遇到搜索不到答案的情况。到底是出了什么问题?难道网络上的资源不够丰富了?浩如烟海的互联网,居然搜索不出来想要的答案?究其原因,是百度的机器算法造成了现在的困局。这一切要从百度发展的早期说起。
在互联网早期阶段,所有人都刚刚对互联网进行探索,一个网页浏览器,就打开了这个世界的大门。互联网的早期阶段,就是以浏览器作为窗口的。很多人通过建网站,在互联网上提供资源,供千万人浏览。
随着网站越来越多,信息源成爆发式增长,有的人就会想,怎样才能从这海量的信息中,获取自己想要的结果?于是,搜索引擎诞生了。国外的代表是谷歌,国内的老大就是百度。搜索引擎这个坏家伙,通过网络爬虫,抓取互联网上所有的页面和资源,然后建立索引数据库,供用户搜索查询。所以,大家只要在搜索引擎网站输入一个关键词进行搜索,互联网上所有被索引进数据库的页面的相关链接,就都会显示出来,这样就极大的提高了获取信息的效率。
随着建网站的人越来越多,搜索引擎里能查找到的信息也就越来越丰富,大家每天都会遇到各种各种的问题,无论你遇到什么问题,几乎都可以在搜索引擎里找到答案。所以,就有了那一句经典的广告词“百度一下,你就知道”,的确如此。
现在的百度已不再是互联网信息的全部
表面上看,好像是百度把所有的互联网信息都囊括了,百度就是互联网的窗口,百度就是互联网信息的全部。
但是事实真的如此吗?在那个年代,确实如此。百度几乎是一切互联网流量的来源。但是,当我们从某个上帝视角去俯视这个模式,就会发现一个小小的问题,就是百度似乎汇聚了整个互联网的信息,但是这些信息,其实并不属于百度。归根结底,百度只是把海量的信息,做了一个索引,一个汇总,就像一本书的目录一样。
但是这些具体信息的内容,都是在各自的独立网站上的。而这些网站,本质上并不受百度控制。从另一个角度讲,这些网站和百度只是合作关系,因为有一个协议,叫做robots协议。也就是在你网站的根目录,会有一个robots.txt的文本文件,搜索引擎就是根据这个文本文件中的描述,来选择获取哪些内容和屏蔽哪些内容。
百度赖以生存的排名算法
那么问题来了,既然网站的内容不受百度的控制,百度只是对信息做了一个索引,那么百度是怎么判断出信息的质量以及这个信息是否对用户有帮助的?说的通俗一点,当我们在百度搜索框中搜索一个关键词时,会出现很多条记录,通常排在前面的就是质量最好最相关的。百度把它认为所有相关的信息,按照关联度或信息质量进行排序,并呈现在我们面前,它是怎么知道这些信息的质量和关联度的?以及对用户是有帮助的?
这里就涉及到了一个百度赖以生存的排名算法。百度毕竟不是人,只是机器,它将信息爬取并汇总起来,然后通过极其复杂参照量极多的算法,对信息进行排序,质量好的网站会排在前面,质量差的网站会排在后面,就是我们常说的百度排名。
看到这里,有的人会提出一个问题,百度这样的排名算法,严谨吗?能百分之百准确吗?
问到重点了。这就是百度十几年来一切问题的根源了。答案显然是:不能。正如前面所说,百度不是人,算法只是机器的指令,不可能做到百分之百的精准,所以它不够严谨,也不一定正确。我们可以把百度和目前流行的内容平台,微信公众号和抖音,做一个对比。微信公众号里,所有的文章,都是在微信平台上发布的,都会受到微信的监控和管制。抖音也是如此,所有的视频,都是完全在它的平台上,而不是只做一个索引。所以,这两个平台对内容有百分之百的管控能力。怎么判断某个内容质量的呢?
很简单,不用依赖机器算法来分析,因为用户会自动帮你投票。比如,如果某个内容质量高,完整观看的人就会多,点赞的人就会多,收藏的人就会多,评论和转发的人就会多,反复观看的人数就会多,而用户的这些动作,微信和抖音都是能监控到的,所以他们的排名算法会极其精准,好内容都是用户自己选出来的,而且也应该是用户自己选出来的。反观百度,它的所有内容都是其他网站上的,某个文章有没有被人完整观看,有多少人点赞,多少人收藏了,有多少人转发了,它能监控到吗?监控不到。百度所能做的,只能通过一些外部的变量来判断内容的好坏,而用户的真实行为,它是获取不到的。
百度无法像微信和抖音那样,直击内容。
这就好比是判断一个人是否有钱,微信和抖音可以直击本质,可以直接查看这个人的银行卡余额,而百度,只能是通过这个人开的什么车,带的是什么手表,住的是什么房子,来判断这个人是否有钱。所以,这里就有误差了。开的车可能是借的,手表可能是假的,房子也许是租的,这个人看上去有钱,实际上可能是负债累累。所以通过外部变量来判断事物的本质,都是有很大的误差的。因为所有外部的变量都可以伪装,只有银行卡余额才是本质,是伪装不了的,但是百度却查看不到。
所以,做微信和抖音的人,都在研究什么?
怎么写好的文章吸引大家点赞转发,做一个爆款的视频有哪些技巧和方法。究其本质,都是在研究如何做好内容。 但是,做百度排名的人呢,几乎没有人讨论如何做好内容,而是想着如何讨好(骗过)百度这个机器算法。因为渐渐的,大家都知道,就算内容做的再好,百度也不一定会给你排名。而相反,有些内容即使很烂,但是外部变量伪装的很好的,百度却能给与很高的排名。
目前所有的seo技术,不管是黑帽seo和白帽seo,这些所谓的技术,本质上都是在伪装外部变量,在百度看来,都属于作弊。因为作为平台方,肯定是希望内容越好排名越好,这样用户才会被内容吸引,越来越依赖平台,从而形成一个正向循环。正常的情况是,内容越好,围绕它周边的外部变量就会自然的变好,就像是一个人越有钱,开的车应该就越好。但是偏偏就是有人没有钱也开好车。seo的很多技术,就是在不增加内容质量的情况下,只是单纯的让外部变量变得更好,从而达到欺骗百度算法,获取排名的目的。
下面我们来列举一些百度作为判断依据的重要的外部变量,以及所谓的seo是如何应对的。
1.内容原创:不管是什么平台,内容质量都是最重要的,内容的原创度越高,质量就会相应的越好。
但是你到seo的社区里,就会发现站长们都是怎么对待原创的?都在讨论采集和伪原创,没有人去认认真真的写高质量的原创内容。因为百度判断原创的方法很简单,就是如果之前没有收录过这篇文章,就会被认为是原创,哪怕是用软件工具生成的一篇狗屁不通的文章,也是如此。而且,就算你写出高质量的原创,百度也判断不出来是高质量的还是低质量的,因此也不会给你权重和流量,那么谁还会费力不讨好呢。更何况很多封闭的自媒体平台,本身就是屏蔽百度的。
比如,今日头条,公众号,企鹅号,大鱼号等,直接把这些平台上的文章搬到自己的网站上,百度就会认为是原创,就会收录。所以没有人为了百度,去认真地做原创,都是伪原创和采集内容。
2.外链数量:关于外链数量决定网站的质量,百度最初的想法应该是认为:外链的数量越多,说明网站内容被转载和引用的次数就越多,也就侧面说明了网站质量好对用户有帮助。
只可惜外链这个外部变量,太容易被修改了。于是诞生了大量的买卖外链的平台,seo的人员,有钱的直接买外链,不想买的自己到处发外链,或者和其他人链接互换。甭管是什么网站,文章好不好不重要,重要的是我留下了一条链接,就达到目的了。所以,你看网上诞生了大量的无效的垃圾内容,很多人只是为了留下一条链接,就会故意制造一些没有营养的内容。百度也很难判断这条留下的链接,是真正有意义的被留下了,还是通过上述手段被故意留下的。
3.建站时长:这个更可笑,因为互联网上有很多个人做的网站,几个月不挣钱或者玩够了,就关闭了。
所以你会发现,以前收藏过的很多网站,慢慢的很多都打不开了,那么像这些做一段时间就关闭的网站,肯定不是百度心中的优秀的站点。所以,百度就认为,一个网站,建站时间越长,越说明这个网站是用心做的,不会随便关闭,百度才会给予流量。针对这一点,很多人就直接买老域名,来走捷径。老域名就是别人以前做了好几年的网站,然后别人不做了,你直接花钱把这个域名买过来,重新做一个网站。哪怕你重新做的网站和之前的网站,内容完全不一样,也没关系。由于建站时间久,权重极高,百度便会给予很快的收录和很好的排名。
当然,所谓的外部变量,远远不止上面说的这几个,实际情况会更加复杂,但是无论多复杂,机器也没有人聪明,尤其是中国人。窥一斑知全貌,从上述情况可以看出,站长们根本不需要做好内容,只需要让外部变量看起来漂亮,让机器算法认为是优质的网站或内容,就足够了。无论怎样,机器是笨拙的,尤其是百度的机器算法,由于无法直击内容,所以更是漏洞百出。下面通过两个具体的实际例子,来说明机器算法的局限性。
1.大家可以看一下这个网站,景德镇信息网:
这个网站很神奇,你会发现,它的所有内容都是采集的,它的网址后面,加上任意一串数字,再接上.html,都会有一个网页内容,显然这个网站背后,并不是一个用心维护好内容的兢兢业业的站长,而是一个可以完全自动化生成内容的程序。这样的网站应该属于垃圾网站,因为本质上,它没有自己产生优质内容,解答不了网民用户的疑问。但是百度呢?它看到的和我们不一样。因为它只是一个机器算法,它看到的是一个拥有丰富内容的网站,所以收录了很多页面,并给与了不错的权重和排名,甚至还给了一个官网标识。
2.还有一个朋友的网站,名字叫八图片,主要是提供了一个可以帮助人们在网上赚钱的技术。
所以有一段时间,朋友把网站的关键词设置成了和网赚相关的。但是大家都知道,网赚是一个很危险的词语。我记得央视315节目也曾经曝光过,互联网的网赚项目,大部分都是骗钱的或者违法的。所以,网赚这个关键词也顺利成章的被百度列入了黑名单,八图片这个网站那段时间也被百度K掉了。虽然后来通过申诉恢复了,但是由此可以看出,百度这个机器一刀切的做法。
因为百度只是机器算法,它毕竟不是人,它分不清哪些网赚项目是真的,哪些是假的,哪些是阳光的,哪些是违法的。所以,既然判定不了,又这么危险,就干脆认为全部都是违法的。由此可见,百度的机器算法,很难判断出真正的好内容,渐渐的导致了百度里的内容,劣币驱逐了良币,好的内容都转移到了很多其他并不对百度开放的内容平台里,比如,微信公众号,抖音等。
并且还有一个原因,就是其他的内容平台,比如公众号,抖音等,真的很好用,不仅使用门槛低(不像建网站,又需要有域名,又需要有主机,又要懂一点建站技术,门槛较高),而且由于是自家平台,所以只需要全心全意的做好内容就行了。不需要用什么技巧去讨好机器算法,只需要讨好用户,而讨好用户恰恰才是做内容的初衷和本质。只要内容好,新人也有机会流量暴增而一夜成名。
而如果是做网站,新人则很难出头,首先网站结构要先符合百度的优化方案,然后百度对于新网站的考察期就是三个月,这样就导致新网站很难起量,很多人坚持不了那么久,短期内没有成果就很容易放弃。
百度的问题,不仅是上面所说的好内容转移到其他平台的问题,还有就是,互联网上本身就优秀的存量网站,也在变的越来越稀少。由于政策的原因,由于人们习惯的转变,或者由于广告的摧残,导致很多曾经很优秀的网站,也在销声匿迹,逐渐淡出人们的视野。
比如,博客站,在互联网早期诞生了很多,但是现在能叫的出名的,真是屈指可数,卢松松博客是为数不多的能一直坚持到现在的高质量博客了。还有论坛,曾经也是风极一时,不说其他的领域,就说站长论坛,以前真的是风起云涌,遍地开花。而现在呢,也就只有一个4414站长论坛了。
优秀的网站越来越少,而能生产出好内容的作者,又不一定要做网站,因为有更好的平台可以选择,这就导致了百度的内容逐渐荒芜,也就造成了文章开始提出的问题,在百度里居然搜索不出想要的答案了。
面对这些问题,百度也想过自救,既然没有好网站和好内容,干脆就自己生产内容,于是推出了熊掌号,百家号这类自媒体平台,想让用户把好的内容留在自家阵地上。可惜的是,你百度本身的初衷就是一个搜索引擎,就是建立一个索引目录,你现在又想做目录,又想做内容,真是有点本末倒置了。最后大家也都看到了,这些自救的办法,结果上都是差强人意。
总之,互联网发展了,商业逻辑变了。以前大家探索互联网,为了寻找答案,只能通过百度进行搜索。所以,你有好的内容,如果想被发现,就只能做网站,然后费劲巴拉的去讨好百度这个机器。但是现在,我可以做公众号,做小红书,做抖音,可以不用做网站了,我可以全心全意的做好内容,用户就会被我的内容所吸引,平台也会给与流量,不是非依靠百度不可了。
渐渐的,你会发现,用户的搜索习惯,也在悄然发生改变。现在搜索一个什么时事热点,很多人就直接在微信或者抖音里搜索了,因为结果更精准,信息更及时。这是百度最不希望看到的,却又无力改变的。
那么百度如何才能走出困局呢?
笔者认为,最重要的还是应该把精力多用在提高机器算法的精确度上,而不是千方百计花样百出的去搞商业化。简单来说,就是要让机器算法越来越像真人,逐渐降低误判率,能接近谷歌的技术水平。当然百度这么多年来,也一直是这么做的,一直在不断的提高和优化,但是目前来看,水平还远远不够。
不知道大家有没有同样感受,当我搜索一个问题时,尤其是专业方面的问题,百度经常是找不到任何有用的答案的,但是用谷歌搜索就能找到一两条有用的结果。而正是这一两条结果,就能把我的问题解决。所以百度的机器检索技术和谷歌还是有很大的差距。其次,现在国家不是要求互联互通吗?不能再搞内容封闭。这对百度来说,真的是一个巨大的机会,相当于之前流失的优质内容,很多又会重新回到百度的怀抱。比如现在快手和抖音,已经对百度开放了,百度也已经抓取了成千上万的抖音和快手的内容。相信不久以后,淘宝,微信等优质内容,也都可以被百度抓取到。
希望百度可以抓住这次优质内容又重新回归的机会,努力提高算法的精准度,准确识别垃圾内容和优质内容,不要再让用户失望,只有这样才能重新站回到互联网的顶级入口的位置,真正的做到,“百度一下,你就知道”。任重而道远……
作者:quedashi 公众号:雀大师
‘);
});