過去一年,搜索引擎,或者擴(kuò)大至互聯(lián)網(wǎng)行業(yè),最熱門的話題無疑是人工智能。過去 10 幾年,SEO技術(shù)和方法其實(shí)沒什么大變化,這些年來我第一次覺得,不久的將來,SEO將被人工智能徹底改變。
上篇關(guān)于用戶訪問數(shù)據(jù)是否影響排名的帖子里提到,到目前為止,搜索引擎工程師多次否認(rèn)排名算法中使用了他們自己的網(wǎng)站流量統(tǒng)計(jì)數(shù)據(jù)??赡艿脑虬ǎ?/p>
噪聲太大,太容易作弊??纯匆郧白鳇c(diǎn)擊器,現(xiàn)在做百度快排的有多少,就知道作弊的市場有多大了。不僅給自己刷,還有給競爭對手刷的,把跳出率刷高。
不同場景,用戶行為方式不同。跳出率高,不一定代表頁面質(zhì)量不高。
有的網(wǎng)站沒有用搜索引擎的統(tǒng)計(jì)服務(wù),怎么給這些網(wǎng)站排名?
但我們又真實(shí)地觀察到用戶訪問數(shù)據(jù)確實(shí)影響了頁面排名,這是不是有矛盾呢?人工智能也許就是答案。
去年寫了AlphaGo、深度學(xué)習(xí)與SEO后,在網(wǎng)上看到有人說我在胡扯,別看到個(gè)新名詞就往SEO扯。不知道一年后,是不是還有人覺得人工智能將影響、改變SEO的想法是胡扯。
先看看過去幾年人工智能領(lǐng)域值得注意、又和搜索有關(guān)的幾件事:
2011 年,吳恩達(dá)創(chuàng)建了Google Brain,一個(gè)超大規(guī)模的人工神經(jīng)網(wǎng)絡(luò)??赡苁亲钤绲腉oogle人工智能項(xiàng)目。
2014 年 5 月,吳恩達(dá)加入百度,任首席科學(xué)家,主要負(fù)責(zé)的肯定也是AI。 2017 年 3 月 20 號,吳恩達(dá)辭職。這個(gè)和人工智能本身應(yīng)該無關(guān),和新老板有關(guān),看下面。
2015 年,Google上線深度學(xué)習(xí)為基礎(chǔ)的算法RankBrain,并且聲稱RankBrain是第三大排名因素。(前兩大排名因素是內(nèi)容和鏈接)RankBrain主要用于找到與用戶查詢詞不完全匹配(因而傳統(tǒng)排名算法不太有效)、但其實(shí)很好回答了用戶查詢的那些頁面。記住這句有點(diǎn)拗口的話,因?yàn)榘俣扔信c此類似的算法,而且比Google更早使用,下次再寫。
2015 年 10 月,AlphaGo以5: 0 戰(zhàn)勝歐洲圍棋冠軍樊麾。這條消息 2016 年 1 月才出來。
2016 年 3 月,AlphaGo以4: 1 勝李世石。李世石贏的那一盤可能是人類戰(zhàn)勝AI的最后一局棋。
2016 年 12 月 29 號到 2017 年初的短短幾天內(nèi),以Master為用戶名的AlphaGo在弈城、野狐網(wǎng)絡(luò)平臺上,快棋60: 0 狂勝中日韓幾乎所有人類最高手,包括柯潔、聶衛(wèi)平、古力、常昊、樸廷桓、井山裕太…..平了一局,是因?yàn)榫W(wǎng)絡(luò)斷線。
2017 年 1 月,原微軟全球副總裁陸奇加入百度,任總裁。李彥宏在歡迎詞里特意提到“同時(shí),陸奇還是人工智能領(lǐng)域世界級的技術(shù)權(quán)威。……百度已經(jīng)決定將人工智能列為公司未來十年最重要的戰(zhàn)略方向……陸奇的加盟將極大地確保這一戰(zhàn)略得以順利實(shí)現(xiàn)”。
2016 年 9 月以來,Google陸續(xù)上線各語種的采用深度學(xué)習(xí)方法的谷歌翻譯。本來我也沒太注意這個(gè)新聞,偶然用了一下Google翻譯,水準(zhǔn)之高,大大出乎我的想象。
人工智能領(lǐng)域領(lǐng)頭的公司,剛好都是搜索引擎,是碰巧?Google研發(fā)AlphaGo只是為了下棋?只是為了無人汽車?百度人工智能團(tuán)隊(duì)現(xiàn)在發(fā)展到了 1300 人,挖吳恩達(dá),挖陸奇,是為了組團(tuán)參加最強(qiáng)大腦?
即使沒有RankBrain這種確定使用人工智能的算法,我們也能猜到,搜索引擎花這么大精力研究人工智能,肯定不止是在外圍或新業(yè)務(wù)上使用,他們沒理由不把人工智能用在自己的核心業(yè)務(wù),也就是搜索上。
仔細(xì)思考一下就知道,AlphaGo下圍棋與搜索排名要解決的問題看似誰也不挨誰,但其本質(zhì)是非常相像的,是可以用同一種方式解決的:
AlphaGo通過學(xué)習(xí)無數(shù)盤棋,其中有人類的歷史棋局,更多的是AlphaGo自我對局,累積海量數(shù)據(jù),面對某一盤面時(shí)做出判斷:下一手,子下在哪里勝率比較高?
搜索引擎排名算法通過學(xué)習(xí)質(zhì)量評估員給出的數(shù)據(jù)、搜索用戶點(diǎn)擊訪問數(shù)據(jù)等,面對某一個(gè)頁面時(shí)做出判斷:這個(gè)頁面是高質(zhì)量還是低質(zhì)量的?這個(gè)頁面作弊了嗎?這個(gè)頁面與查詢詞相關(guān)還是不相關(guān)?
傳統(tǒng)搜索算法要回答上面問題時(shí),需要工程師根據(jù)常識、工程知識、情懷、用戶反饋等情況,選出排名因素,調(diào)整排名因素的權(quán)重,按既定的公式計(jì)算出答案。人工智能為基礎(chǔ)的算法不需要工程師告訴它使用什么排名因素,而是自己去學(xué)習(xí),自己琢磨用哪些排名因素,各占多少權(quán)重。人工智能考慮的因素很可能是會令人類覺得莫名其妙的。
吳軍老師在《智能時(shí)代》中說過一句話,可以特別貼切地用于理解這種情形:在智能時(shí)代,可以在大數(shù)據(jù)中直接找到答案,雖然可能不知道原因(大意)。傳統(tǒng)搜索算法,工程師要知道原因,才能寫算法。人工智能直接從數(shù)據(jù)中找答案,雖然工程師都不知道原因。
人工智能的最大缺點(diǎn),對人來說的缺點(diǎn),它對人來說是個(gè)黑盒子,工程師也不知道它是怎么算的,根據(jù)什么算的。結(jié)果正確時(shí),一切都挺好,但結(jié)果不大對頭時(shí),工程師也不知道為什么錯(cuò)了,還不好debug。也許由于這個(gè)原因,搜索引擎算法的核心現(xiàn)在還沒被人工智能取代,搜索引擎需要很謹(jǐn)慎,不然會錯(cuò)得自己都不知道為什么錯(cuò)。
回到最前面的問題,用戶點(diǎn)擊、訪問等行為是否是排名因素?是的話,怎樣解決噪聲、作弊問題?沒有用搜索引擎統(tǒng)計(jì)服務(wù)的網(wǎng)站,無法確切知道訪問深度、停留時(shí)間等,這又怎么辦?
可以設(shè)想一下,算法可能不把用戶訪問數(shù)據(jù)作為直接排名因素,但可以作為某種驗(yàn)證和質(zhì)量控制方式,比如在傳統(tǒng)排名算法計(jì)算出相關(guān)頁面后,人工智能算法挑出與已知作弊頁面有相同訪問特征和其它特征的頁面,降低其排名或者干脆不返回。這里要記得人工智能潛在的驚人的準(zhǔn)確率。記得去年中Google就說過,AlphaGo當(dāng)時(shí)大致相當(dāng)于人類 13 段棋手,年底的棋局似乎驗(yàn)證了這很可能不是吹牛??聺嵑吐櫺l(wèi)平等人與Master對局后都表達(dá)過大致這么個(gè)意思:看了AlphaGo/Master的棋,覺得人類一些對圍棋的認(rèn)識很可能是錯(cuò)的。
這種判斷的驚人準(zhǔn)確性,也許以后對黑帽SEO是個(gè)無法挽回的打擊。如果搜索引擎算法判斷一個(gè)頁面是否作弊時(shí),具有 13 段棋手、遠(yuǎn)遠(yuǎn)超出人類的水平和準(zhǔn)確率,那么我們凡人該怎么作弊?
與此類似,如果網(wǎng)站沒有使用搜索引擎的流量統(tǒng)計(jì)服務(wù),人工智能可能會判斷,這個(gè)網(wǎng)站A具有特征x, y, z…,另一堆使用了自己統(tǒng)計(jì)服務(wù)的網(wǎng)站同樣具有特征x, y, z…..,預(yù)估網(wǎng)站A的訪問深度、停留時(shí)間等和那些已知網(wǎng)站相同。這里,特征x, y, z……是什么,是人工智能自己學(xué)習(xí)出來的,很可能有人類意想不到、覺得毫無關(guān)系的東西。而基于人工智能的駭人能力,結(jié)論很可能是正確的。
人工智能對SEO的關(guān)鍵詞研究、頁面文案寫作、網(wǎng)站結(jié)構(gòu)等方面都會產(chǎn)生顛覆式的影響。這篇只是開了個(gè)頭,以后再繼續(xù)討論。
工作日 8:30-12:00 14:30-18:00
周六及部分節(jié)假日提供值班服務(wù)