會員

密碼

會員權益

資
訊

共
享

商
務

首頁

收藏本站

關鍵字

微信公眾號

微官網(wǎng)

微博

當前位置: 主頁>新聞中心>綜合資訊>行業(yè)透視>

警惕！你的數(shù)據(jù)快被AI爬蟲爬完了！

時間:2024-07-31來源:騰訊云作者:

最近一兩年，全世界科技圈最火的話題就是AI大模型了。各種文生文、文生圖乃至文生視頻大模型橫空出世，頃刻間滿足了人類對未來世界的暢想，誕生了無數(shù)商機與可能性。各家人工智能公司都摩拳擦掌，傾盡全力打造自己的大模型，希望能在這場全新的科技拉力賽中占據(jù)領先位置。

但，繁榮和進步的背后，也隱藏著巨大的數(shù)據(jù)安全危機。

眾所周知，海量的數(shù)據(jù)是訓練大模型的必備材料。就像想發(fā)動一輛車需要汽油一樣，想把大模型訓練好，就需要大量優(yōu)質的數(shù)據(jù)來做“汽油”。比如，OpenAI在訓練GPT-4時使用了大約13萬億個token，按照Epoch的研究員Pablo Villalobos預測，GPT-5大約需要60到100萬億個token才能實現(xiàn)預期中的效果增長。而這些token，正來自于海量的數(shù)據(jù)。

而規(guī)模如此龐大的數(shù)據(jù)又從何而來呢？當然是來自于互聯(lián)網(wǎng)啦。

在過去一兩年的時間內，網(wǎng)絡上的爬蟲數(shù)量成倍增長、數(shù)不勝數(shù)，瘋狂地在互聯(lián)網(wǎng)上“搜刮”各種數(shù)據(jù)。

圖片1.png

與此同時，隨之而來的數(shù)據(jù)侵權和泄漏等等問題也引起了各內容廠商的強烈反感。

去年秋天，BBC 國家總監(jiān)戴維斯說：“我們認為，這種未經允許就‘搜刮’BBC數(shù)據(jù)以訓練大模型的做法不符合公眾利益”，隨后，他宣布BBC將封鎖OpenAI的爬蟲。

今年年初，路透社研究所發(fā)布了一項名為《有多少新聞網(wǎng)站會屏蔽人工智能爬蟲》的研究。研究結果顯示，截至 2023 年底，在全球 10 個國家的熱門新聞網(wǎng)站中，近一半網(wǎng)站在robot.txt中屏蔽了 OpenAI 的爬蟲 (48%) ，近四分之一屏蔽了谷歌的 AI 爬蟲 (24%)，這個數(shù)據(jù)能充分說明內容平臺對AI爬蟲的“深惡痛絕”。

圖片2.png

但傳統(tǒng)的用來防止BOT的Robots協(xié)議終究是一場“君子之約”，它只能防住表明自己身份的爬蟲。在目光所不能及之處，還有許多黑灰產嗅到了數(shù)據(jù)變賣的利益，制造出更多爬蟲在互聯(lián)網(wǎng)的各個角落里陰暗爬行。他們用偽造UA、更換IP等等手段，就能夠輕而易舉地偽裝自己，繼續(xù)對數(shù)據(jù)“為所欲為”。

更有甚者，已經開始用AI和大模型來“加持”爬蟲技術，讓爬蟲進化地更加靈活與智能。比如，傳統(tǒng)的爬蟲內容解析通常采用BS4等庫，在面對復雜的頁面結構時，編寫XPath選擇器就變得更加繁瑣且容易出錯；當頁面結構變化時，也可能要重新編寫選擇器，讓爬蟲的使用變得非常復雜。但在大模型技術加持下，內容解析變得異常簡單，大模型可以直接從網(wǎng)頁源碼中自動抽取標題和正文等信息，大大提升了內容解析的效率和準確性。

這樣的爬蟲，相當于從蜥蜴進化成了“哥斯拉”，從汽車變身成了變形金剛，讓傳統(tǒng)的BOT防御手段面臨著更大的挑戰(zhàn)。過去的一些策略已經不能抵擋來勢洶洶的新生代爬蟲大軍，BOT防御措施急需一場有針對性的升級。

圖片3.png

那么，到底有什么方法能夠抵抗這些“變異升級”后的AI時代爬蟲呢？

天空一聲巨響

騰訊云WAF閃亮登場！

圖片4.png

騰訊云WAF團隊推出的BOT流量管理功能，集成了客戶端風險識別（前端對抗）、防護規(guī)則集與領先的BOT-AI智能識別引擎這三重攔截能力，能夠準確應對惡意機器人程序爬取帶來的資源消耗、信息泄露及無效營銷問題，同時也保障友好機器人程序的正常運行。

更牛的是：BOT流量管理深度融合了頂尖AI技術，將流量風控特征和黑灰產對抗經驗轉化為AI策略模型，打造出新一代智能化BOT流量管理體系，以AI之矛，攻BOT之盾（AI Anti BOT）！

圖片5.png

🌟亮點1: 新增大模型爬蟲檢測場景

BOT流量管理在原有的十大典型對抗場景基礎上，升級了大模型爬蟲檢測場景。通過AI技術學習海量大模型爬蟲的行為特征，生成專門針對此類爬蟲設計的內置防護規(guī)則，從而進行精準防御，避免某些人工智能公司在未經授權的情況下直接抓取網(wǎng)站內容、用于訓練人工智能模型，保護內容生產平臺的信息安全。

🌟亮點2: 智能BOT分類能力

BOT流量管理推出了基于人工智能的BOT分類能力，能夠通過自研的深度學習模型去習得不同業(yè)務場景下的BOT流量特征，自動對不同目的BOT行為進行分類，最終根據(jù)BOT的威脅程度進行自動打分，生成跨場景下的綜合防護策略，極大提升惡意BOT防護能力，全方位提升防爬、秒殺等各種業(yè)務場景下的Web安全性。

除此之外，BOT流量管理還將推出更多基于AI甚至大模型的優(yōu)質能力。比如基于AI的BOT規(guī)則托管引擎，以及用大模型進行BOT事件分析與解讀等等。敬請期待哦！

技術的進步是把雙刃劍，大模型橫空出世，給人類的生產效率帶來了極大提升，但同時也在暗處留下了包括數(shù)據(jù)泄露在內的種種隱患。唯一的解法，就是在大膽嘗試新技術的同時，學會用技術的進步來保護自己，才有機會坐上時代前進的高速列車。未來已來，請先上車！

原標題： / 編輯：

上一篇：藍屏之囿-終端安全軟件開發(fā)的困局與破局
下一篇：騰訊安全獲評CNNVD年度優(yōu)秀技術支撐單位

: ◆第一商業(yè)網(wǎng)版權與免責聲明
1、凡本網(wǎng)注明“摘自：本站原創(chuàng)”的所有作品，版權均屬第一商業(yè)網(wǎng)所有，未經本網(wǎng)書面授權不得轉載、摘編、復制或利用其他方式使用上述作品。已經本網(wǎng)授權使用作品的，被授權人應在授權范圍內使用，并注明“來源：第一商業(yè)網(wǎng)”。
違反上述聲明者，本網(wǎng)將追究其相關法律責任。
2、本網(wǎng)其他來源作品，均轉載自其他媒體，轉載目的在于傳播更多信息，豐富網(wǎng)絡文化，此類稿件不代表本網(wǎng)觀點。
3、任何單位或個人認為本網(wǎng)站或本網(wǎng)站鏈接內容可能涉嫌侵犯其合法權益，應該及時向本網(wǎng)站書面反饋，并提供身份證明，權屬證明及詳細侵權情況證明，本網(wǎng)站在收到上述法律文件后，將會盡快移除被控侵權的內容或鏈接。
4、如因作品內容、版權和其他問題需要與本網(wǎng)聯(lián)系的，請在該事由發(fā)生之日起30日內進行。電話：020-38248250 傳真 020-38248296

亚洲一区二区无码动漫|国产午夜精品无码网站|国产久青草视频在线观看|久久久99精品免费观看|国内精品久久久久影院日韩|国产精品一区二区三区香蕉|国产亚洲精久久久久久无码|天天爱天天做天天做天天吃中文

警惕！你的數(shù)據(jù)快被AI爬蟲爬完了！

警惕！你的數(shù)據(jù)快被AI爬蟲爬完了！