核心概念

YouTube 不是排名系統,而是配對系統(Matching System)

傳統創作者的心智模型是:高 CTR → 被推送 → 更多觸及。但這個模型根本上是錯的。YouTube 對每個打開 App 的觀眾問的是:「這個人現在最想看什麼?」你的影片不是在搶名次,而是競標「成為某個人當下最好的答案」。這個問題每天被問幾億次,由一個比 Excel 排名更像 ChatGPT 的系統來決策。

YouTube 背後的三層 AI

語意理解(Semantic Understanding) 系統讀取標題、逐字稿、縮圖、留言,理解的是「意思」而非關鍵字。「how to make money online」與「side hustle ideas」在系統眼中是鄰居——儘管一個字都沒共用。

主題聚類(Topic Clustering) 每支影片被轉換成高維向量空間裡的一個點。常被同一批人連續觀看的影片,會在空間中靠近,形成 YouTube 官方分類看不見的群聚。這與 Google 的 Semantic ID 研究一脈相承:影片的本質不由關鍵字描述,而由一串緊湊數字(語意指紋)描述——包含主題、語氣、節奏、情感弧線、以及會把它看完的觀眾輪廓。

觀眾意圖建模(Audience Intent Modeling) 系統不是看你上一支看什麼就推下一支,而是看「幾百萬個跟你類似的觀眾,現在會想看什麼」。這使得全新創作者的第一支影片也可能爆紅——演算法不需要你的頻道歷史,只需要語意指紋配上當下觀眾的需求。

為什麼「完美影片」反而陣亡

高 CTR + 高留存,不保證流量爆發。三個反直覺的失敗模式:

  1. 死亡高 CTR:鎖定的觀眾群當下根本不在想看這類內容的狀態
  2. 失控爆紅:低 CTR 手機隨拍卻衝出去,因為當下需求爆滿但供給不足
  3. 趨勢稅:追熱點的創作者勝過磨工藝的創作者——需求才是決勝因子,趨勢只是「看得見的需求」

一組關鍵數據:10% CTR + 平均觀看 5 分鐘 → 死在 3000 次觀看;6% CTR + 平均觀看 3 分鐘 → 爆到接近 40 萬觀看。CTR 和留存率都更高,結果完全相反。

關鍵要點

  • CTR 和留存率是下游指標,演算法真正在意的上游是:「這支影片有沒有讓這個觀眾繼續留在 YouTube 上?」這個數字創作者看不到,但它決定一切
  • 留存曲線看形狀,不看均值:開頭平穩優於開頭極高但中段斷崖;留住 80% 但都是已懂的老觀眾,不如留住 50% 但讓本來要關 App 的人看完
  • Session Resonance(session 共鳴):觀眾看完後繼續看你另一支影片,系統會把第一支推得更廣;若你讓觀眾在 YouTube 停留更久,演算法默默加分
  • 影片爆紅的四個觸發條件:① 需求爆衝(新聞事件、迷因)② 時間窗口(新主題群聚、競爭者空缺)③ 外部流量(Reddit/Twitter 信號代表真實觀看意願)④ Session Resonance
  • 不要做 clickbait:騙到的每個點擊,若觀眾不滿意,造成的懲罰比沒點擊還慘

實務應用

對 AI 教學等垂直類內容創作者,問題的重構方式:

舊問法(表象指標導向):

  • 我的縮圖夠吸引人嗎?
  • 前 30 秒夠鉤人嗎?
  • 留存率達標了嗎?

新問法(需求導向):

  1. 誰現在正在找這種內容,但還沒找到好的答案?
  2. 我的語意指紋,配得上他們當下的飢餓感嗎?
  3. 他們看完後,會不會想繼續留在 YouTube 上?

創作策略的核心轉換:從「如何打敗演算法」→「系統現在正在讓誰失望?我能成為它一直在找的答案嗎?」

行銷漏斗與用戶轉化設計 中的供需不對等窗口邏輯,在這裡同樣是最強入場點。YouTube 的配對機制本質上也是一種 RAG 檢索增強生成架構——系統根據觀眾當下的「查詢向量」,從龐大的影片庫中做語意檢索。

延伸觀點

三篇獨立研究文章(Shaped.ai、Medium/Samuel Flender、Substack/januverma)一致確認以下機制:

兩階段架構是關鍵:YouTube 推薦並非一個黑箱,而是明確的兩階段流程。第一階段:候選生成,從 8 億支影片中用語意相似度篩出幾千支。第二階段:排名,對候選集進行多目標評分(互動預測、滿意度調查、內容多樣性、新鮮度)。「沒有單一指標主宰一切」是系統的設計原則——這直接解釋了為何 CTR 高也可能輸給 CTR 低但滿意度高的影片。

Watch Time → Valued Watch Time:YouTube 已從原始觀看時長演進到「valued watch time」,加入觀後滿意度調查、明確負回饋(「不感興趣」)等訊號。換句話說,演算法現在可以區分「被迫看完」和「真的很爽看完」。

Semantic ID 為新創作者打開機會窗口:Google 的 Residual Quantization Variational AutoEncoder(RQ-VAE)技術,使影片的語意表示不依賴歷史互動數據。一支零觀看數的新影片,只要語意指紋與高需求觀眾族群的向量足夠接近,就能被候選生成階段撈起——冷啟動劣勢從架構層面被削弱了。

反向連結

以下頁面引用了本頁: