核心概念
Data Formulator 0.7 是 Microsoft Research 於 2026 年 5 月 28 日發布的開源企業資料分析平台,旨在解決企業資料生態系的兩個核心痛點:分散的資料源整合,以及讓非技術背景使用者也能完成複雜分析。
傳統的企業資料分析工作流,往往需要資料工程師先整合多個異質來源(資料庫、資料倉儲、BI 系統、物件儲存),再交由分析師編寫 SQL 或 Python,最後才能進入視覺化與洞察報告。這個過程不僅冗長,還使擁有領域知識的業務人員長期依賴技術團隊。Data Formulator 0.7 試圖透過 AI Agent 整合這整條流程。
平台的設計核心是「情境感知 AI Agent」(Context-Aware AI Agent)。與簡單的聊天機器人不同,這個 Agent 能夠存取完整的分析工作空間:已連線的資料源、已載入的表格、先前生成的視覺化結果以及使用者設定的分析目標。當使用者的需求描述不夠明確時,Agent 會主動提問釐清,而非猜測;在執行時,它以隔離沙盒環境撰寫並執行程式碼,確保每一步都可驗證、可重現。
Data Thread 是 0.7 版最具特色的設計之一——它將整個分析過程記錄為一條結構化的對話歷史,保存每個問題、中間發現和圖表。使用者可以在任意時間點回溯、分支出替代分析路徑,解決了長時間分析 session 常見的「分析脈絡遺失」問題。搭配 Interactive Canvas(互動畫布),使用者可以用自然語言直接調整圖表設計,包括標籤、標注、版面、顏色與強調重點,或手動精修——兩種模式無縫切換。
關鍵要點
- Data Connectors(資料連接器):支援跨資料庫、資料倉儲、BI 系統、物件儲存及本機檔案的持久化、認證連線,提供統一的元資料管理,大幅降低平台團隊重複整合的成本
- 批次生成:支援一次生成多張圖表與表格,適合需要批量產出報告的場景
- 可驗證程式碼:所有分析輸出均附帶可驗證的程式碼,確保結果可重現,提升組織內部對 AI 分析結論的信任基礎
- 報告生成與分享:分析結果可匯出成報告格式,支援跨團隊協作共享
- 開源:原始碼公開於 GitHub,企業可依需求自行部署與客製化,降低供應商鎖定風險
實務應用
Data Formulator 主要服務於「有分析需求但缺乏深度程式技能」的族群——業務分析師、產品經理、域名專家。常見的使用場景包括:
- 跨系統指標整合:從 CRM、ERP、資料倉儲同時拉取數據,在單一工作台進行交叉比較
- 迭代式探索:在 Data Thread 中逐步深挖,發現初步洞察後立即分支深入,不怕打亂原有分析脈絡
- 指標計算與資料重組:對原始資料進行轉換、計算衍生指標,並即時視覺化驗證結果
- 可重現分析報告:由於所有操作都有對應程式碼,分析師可以將報告移交給工程師,直接進入生產管線
相較於 Codex 在資料科學場景的應用(程式碼生成 + 自動化執行),Data Formulator 更專注於互動式探索的體驗設計,強調使用者能夠在分析過程中持續參與判斷,而非全權委託 Agent 執行。這在需要業務直覺的分析場景中,往往比完全自動化更有實際價值。
可於 data-formulator.ai 體驗 Demo。
延伸觀點
企業 AI 分析工具在 2025-2026 年快速演進,Data Formulator 0.7 的設計思路與更廣泛的趨勢相呼應。
「可解釋 AI」成為企業採用的關鍵門檻。 多份針對企業 AI 採購決策的研究顯示,組織在選擇 AI 分析工具時,「能否理解 AI 是如何得出這個結論」的重要性甚至超過準確率。Data Formulator 透過「每個輸出都附帶可驗證程式碼」直接回應這個訴求——這不只是技術功能,而是組織信任建立的設計策略。
低程式碼分析工具的瓶頸在整合,不在生成。 Gartner 及 Forrester 的分析均指出,企業導入 AI 分析工具最大的阻力不是模型能力,而是資料連接的複雜度。Data Connectors 針對性解決了這個痛點——多個異質系統的統一認證與元資料管理,是讓 AI Agent 真正「看見全局」的前提條件。
可分支的分析歷史(Data Thread)對齊了人類的分析認知模式。 研究者在 BI 工具使用行為研究中發現,分析師在探索過程中頻繁需要回溯和比較不同假設路徑,而現有工具大多只保留線性的最終狀態。Data Thread 的設計讓工具貼近實際認知流程,而非要求使用者配合工具的操作限制——這與 資料科學團隊 × Codex:五大分析交付物自動化 中自動化執行的設計方向形成互補。
反向連結
以下頁面引用了本頁: