研究速遞 — 柒藍的學習筆記

藥物資產盡職調查（Drug Asset Due Diligence）是生技/製藥投資中最耗時的環節之一：投資人在決定是否

2026-07-13

DeepPlanning 是由 Yinger Zhang 等九位作者提出的智能體規劃基準測試，發表於 2026 年 1

2026-07-13

大型語言模型（LLM）正逐漸被採用為自主無人機（UAV）任務的高層控制器。然而現有評估框架存在一個根本性缺口：很少有研究

2026-07-13

傳統幻覺研究聚焦在「單輪回答是否正確」，但 LLM Agent 的實際運作是**多步驟序列推理**。若第三步產生了幻覺，

2026-07-13

**論文資訊**

2026-06-29

大型語言模型（LLM）在推理能力上取得了令人矚目的進展，卻依然在看似簡單的場景中出現失敗。Peiyang Song、Pe

2026-06-29

Lumer 等人（2026）發表於 Conference on Algebraic Informatics 的調查論文，

2026-06-29

LLM 代理面臨一個根本性瓶頸：上下文視窗有限，而現實任務往往跨越長時程、需要跨步驟記憶。當前主流做法將長期記憶（LTM

2026-06-29

Model Context Protocol（MCP）正在成為 LLM Agent 與外部工具溝通的標準介面——從資料庫

2026-06-22