> 一句話摘要:LLM 呼叫工具後要不要再 call 一次 LLM,是延遲與能力的取捨。這份筆記解釋這個專案是怎麼決定的。
本文深度解析大型語言模型(LLM)指令遵循失敗的 8 大原因,從 Prompt Engineering 角度提供表格化、正向指令及結構化優化策略,助你打造更精準的 AI 溝通術。
向量搜尋找得快,但找得不夠準——Reranking 就是那個在最後把最重要的資料推到前排的裁判。
讓小模型繼承大模型的「智慧」,而不只是複製它的「答案」。
Andrej Karpathy 提出 LLM Wiki 概念,主張 AI 應透過「知識編譯」將 RAG 資料轉化為結構化 Wiki,而非反覆碎片化查詢。本文解析參數化記憶、現代 RAG 與 LLM Wiki 的本質差異與挑戰。
當 AI Agent 需要與外部世界互動時,該讓它敲指令,還是講協議?
模型真的變笨了嗎?本文提供五大測試維度與嚴謹的統計學方法,教你如何用數據驗證 AI 模型降智,排除主觀偏誤,建立自動化監控管線。
在大型語言模型(LLM)橫掃技術領域的今天,Knowledge Graph(知識圖譜,以下簡稱 KG)座定位正經歷一場深刻的變革。對於一個正處於 AI 應用浪潮中的舊專案來說,KG 不僅是技術組件,更是連接「過去代碼」與「未來智能」的橋樑。
這篇文章將 AI模型降智比喻為「連鎖咖啡店的配方調整」,深入分析了廠商在成本、速度與安全性之間進行權衡時,如何導致模型在深度推理與指令遵循能力上的偏移,並提供了 McNemar's Test、LiveBench 等科學驗證方法。
AI 模型的「短期記憶」有上限——這篇文章告訴你工程師怎麼在不讓它失憶的前提下,騙它用更少的空間記住更多的事。
兩個粒子,無論相距多遠,測量其中一個,另一個的狀態瞬間確定——這不是魔法,是宇宙運作的規則。
想讓 AI 讀懂你的文件再回答?這篇用最白話的方式,拆解 RAG 系統從「準備資料」到「回答問題」的完整流程,附上 Python 和 TypeScript 程式碼範例。
RAG 是一種讓 AI 先查資料再回答的技術,大幅減少幻覺問題。你每天用的 Cursor、Copilot、Claude Code 背後都在用它——理解 RAG,就是理解你手上 AI 工具為什麼有時超神、有時超廢。
Harness Engineering 簡介
記錄建立 Next.js Blog 系統後,針對 Brute Force、CSRF、JWT 黑名單、Slug 衝突等資安問題的修復過程。
軟體開發有兩種玩法:「做完就散」的專案模式,以及「養一支長期隊伍」的產品模式。這篇文章用費曼學習法拆解 Martin Fowler 的經典文章,告訴你為什麼現代軟體團隊應該從接案思維轉向產品思維。