2025年1月26日 星期日

DeepSeek-R1目前理解

DeepSeek-R1基本上是一個large language model (LLM) + reinforcement learning(強化學習),這是最新的趨勢,讓AI “think” before answer,在上一個世代的LLM (ChatGPT-4o以前),基本上是給LLM一些chain of thought prompt engineering讓LLM學習如何模仿人類思考去增進output。現在ChatGPT o1 and DeepSeek-R1這類最新的模型不再需要chain of thought prompt engineering,直接在模型建立的時候在原本以Attention mechanism為基底的LLM加上reinforcement learning(一種回饋機制),讓AI學會reasoning,學習複雜的問題,但Open AI自己也說了,這類模型回答的時間和成本會增加很多,所以一般不那麼複雜的問題用o1-mini或者4o以前的模型就可以了。個人意見覺得DeepSeek-R1最厲害的一點是開源,會一點coding的人可以locally run看看,它厲害的是便宜而不是超越o1,而且Open AI已經要release o3了,應該又會是一個大幅提升的版本。但我認為醫療真的是很複雜的情境而且不能出錯,最先被取代的可能是那些初階程式工程師,以前3個月才能完成一個App現在一個星期就能完成了。

一個有趣的知識:DeepSeek母公司是一間量化投資公司叫做幻方量化,靠程式投資股票賺錢,買了一堆GPU,現在轉行做LLM一鳴驚人。 DeepSeek-R1論文 https://arxiv.org/abs/2501.12948