2026年4月11日

免費版 AI 寫小型程式能力對比實測(ChatGPT / Claude / Gemini / Grok / DeepSeek)

免費版 AI 寫小型程式能力對比實測(ChatGPT / Claude / Gemini / Grok / DeepSeek)

Wayne Fu 0 A+
ai-coding-test-comparison.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek以往寫些網頁前後端小程式(JS / NodeJs),或是操作各種通用 API(Google Sheet / Drive / Blogger 等),問一下 ChatGPT 都能解決,省下大量查閱語法說明書的時間,很是方便。即便有時跑不出來,把錯誤回報一下,或是調整一下邏輯錯誤,不用多久還是能得到可行的程式碼。 而且感覺上 ChatGPT 訓練越久,似乎會越懂我們,程式碼也越能符合需求。所以即便溝通需要花點時間,我也會耐著性子仔細教他拆解問題。 直到最近為了寫個 PowerShell 小程式「自動備份雲端硬碟資料夾與版本管理」,跟 ChatGPT 花了很長的時間溝通往返,資料夾總是無法跑出正確備份結果。不斷丟回錯誤請他修正,常常改了 A 處但原先正確的 B 處開始出錯。原本認為只要有耐心就能把他教好,但花了一兩個小時直到快影響睡眠時間,只好決定放棄 ChatGPT,理由如下:
  • 溝通越久但情況未見好轉,似乎越來越糟
  • 會重複犯之前已發生過,但特別提醒的錯誤。
  • 廢話(情緒價值)太多,理由及解釋太多,浪費太多篇幅,導致想往回捲找重要資訊很花時間
我開始體會到,ChatGPT 處理邏輯較簡單的程式很方便,但稍微複雜一點的小任務應該是超出他的能力。我也知道付費版邏輯一定比較強,只是使用量沒那麼大,也不是天天都要寫複雜的程式碼,自然是有需求時再買付費版。 所以想測測其他市面上比較知名、熱門的 AI 工具,看看實力跟 ChatGPT 差多少。本篇會詳實紀錄 ChatGPT / Claude / Gemini / Grok / DeepSeek,看誰有能力寫出「自動備份雲端硬碟資料夾與版本管理」的 PowerShell 小程式,或是誰的程式碼品質最佳,能夠成為我的首選。 (圖片出處: chatgpt.com)

一、測試方法

1. 測試目的 此次測試過程不會協助 Debug 程式碼,因為這麼做最終一定都能完成任務。我希望能在不看程式碼的情況下,也就是把自己當成程式小白,用引導 AI 的方式,只回報錯誤結果,讓 AI 行找出邏輯誤區 → 修正執行邏輯 → 寫出正確的程式碼。 用這樣的方式找出一個最聰明、邏輯最好的 AI,將來花費的時間才能最少。假如總是需要我來檢查程式碼,處理任務的時間將無法縮短。 2. 測試題目 為避免與 ChatGPT 溝通的重蹈覆轍,試著先把需求及執行邏輯羅列清楚,題目整理如下: 我要執行每月備份資料夾 powershell 程式 ,並進行版本控制,規則如下: 1. 設定參數:來源資料夾路徑、目標資料夾路徑、最多保留月份數、最多保留季數 2. 在目標資料夾建立新資料夾,命名規則為「年-月」(yyyy-mm)。從來源資料夾複製所有檔案到新資料夾。 3. 複製完畢後進行版本控制,根據設定的參數「最多保留月份數、最多保留季數」,刪除多餘的版本資料夾。 4. 保留的月份從最近的月份開始保留。 5. 當資料夾數量比「最多保留月份數」還多時,每 3 個月(就是1季的意思)只保留一個版本,以時間最遠的月份優先保留 6. 超過「最多保留月份數」的版本,最多保留的數量為「最多保留季數」 7. 執行過程有任何錯誤,提示中文錯誤訊息。 你有辦法寫嗎?如果可以的話,先不要給我程式碼,我會對你進行測試。有問題可以問我。 從 ChatGPT 的溝通經驗學到,文字定義有可能產生歧異,所以希望 AI 若有問題先提出,別急著產生程式碼,以免增加溝通時間。 3. 模擬測試 溝通完畢,AI 覺得定義都沒問題了,在產生程式碼之前,先給 AI 幾個測試,確保執行邏輯沒問題: 測試1:假設現在是 2025 / 1 月,保留 2 月 及 2 季,從現在開始連續備份 12 個月,請列出每個月存留的資料夾名稱 這是基本測試,先看程式能否正常跑。 測試2:從 2025 年 9 月開始,保留 2 月、2 季,備份 12 次的結果為何? 之前 ChatGPT 遇到跨年度,邏輯就開始亂掉,且怎麼都修不回來,所以「測試2」是考跨年度的處理。 測試3:從 2024 年 8 月開始,保留 3 月、3 季,備份 12 次的結果為何? 這一題起始月份不同,可測試對「季」的判斷,以及測試不同變數的處理,都沒問題就能開始寫程式。 4. 跑正式程式 等三個測驗都通過後,才請 AI 提供完整程式碼。驗證完整版時先以「保留 2 月、2 季」來跑結果,都沒問題後再跑「保留 3 月、3 季」,都成功的話將認定為「可執行的程式碼版本」。

二、Gemini 測試結果

首先測試 Google 旗下產品 Gemini: 1. AI 提問 看完題目後,AI 問了 3 個問題:
  • 「季」的定義與保留月份判定 → 是核心邏輯處理問題
  • 複製時出現同名資料夾時如何處理 → 屬於流程優化問題
  • 另一個比較枝節的問題先略過。
2. 模擬測試結果 讓我非常驚訝,三個測驗全對,都是一次就過,當下覺得 Gemini 實在太強了,完全知道我要的是什麼,換掉 ChatGPT 是正確的決定,測試第一個 AI 就得到這麼好的結果,於是請 Gemini 請提供 PowerShell 完整程式碼。 3. 跑正式程式結果
  • 執行第 1版:參數為「保留 2 月、2 季」參數,結果跑到第 3 個月時,第 1 個月被刪了,也就是只有保留 2 個月而已。將結果反饋,請 AI 自行修正邏輯錯誤。
  • 執行第 2 版:錯誤一模一樣
  • 接下來跑了第 3~5 版,雖然情況稍有不同,但總是無法呈現正確的版本控制結果,於是我也失去耐心決定停止測試。
其實在第 3 版之前,我就對 Gemini 提出質疑:「為何跑模擬的結果完全正確,但正式程式碼的執行結果卻錯誤,難道模擬跟正式程式碼的執行邏輯是不一樣的?」 ai-coding-test-comparison-1.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek 他算是很誠實的跟我坦白,跑「模擬」跟「實際寫程式」使用的環境是不同的,意思大概是跟我溝通使用「高階語言」,寫程式使用「低階語言」,使用的語言不同,所以跑的結果會有落差。 ai-coding-test-comparison-2.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek 但不管你用什麼語言,給我完整程式碼之前總該自己驗證一下吧?跟 Gemini 如此要求後,他掛保證會進入「嚴謹開發與回歸測試」模式,都驗證沒問題後才會給我第 5 版程式。 現在結果大家都知道了,所以我也不再相信 Gemini 的鬼話,測試就此打住。 4. 感想 ai-coding-test-comparison-3.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek 一開始回答 AI 的提問後,Gemini 說我的需求屬於「GFS 備份演算法變體」,完全知道我在說什麼,還能對我的處理方式進行歸納與定義,在 5 個 AI 中只有他這麼做,讓我覺得 Gemini 相當聰明。 同時他跟 ChatGPT 很像的地方在於,會提供情緒價值(吹捧),說我的備份設計在某些場景下比 GFS 更好。語言理解能力很強,溝通釐清需求不須花太多時間。 然而話說的很滿,結果卻很悽慘,Gemini 很像公司業務(Sales),為了接單很會 Social,能理解客戶需求,任何案子都掛保證沒問題。但工廠做不做得出來他不知道,下了單結果出貨產品根本不能用,但他都能找到藉口,生出一堆自圓其說的理由。

三、Claude 測試結果

接著是目前寫程式評價最高的 Claude: 1. AI 提問 看完題目後,Claude 可以說根本沒任何提問,只是把我的題目,用他的話再說一遍「流程、處理邏輯」,請我確認是不是那樣,並自己設定參數,跑一遍讓我看結果對不對,等於把我之後要給他的工作先做了。 基本上他說的內容都沒問題,我還是繼續按流程給他三個測試。 2. 模擬測試結果 前 2 個測試:
  • 都是一次就過,但我隱約覺得有問題,因為 Claude 的答案有備註他的判斷邏輯,四季的判斷是按照一般認知,例如第 1 季代表「1~3 月」,答對可能只是運氣好,還沒碰到例外。
  • 根據我的題目設定「5. 當資料夾數量比「最多保留月份數」還多時,每 3 個月(就是1季的意思)只保留一個版本,以時間最遠的月份優先保留」→ 每季的 3 個月是浮動的,所以 Claude 對「季」的判斷有可能認知錯誤,
  • 這一點 Gemini 比較聰明,一開始對「季」的定義便提出疑問
第 3 個測試:
  • 果然開始出錯,我指出他對「季」認知錯誤後,讓他修正執行邏輯
  • 重跑後還是出錯,在第 N 次備份後,保留的月份資料夾,竟然出現已被刪除的月份,這狀況在前兩個測驗不曾出現,提醒他注意這件事
  • 之後來回溝通了幾次,逐次的修正似乎讓 Claude 邏輯越來越亂,而且似乎還是無法記住被刪除的月份,一再出現不存在的資料夾。
ai-coding-test-comparison-4.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek 直到我口氣比較不耐煩,強烈要求他紀錄「被刪除的」月份,在這個時間點之後,立刻所有的測驗結果都正確了! 3. 跑正式程式結果 好不容易完成了測驗,請 Claude 提供完整程式碼。因為有 Gemini 的前車之鑑,不敢抱太大期望,但令人訝異的是,竟然一次就過,跑多次實測結果全都正確! 雖然還沒測完全部 AI,但至少要找到 ChatGPT 替代品已經沒問題了。 4. 感想 Claude 很像公司研發工程師(RD),話不多,問什麼回什麼,不提供情緒價值。對自己很有自信,不須太多提問,直接請你確認需求是不是他想的那樣。完全了解你要的產品規格是什麼後,立刻能把樣品做出來,是個實實在在、值得信任的好幫手。

四、Grok 測試結果

接下來測試馬斯克(Elon Musk)研發,與 X(原 Twitter)平台深度整合的 Grok: 1. AI 提問 Grok 問了 3 個執行邏輯與定義問題(但是沒問到最重要的「季」定義),2 個流程處理問題,2~3 個程式優化、完善問題,比 Gemini 似乎更細心、更注意枝節一些。 問完第一次後,可能第二次對話時又想到別的細節,多問了 4 個與執行邏輯無關的流程問題。這在其他 AI 較少見,通常會一次對話給完全部資訊,不曉得是不是有什麼限制,導致分次提供資訊。 2. 模擬測試結果 測試 1:
  • 第 1 次測試結果還滿離譜的,很明顯執行邏輯非常有問題
  • 第 2 次測試出現跟 Claude 一樣的「季」定義錯誤,然而 Grok 之前提出的幾個問題,並沒包括這件事。
  • 經過幾次來回後,測試開始出現另一個奇怪的邏輯錯誤,第一個月份資料夾永遠被保留,不會被刪除。
  • 又過了幾回的溝通,「測試 1」的結果終於完全正確
測試 2:
  • 很奇怪,從第 4 個月開始,時間最早的資料夾開始永遠保留,很類似之前的邏輯錯誤,只是發生的月份不同
  • 我指出他的問題後,問他能否自己找出邏輯錯誤,並修正執行邏輯,還好之後跑的結果就正確了
測試 3:
  • 跑出來的結果只保留參數「最多 3 個月」,完全沒保留任何「 季」參數
  • 還好提醒過後,測試結果就正確了,搞了許久終於可以進入「程式碼實測」
3. 跑正式程式結果
  • 第 1 版跑的結果不太對,但因為有了 Gemini 改 5 版還改不出來的經歷,我直接告訴 Grok,能否給我程式碼之前,自行與 3 個測驗結果比對,並找出邏輯錯誤,自行修正到沒問題再給我正式程式碼。
  • Grok 還滿誠實的,跑一跑後跟我說,的確結果跟之前「3 個模擬測驗」不吻合,要我稍待幾分鐘,會修正到正確再給我,而我也告訴他慢慢來沒關係。
  • 第 2 版他說已通過「3 個模擬測驗」,結果跑出來跟 Gemini 第 1 版一樣,跑到第 3 個月時,第 1 個月就被刪了。
ai-coding-test-comparison-5.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek 我問了跟 Gemini 差不多的問題,為何模擬結果跟正式執行的結果不一樣?而從 Grok 的回答則是讓我知道,模擬結果是用「Python」跑,等寫正式程式碼時,Python 的執行邏輯未必能轉譯到「PowerShell」。 這樣一來,花那麼多時間調校「模擬測試」,還得另外花時間調校「正式程式碼」的處理邏輯,工作怎麼會有效率呢?何況正式程式碼還可能調不出來,於是最終等到第 4 版程式碼也測不出來後,我決定放棄 Grok。

五、DeepSeek 測試結果

最後是中國研發的 DeepSeek,至少在中文理解會比較強: 1. AI 提問 DeepSeek 問了 3 個執行邏輯與定義問題,3 個流程處理問題,最重要的是跟 Gemini 一樣,有問到「季」的定義,看得出中文理解能力不錯。 2. 模擬測試結果 測試 1:
  • 第 1 次測試很有趣,畫面上顯示完模擬結果後,自己發現怪怪的,重新計算再跑一次,又發現無法吻合,才開始跟我確認某些執行邏輯。
  • 這可能說明兩件事:1. DeepSeek 會自省,不像別的 AI 直接秀結果等著我們來糾正。2. DeepSeek 直接把思考過程顯示出來,而非提供檢驗過的內容。
  • 第 2 次測試出現其他 AI 常發生的「已刪除月份出現在後續結果」
  • 第 3 次測試出現與 Grok 同樣的「第一個月份資料夾永遠被保留」,而且保留版本沒符合設定參數
奇怪的是,從前 3 次的測試,看起來改越多次錯越多。之後的測試先不詳述細節了,總之像極了開頭 ChatGPT 的狀況,「改了 A 處而原本正確的 B 處開始出錯」,而且隔段時間會出現同樣的錯誤「已刪除月份出現在後續結果」。 花費了大量時間才通過「測試 1」後,「測試 2」也是不斷出錯、或出現同樣錯誤,在耗完耐心後我中止了 DeepSeek 的測試,這是本篇第一個無法提供正式版程式碼的 AI。

六、ChatGPT 測試結果

本篇開測前原本覺得 ChatGPT 應該墊底,不過看完 DeepSeek 的表現,決定重新給 ChatGPT 一次機會: 1. AI 提問 為了不讓此次測試受到干擾,把之前 ChatGPT 的相關提問討論內容刪除,重開新的對話,依照本篇所有 AI 測試流程跑。 看完題目後,ChatGPT 問了 3 個執行邏輯與定義問題、3 個流程處理問題、1 個程式優化、完善問題,最重要的是有問到「季」的定義。 2. 模擬測試結果 測試 1:
  • 測試過程出現常見的「已刪除月份出現在後續結果」、「第一個月份資料夾永遠被保留」
  • AI 在測試過程才發現「季」定義問題,要求確認正確定義(但你明明問過了啊...)
  • 溝通過程出現跟 DeepSeek 差不多的狀況,改越多次錯越多,而且隔段時間會出現同樣的錯誤「已刪除月份出現在後續結果」
  • 我的耐心在某次測試後中止:前 11 個月的結果都正確,但最後第 12 個月的結果錯誤,還出現兩個不存在(已被刪除)的月份,完全無法理解是什麼樣的執行邏輯,可以跑出這樣的詭異結果
ai-coding-test-comparison-6.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek 最終 ChatGPT 連「測試 1」都無法通過。

七、總結

1. 完善程式碼 雖然 Claude 只提供跑得動的程式碼,執行流程與界面不算完善,但這都小事,結合其他 AI 關於處理流程的提議構想後,再請 Claude 補上就好。最後加上我的細部調整,完整程式碼請見「自動備份雲端硬碟資料夾與版本管理」。 2. AI 比較 根據本篇測試,5 大免費版 AI 的表現為:
  • Claude > Gemini > Grok > DeepSeek > ChatGPT
跟一般常理展現的結果不同,按理說提問越仔細,代表疑慮越能釐清,雙方越有共識。但最終竟是問越少的 AI 表現越好,問越多的反而實力一塌糊塗... 原以為可比較程式碼誰寫得好,結果出乎意料沒得比較,因為只有 Claude 寫出來而已,實際結果為:
  • 1 > 0 = 0 = 0 = 0
不過每個 AI 個性鮮明,各有特色、特質,切換著使用比較不會膩,例如 ChatGPT 時常狡辯的態度,久了不太喜歡。 3. 寫程式的選擇 經本篇測試認識了 Claude,我就喜歡這種「人狠話不多」的角色,以後會成為協助寫程式的免費版 AI 首選。 另外可以一提的是 Gemini,算是「最聰明」的 AI,最快了解我要什麼,也最快完成模擬測試,在溝通上是相當節省時間的。將來如果使用付費版的話,邏輯能力加強後,Gemini 也是有可能成為很好的選擇。
更多「AI 工具」相關文章:
0 0
如這篇文章對你有幫助,歡迎「分享」到 FB、「追蹤」粉絲團、「訂閱」最新文章

沒有留言:

張貼留言注意事項:

◎ 勾選「通知我」可收到後續回覆的mail!
◎ 請在相關文章留言,與文章無關的主題可至「Blogger 社團」提問。
◎ 請避免使用 Safari 瀏覽器,否則無法登入 Google 帳號留言(只能匿名留言)!
◎ 提問若無法提供足夠的資訊供判斷,可能會被無視。建議先參考這篇「Blogger 提問技巧及注意事項」。
◎ CSS 相關問題非免費諮詢,建議使用「Chrome 開發人員工具」尋找答案。
◎ 手機版相關問題請參考「Blogger 行動版範本的特質」→「三、行動版範本不一定能執行網頁版工具」;或參考「Blogger 行動版範本修改技巧 」,或本站 Blogger 行動版標籤相關文章。
◎ 非官方範本問題、或貴站為商業網站,請參考「Blogger 免費諮詢 + 付費諮詢
◎ 若是使用官方 RWD 範本,請參考「Blogger 推出全新自適應 RWD 官方範本及佈景主題」→ 不建議對範本進行修改!
◎ 若留言要輸入語法,"<"、">"這兩個符號請用其他符號代替,否則語法會消失!
◎ 為了過濾垃圾留言,所有留言不會即時發佈,請稍待片刻。
◎ 本站「已關閉自刪留言功能」。

TOP