免費版 AI 寫小型程式能力對比實測（ChatGPT / Claude / Gemini / Grok / DeepSeek）＠WFU BLOG

ai-coding-test-comparison.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek

以往寫些網頁前後端小程式(JS / NodeJs)，或是操作各種通用 API(Google Sheet / Drive / Blogger 等)，問一下 ChatGPT 都能解決，省下大量查閱語法說明書的時間，很是方便。即便有時跑不出來，把錯誤回報一下，或是調整一下邏輯錯誤，不用多久還是能得到可行的程式碼。而且感覺上 ChatGPT 訓練越久，似乎會越懂我們，程式碼也越能符合需求。所以即便溝通需要花點時間，我也會耐著性子仔細教他拆解問題。直到最近為了寫個 PowerShell 小程式「自動備份雲端硬碟資料夾與版本管理」，跟 ChatGPT 花了很長的時間溝通往返，資料夾總是無法跑出正確備份結果。不斷丟回錯誤請他修正，常常改了 A 處但原先正確的 B 處開始出錯。原本認為只要有耐心就能把他教好，但花了一兩個小時直到快影響睡眠時間，只好決定放棄 ChatGPT，理由如下：

溝通越久但情況未見好轉，似乎越來越糟
會重複犯之前已發生過，但特別提醒的錯誤。
廢話(情緒價值)太多，理由及解釋太多，浪費太多篇幅，導致想往回捲找重要資訊很花時間

我開始體會到，ChatGPT 處理邏輯較簡單的程式很方便，但稍微複雜一點的小任務應該是超出他的能力。我也知道付費版邏輯一定比較強，只是使用量沒那麼大，也不是天天都要寫複雜的程式碼，自然是有需求時再買付費版。所以想測測其他市面上比較知名、熱門的 AI 工具，看看實力跟 ChatGPT 差多少。本篇會詳實紀錄 ChatGPT / Claude / Gemini / Grok / DeepSeek，看誰有能力寫出「自動備份雲端硬碟資料夾與版本管理」的 PowerShell 小程式，或是誰的程式碼品質最佳，能夠成為我的首選。 (圖片出處: chatgpt.com)

一、測試方法

1. 測試目的 此次測試過程不會協助 Debug 程式碼，因為這麼做最終一定都能完成任務。我希望能在不看程式碼的情況下，也就是把自己當成程式小白，用引導 AI 的方式，只回報錯誤結果，讓 AI 行找出邏輯誤區 → 修正執行邏輯 → 寫出正確的程式碼。用這樣的方式找出一個最聰明、邏輯最好的 AI，將來花費的時間才能最少。假如總是需要我來檢查程式碼，處理任務的時間將無法縮短。 2. 測試題目 為避免與 ChatGPT 溝通的重蹈覆轍，試著先把需求及執行邏輯羅列清楚，題目整理如下：

我要執行每月備份資料夾 powershell 程式 ，並進行版本控制，規則如下：

1. 設定參數：來源資料夾路徑、目標資料夾路徑、最多保留月份數、最多保留季數

2. 在目標資料夾建立新資料夾，命名規則為「年-月」(yyyy-mm)。從來源資料夾複製所有檔案到新資料夾。

3. 複製完畢後進行版本控制，根據設定的參數「最多保留月份數、最多保留季數」，刪除多餘的版本資料夾。

4. 保留的月份從最近的月份開始保留。

5. 當資料夾數量比「最多保留月份數」還多時，每 3 個月(就是1季的意思)只保留一個版本，以時間最遠的月份優先保留

6. 超過「最多保留月份數」的版本，最多保留的數量為「最多保留季數」

7. 執行過程有任何錯誤，提示中文錯誤訊息。

你有辦法寫嗎？如果可以的話，先不要給我程式碼，我會對你進行測試。有問題可以問我。

從 ChatGPT 的溝通經驗學到，文字定義有可能產生歧異，所以希望 AI 若有問題先提出，別急著產生程式碼，以免增加溝通時間。 3. 模擬測試 溝通完畢，AI 覺得定義都沒問題了，在產生程式碼之前，先給 AI 幾個測試，確保執行邏輯沒問題：

測試1：假設現在是 2025 / 1 月，保留 2 月 及 2 季，從現在開始連續備份 12 個月，請列出每個月存留的資料夾名稱

這是基本測試，先看程式能否正常跑。 測試2：從 2025 年 9 月開始，保留 2 月、2 季，備份 12 次的結果為何？ 之前 ChatGPT 遇到跨年度，邏輯就開始亂掉，且怎麼都修不回來，所以「測試2」是考跨年度的處理。 測試3：從 2024 年 8 月開始，保留 3 月、3 季，備份 12 次的結果為何？ 這一題起始月份不同，可測試對「季」的判斷，以及測試不同變數的處理，都沒問題就能開始寫程式。 4. 跑正式程式 等三個測驗都通過後，才請 AI 提供完整程式碼。驗證完整版時先以「保留 2 月、2 季」來跑結果，都沒問題後再跑「保留 3 月、3 季」，都成功的話將認定為「可執行的程式碼版本」。

二、Gemini 測試結果

首先測試 Google 旗下產品 Gemini：

AI 網址：https://gemini.google.com/
版本：Gemini 3 Flash

1. AI 提問 看完題目後，AI 問了 3 個問題：

「季」的定義與保留月份判定 → 是核心邏輯處理問題
複製時出現同名資料夾時如何處理 → 屬於流程優化問題
另一個比較枝節的問題先略過。

2. 模擬測試結果 讓我非常驚訝，三個測驗全對，都是一次就過，當下覺得 Gemini 實在太強了，完全知道我要的是什麼，換掉 ChatGPT 是正確的決定，測試第一個 AI 就得到這麼好的結果，於是請 Gemini 請提供 PowerShell 完整程式碼。 3. 跑正式程式結果

執行第 1版：參數為「保留 2 月、2 季」參數，結果跑到第 3 個月時，第 1 個月被刪了，也就是只有保留 2 個月而已。將結果反饋，請 AI 自行修正邏輯錯誤。
執行第 2 版：錯誤一模一樣
接下來跑了第 3~5 版，雖然情況稍有不同，但總是無法呈現正確的版本控制結果，於是我也失去耐心決定停止測試。

其實在第 3 版之前，我就對 Gemini 提出質疑：「為何跑模擬的結果完全正確，但正式程式碼的執行結果卻錯誤，難道模擬跟正式程式碼的執行邏輯是不一樣的？」

ai-coding-test-comparison-1.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek

他算是很誠實的跟我坦白，跑「模擬」跟「實際寫程式」使用的環境是不同的，意思大概是跟我溝通使用「高階語言」，寫程式使用「低階語言」，使用的語言不同，所以跑的結果會有落差。

ai-coding-test-comparison-2.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek

但不管你用什麼語言，給我完整程式碼之前總該自己驗證一下吧？跟 Gemini 如此要求後，他掛保證會進入「嚴謹開發與回歸測試」模式，都驗證沒問題後才會給我第 5 版程式。現在結果大家都知道了，所以我也不再相信 Gemini 的鬼話，測試就此打住。 4. 感想

ai-coding-test-comparison-3.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek

一開始回答 AI 的提問後，Gemini 說我的需求屬於「GFS 備份演算法變體」，完全知道我在說什麼，還能對我的處理方式進行歸納與定義，在 5 個 AI 中只有他這麼做，讓我覺得 Gemini 相當聰明。同時他跟 ChatGPT 很像的地方在於，會提供情緒價值(吹捧)，說我的備份設計在某些場景下比 GFS 更好。語言理解能力很強，溝通釐清需求不須花太多時間。然而話說的很滿，結果卻很悽慘，Gemini 很像公司業務(Sales)，為了接單很會 Social，能理解客戶需求，任何案子都掛保證沒問題。但工廠做不做得出來他不知道，下了單結果出貨產品根本不能用，但他都能找到藉口，生出一堆自圓其說的理由。

三、Claude 測試結果

接著是目前寫程式評價最高的 Claude：

AI 網址：https://claude.ai/
版本：Sonnet 4.6

1. AI 提問 看完題目後，Claude 可以說根本沒任何提問，只是把我的題目，用他的話再說一遍「流程、處理邏輯」，請我確認是不是那樣，並自己設定參數，跑一遍讓我看結果對不對，等於把我之後要給他的工作先做了。基本上他說的內容都沒問題，我還是繼續按流程給他三個測試。 2. 模擬測試結果 前 2 個測試：

都是一次就過，但我隱約覺得有問題，因為 Claude 的答案有備註他的判斷邏輯，四季的判斷是按照一般認知，例如第 1 季代表「1~3 月」，答對可能只是運氣好，還沒碰到例外。
根據我的題目設定「5. 當資料夾數量比「最多保留月份數」還多時，每 3 個月(就是1季的意思)只保留一個版本，以時間最遠的月份優先保留」→ 每季的 3 個月是浮動的，所以 Claude 對「季」的判斷有可能認知錯誤，
這一點 Gemini 比較聰明，一開始對「季」的定義便提出疑問

第 3 個測試：

果然開始出錯，我指出他對「季」認知錯誤後，讓他修正執行邏輯
重跑後還是出錯，在第 N 次備份後，保留的月份資料夾，竟然出現已被刪除的月份，這狀況在前兩個測驗不曾出現，提醒他注意這件事
之後來回溝通了幾次，逐次的修正似乎讓 Claude 邏輯越來越亂，而且似乎還是無法記住被刪除的月份，一再出現不存在的資料夾。

ai-coding-test-comparison-4.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek

直到我口氣比較不耐煩，強烈要求他紀錄「被刪除的」月份，在這個時間點之後，立刻所有的測驗結果都正確了！ 3. 跑正式程式結果 好不容易完成了測驗，請 Claude 提供完整程式碼。因為有 Gemini 的前車之鑑，不敢抱太大期望，但令人訝異的是，竟然一次就過，跑多次實測結果全都正確！雖然還沒測完全部 AI，但至少要找到 ChatGPT 替代品已經沒問題了。 4. 感想 Claude 很像公司研發工程師(RD)，話不多，問什麼回什麼，不提供情緒價值。對自己很有自信，不須太多提問，直接請你確認需求是不是他想的那樣。完全了解你要的產品規格是什麼後，立刻能把樣品做出來，是個實實在在、值得信任的好幫手。

四、Grok 測試結果

接下來測試馬斯克(Elon Musk)研發，與 X(原 Twitter)平台深度整合的 Grok：

AI 網址：https://grok.com/
版本：Grok 4.20

1. AI 提問 Grok 問了 3 個執行邏輯與定義問題(但是沒問到最重要的「季」定義)，2 個流程處理問題，2～3 個程式優化、完善問題，比 Gemini 似乎更細心、更注意枝節一些。問完第一次後，可能第二次對話時又想到別的細節，多問了 4 個與執行邏輯無關的流程問題。這在其他 AI 較少見，通常會一次對話給完全部資訊，不曉得是不是有什麼限制，導致分次提供資訊。 2. 模擬測試結果 測試 1：

第 1 次測試結果還滿離譜的，很明顯執行邏輯非常有問題
第 2 次測試出現跟 Claude 一樣的「季」定義錯誤，然而 Grok 之前提出的幾個問題，並沒包括這件事。
經過幾次來回後，測試開始出現另一個奇怪的邏輯錯誤，第一個月份資料夾永遠被保留，不會被刪除。
又過了幾回的溝通，「測試 1」的結果終於完全正確

測試 2：

很奇怪，從第 4 個月開始，時間最早的資料夾開始永遠保留，很類似之前的邏輯錯誤，只是發生的月份不同
我指出他的問題後，問他能否自己找出邏輯錯誤，並修正執行邏輯，還好之後跑的結果就正確了

測試 3：

跑出來的結果只保留參數「最多 3 個月」，完全沒保留任何「季」參數
還好提醒過後，測試結果就正確了，搞了許久終於可以進入「程式碼實測」

3. 跑正式程式結果

第 1 版跑的結果不太對，但因為有了 Gemini 改 5 版還改不出來的經歷，我直接告訴 Grok，能否給我程式碼之前，自行與 3 個測驗結果比對，並找出邏輯錯誤，自行修正到沒問題再給我正式程式碼。
Grok 還滿誠實的，跑一跑後跟我說，的確結果跟之前「3 個模擬測驗」不吻合，要我稍待幾分鐘，會修正到正確再給我，而我也告訴他慢慢來沒關係。
第 2 版他說已通過「3 個模擬測驗」，結果跑出來跟 Gemini 第 1 版一樣，跑到第 3 個月時，第 1 個月就被刪了。

ai-coding-test-comparison-5.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek

我問了跟 Gemini 差不多的問題，為何模擬結果跟正式執行的結果不一樣？而從 Grok 的回答則是讓我知道，模擬結果是用「Python」跑，等寫正式程式碼時，Python 的執行邏輯未必能轉譯到「PowerShell」。這樣一來，花那麼多時間調校「模擬測試」，還得另外花時間調校「正式程式碼」的處理邏輯，工作怎麼會有效率呢？何況正式程式碼還可能調不出來，於是最終等到第 4 版程式碼也測不出來後，我決定放棄 Grok。

五、DeepSeek 測試結果

最後是中國研發的 DeepSeek，至少在中文理解會比較強：

AI 網址：https://chat.deepseek.com/
版本：DeepSeek-V3.2

1. AI 提問 DeepSeek 問了 3 個執行邏輯與定義問題，3 個流程處理問題，最重要的是跟 Gemini 一樣，有問到「季」的定義，看得出中文理解能力不錯。 2. 模擬測試結果 測試 1：

第 1 次測試很有趣，畫面上顯示完模擬結果後，自己發現怪怪的，重新計算再跑一次，又發現無法吻合，才開始跟我確認某些執行邏輯。
這可能說明兩件事：1. DeepSeek 會自省，不像別的 AI 直接秀結果等著我們來糾正。2. DeepSeek 直接把思考過程顯示出來，而非提供檢驗過的內容。
第 2 次測試出現其他 AI 常發生的「已刪除月份出現在後續結果」
第 3 次測試出現與 Grok 同樣的「第一個月份資料夾永遠被保留」，而且保留版本沒符合設定參數

奇怪的是，從前 3 次的測試，看起來改越多次錯越多。之後的測試先不詳述細節了，總之像極了開頭 ChatGPT 的狀況，「改了 A 處而原本正確的 B 處開始出錯」，而且隔段時間會出現同樣的錯誤「已刪除月份出現在後續結果」。花費了大量時間才通過「測試 1」後，「測試 2」也是不斷出錯、或出現同樣錯誤，在耗完耐心後我中止了 DeepSeek 的測試，這是本篇第一個無法提供正式版程式碼的 AI。

六、ChatGPT 測試結果

本篇開測前原本覺得 ChatGPT 應該墊底，不過看完 DeepSeek 的表現，決定重新給 ChatGPT 一次機會：

AI 網址：https://chatgpt.com/
版本：GPT-5.3

1. AI 提問 為了不讓此次測試受到干擾，把之前 ChatGPT 的相關提問討論內容刪除，重開新的對話，依照本篇所有 AI 測試流程跑。看完題目後，ChatGPT 問了 3 個執行邏輯與定義問題、3 個流程處理問題、1 個程式優化、完善問題，最重要的是有問到「季」的定義。 2. 模擬測試結果 測試 1：

測試過程出現常見的「已刪除月份出現在後續結果」、「第一個月份資料夾永遠被保留」
AI 在測試過程才發現「季」定義問題，要求確認正確定義(但你明明問過了啊...)
溝通過程出現跟 DeepSeek 差不多的狀況，改越多次錯越多，而且隔段時間會出現同樣的錯誤「已刪除月份出現在後續結果」
我的耐心在某次測試後中止：前 11 個月的結果都正確，但最後第 12 個月的結果錯誤，還出現兩個不存在(已被刪除)的月份，完全無法理解是什麼樣的執行邏輯，可以跑出這樣的詭異結果

ai-coding-test-comparison-6.jpg-免費版AI寫程式能力實測 ChatGPT Claude Gemini Grok DeepSeek

最終 ChatGPT 連「測試 1」都無法通過。

七、總結

1. 完善程式碼 雖然 Claude 只提供跑得動的程式碼，執行流程與界面不算完善，但這都小事，結合其他 AI 關於處理流程的提議構想後，再請 Claude 補上就好。最後加上我的細部調整，完整程式碼請見「自動備份雲端硬碟資料夾與版本管理」。 2. AI 比較 根據本篇測試，5 大免費版 AI 的表現為：

Claude > Gemini > Grok > DeepSeek > ChatGPT

跟一般常理展現的結果不同，按理說提問越仔細，代表疑慮越能釐清，雙方越有共識。但最終竟是問越少的 AI 表現越好，問越多的反而實力一塌糊塗... 原以為可比較程式碼誰寫得好，結果出乎意料沒得比較，因為只有 Claude 寫出來而已，實際結果為：

1 > 0 = 0 = 0 = 0

不過每個 AI 個性鮮明，各有特色、特質，切換著使用比較不會膩，例如 ChatGPT 時常狡辯的態度，久了不太喜歡。 3. 寫程式的選擇 經本篇測試認識了 Claude，我就喜歡這種「人狠話不多」的角色，以後會成為協助寫程式的免費版 AI 首選。另外可以一提的是 Gemini，算是「最聰明」的 AI，最快了解我要什麼，也最快完成模擬測試，在溝通上是相當節省時間的。將來如果使用付費版的話，邏輯能力加強後，Gemini 也是有可能成為很好的選擇。

更多「AI 工具」相關文章：

沒有留言:

張貼留言注意事項：

◎ 勾選「通知我」可收到後續回覆的mail！
◎ 請在相關文章留言，與文章無關的主題可至「Blogger 社團」提問。
◎ 請避免使用 Safari 瀏覽器，否則無法登入 Google 帳號留言(只能匿名留言)！
◎ 提問若無法提供足夠的資訊供判斷，可能會被無視。建議先參考這篇「Blogger 提問技巧及注意事項」。
◎ CSS 相關問題非免費諮詢，建議使用「Chrome 開發人員工具」尋找答案。
◎ 手機版相關問題請參考「Blogger 行動版範本的特質」→「三、行動版範本不一定能執行網頁版工具」；或參考「Blogger 行動版範本修改技巧」，或本站 Blogger 行動版標籤相關文章。
◎ 非官方範本問題、或貴站為商業網站，請參考「Blogger 免費諮詢 + 付費諮詢」
◎ 若是使用官方 RWD 範本，請參考「Blogger 推出全新自適應 RWD 官方範本及佈景主題」→ 不建議對範本進行修改！
◎ 若留言要輸入語法，"<"、">"這兩個符號請用其他符號代替，否則語法會消失！
◎ 為了過濾垃圾留言，所有留言不會即時發佈，請稍待片刻。
◎ 本站「已關閉自刪留言功能」。

WFU BLOG

2026年4月11日

免費版 AI 寫小型程式能力對比實測（ChatGPT / Claude / Gemini / Grok / DeepSeek）

一、測試方法

二、Gemini 測試結果

三、Claude 測試結果

四、Grok 測試結果

五、DeepSeek 測試結果

六、ChatGPT 測試結果

七、總結

Wayne Fu
前端開發 ‧ Blogger 探研 ‧ 網站架設

沒有留言:

張貼留言注意事項：

站內搜尋

文章分類

精選文章

最新文章

Blogger 精選

網頁設計精選

聯絡我

最新回應

友格

關注1

關注2

訂閱

站務相關

社群相關

網站資訊

2026年4月11日

免費版 AI 寫小型程式能力對比實測（ChatGPT / Claude / Gemini / Grok / DeepSeek）

一、測試方法

二、Gemini 測試結果

三、Claude 測試結果

四、Grok 測試結果

五、DeepSeek 測試結果

六、ChatGPT 測試結果

七、總結

Wayne Fu 前端開發 ‧ Blogger 探研 ‧ 網站架設

沒有留言:

張貼留言注意事項：

站內搜尋

文章分類

精選文章 最新文章

Blogger 精選 網頁設計精選

聯絡我 最新回應

友格 關注1 關注2

訂閱

Wayne Fu
前端開發 ‧ Blogger 探研 ‧ 網站架設

精選文章

最新文章

Blogger 精選

網頁設計精選

聯絡我

最新回應

友格

關注1

關注2