以往寫些網頁前後端小程式(JS / NodeJs),或是操作各種通用 API(Google Sheet / Drive / Blogger 等),問一下 ChatGPT 都能解決,省下大量查閱語法說明書的時間,很是方便。即便有時跑不出來,把錯誤回報一下,或是調整一下邏輯錯誤,不用多久還是能得到可行的程式碼。
而且感覺上 ChatGPT 訓練越久,似乎會越懂我們,程式碼也越能符合需求。所以即便溝通需要花點時間,我也會耐著性子仔細教他拆解問題。
直到最近為了寫個 PowerShell 小程式「自動備份雲端硬碟資料夾與版本管理」,跟 ChatGPT 花了很長的時間溝通往返,資料夾總是無法跑出正確備份結果。不斷丟回錯誤請他修正,常常改了 A 處但原先正確的 B 處開始出錯。原本認為只要有耐心就能把他教好,但花了一兩個小時直到快影響睡眠時間,只好決定放棄 ChatGPT,理由如下:
- 溝通越久但情況未見好轉,似乎越來越糟
- 會重複犯之前已發生過,但特別提醒的錯誤。
- 廢話(情緒價值)太多,理由及解釋太多,浪費太多篇幅,導致想往回捲找重要資訊很花時間
一、測試方法
1. 測試目的 此次測試過程不會協助 Debug 程式碼,因為這麼做最終一定都能完成任務。我希望能在不看程式碼的情況下,也就是把自己當成程式小白,用引導 AI 的方式,只回報錯誤結果,讓 AI 行找出邏輯誤區 → 修正執行邏輯 → 寫出正確的程式碼。 用這樣的方式找出一個最聰明、邏輯最好的 AI,將來花費的時間才能最少。假如總是需要我來檢查程式碼,處理任務的時間將無法縮短。 2. 測試題目 為避免與 ChatGPT 溝通的重蹈覆轍,試著先把需求及執行邏輯羅列清楚,題目整理如下:我要執行每月備份資料夾 powershell 程式 ,並進行版本控制,規則如下:
1. 設定參數:來源資料夾路徑、目標資料夾路徑、最多保留月份數、最多保留季數
2. 在目標資料夾建立新資料夾,命名規則為「年-月」(yyyy-mm)。從來源資料夾複製所有檔案到新資料夾。
3. 複製完畢後進行版本控制,根據設定的參數「最多保留月份數、最多保留季數」,刪除多餘的版本資料夾。
4. 保留的月份從最近的月份開始保留。
5. 當資料夾數量比「最多保留月份數」還多時,每 3 個月(就是1季的意思)只保留一個版本,以時間最遠的月份優先保留
6. 超過「最多保留月份數」的版本,最多保留的數量為「最多保留季數」
7. 執行過程有任何錯誤,提示中文錯誤訊息。
你有辦法寫嗎?如果可以的話,先不要給我程式碼,我會對你進行測試。有問題可以問我。
從 ChatGPT 的溝通經驗學到,文字定義有可能產生歧異,所以希望 AI 若有問題先提出,別急著產生程式碼,以免增加溝通時間。
3. 模擬測試
溝通完畢,AI 覺得定義都沒問題了,在產生程式碼之前,先給 AI 幾個測試,確保執行邏輯沒問題:
測試1:假設現在是 2025 / 1 月,保留 2 月 及 2 季,從現在開始連續備份 12 個月,請列出每個月存留的資料夾名稱
這是基本測試,先看程式能否正常跑。
測試2:從 2025 年 9 月開始,保留 2 月、2 季,備份 12 次的結果為何?
之前 ChatGPT 遇到跨年度,邏輯就開始亂掉,且怎麼都修不回來,所以「測試2」是考跨年度的處理。
測試3:從 2024 年 8 月開始,保留 3 月、3 季,備份 12 次的結果為何?
這一題起始月份不同,可測試對「季」的判斷,以及測試不同變數的處理,都沒問題就能開始寫程式。
4. 跑正式程式
等三個測驗都通過後,才請 AI 提供完整程式碼。驗證完整版時先以「保留 2 月、2 季」來跑結果,都沒問題後再跑「保留 3 月、3 季」,都成功的話將認定為「可執行的程式碼版本」。
二、Gemini 測試結果
首先測試 Google 旗下產品 Gemini:- AI 網址:https://gemini.google.com/
- 版本:Gemini 3 Flash
- 「季」的定義與保留月份判定 → 是核心邏輯處理問題
- 複製時出現同名資料夾時如何處理 → 屬於流程優化問題
- 另一個比較枝節的問題先略過。
- 執行第 1版:參數為「保留 2 月、2 季」參數,結果跑到第 3 個月時,第 1 個月被刪了,也就是只有保留 2 個月而已。將結果反饋,請 AI 自行修正邏輯錯誤。
- 執行第 2 版:錯誤一模一樣
- 接下來跑了第 3~5 版,雖然情況稍有不同,但總是無法呈現正確的版本控制結果,於是我也失去耐心決定停止測試。
他算是很誠實的跟我坦白,跑「模擬」跟「實際寫程式」使用的環境是不同的,意思大概是跟我溝通使用「高階語言」,寫程式使用「低階語言」,使用的語言不同,所以跑的結果會有落差。
但不管你用什麼語言,給我完整程式碼之前總該自己驗證一下吧?跟 Gemini 如此要求後,他掛保證會進入「嚴謹開發與回歸測試」模式,都驗證沒問題後才會給我第 5 版程式。
現在結果大家都知道了,所以我也不再相信 Gemini 的鬼話,測試就此打住。
4. 感想
一開始回答 AI 的提問後,Gemini 說我的需求屬於「GFS 備份演算法變體」,完全知道我在說什麼,還能對我的處理方式進行歸納與定義,在 5 個 AI 中只有他這麼做,讓我覺得 Gemini 相當聰明。
同時他跟 ChatGPT 很像的地方在於,會提供情緒價值(吹捧),說我的備份設計在某些場景下比 GFS 更好。語言理解能力很強,溝通釐清需求不須花太多時間。
然而話說的很滿,結果卻很悽慘,Gemini 很像公司業務(Sales),為了接單很會 Social,能理解客戶需求,任何案子都掛保證沒問題。但工廠做不做得出來他不知道,下了單結果出貨產品根本不能用,但他都能找到藉口,生出一堆自圓其說的理由。
三、Claude 測試結果
接著是目前寫程式評價最高的 Claude:- AI 網址:https://claude.ai/
- 版本:Sonnet 4.6
- 都是一次就過,但我隱約覺得有問題,因為 Claude 的答案有備註他的判斷邏輯,四季的判斷是按照一般認知,例如第 1 季代表「1~3 月」,答對可能只是運氣好,還沒碰到例外。
- 根據我的題目設定「5. 當資料夾數量比「最多保留月份數」還多時,每 3 個月(就是1季的意思)只保留一個版本,以時間最遠的月份優先保留」→ 每季的 3 個月是浮動的,所以 Claude 對「季」的判斷有可能認知錯誤,
- 這一點 Gemini 比較聰明,一開始對「季」的定義便提出疑問
- 果然開始出錯,我指出他對「季」認知錯誤後,讓他修正執行邏輯
- 重跑後還是出錯,在第 N 次備份後,保留的月份資料夾,竟然出現已被刪除的月份,這狀況在前兩個測驗不曾出現,提醒他注意這件事
- 之後來回溝通了幾次,逐次的修正似乎讓 Claude 邏輯越來越亂,而且似乎還是無法記住被刪除的月份,一再出現不存在的資料夾。
直到我口氣比較不耐煩,強烈要求他紀錄「被刪除的」月份,在這個時間點之後,立刻所有的測驗結果都正確了!
3. 跑正式程式結果
好不容易完成了測驗,請 Claude 提供完整程式碼。因為有 Gemini 的前車之鑑,不敢抱太大期望,但令人訝異的是,竟然一次就過,跑多次實測結果全都正確!
雖然還沒測完全部 AI,但至少要找到 ChatGPT 替代品已經沒問題了。
4. 感想
Claude 很像公司研發工程師(RD),話不多,問什麼回什麼,不提供情緒價值。對自己很有自信,不須太多提問,直接請你確認需求是不是他想的那樣。完全了解你要的產品規格是什麼後,立刻能把樣品做出來,是個實實在在、值得信任的好幫手。
四、Grok 測試結果
接下來測試馬斯克(Elon Musk)研發,與 X(原 Twitter)平台深度整合的 Grok:- AI 網址:https://grok.com/
- 版本:Grok 4.20
- 第 1 次測試結果還滿離譜的,很明顯執行邏輯非常有問題
- 第 2 次測試出現跟 Claude 一樣的「季」定義錯誤,然而 Grok 之前提出的幾個問題,並沒包括這件事。
- 經過幾次來回後,測試開始出現另一個奇怪的邏輯錯誤,第一個月份資料夾永遠被保留,不會被刪除。
- 又過了幾回的溝通,「測試 1」的結果終於完全正確
- 很奇怪,從第 4 個月開始,時間最早的資料夾開始永遠保留,很類似之前的邏輯錯誤,只是發生的月份不同
- 我指出他的問題後,問他能否自己找出邏輯錯誤,並修正執行邏輯,還好之後跑的結果就正確了
- 跑出來的結果只保留參數「最多 3 個月」,完全沒保留任何「 季」參數
- 還好提醒過後,測試結果就正確了,搞了許久終於可以進入「程式碼實測」
- 第 1 版跑的結果不太對,但因為有了 Gemini 改 5 版還改不出來的經歷,我直接告訴 Grok,能否給我程式碼之前,自行與 3 個測驗結果比對,並找出邏輯錯誤,自行修正到沒問題再給我正式程式碼。
- Grok 還滿誠實的,跑一跑後跟我說,的確結果跟之前「3 個模擬測驗」不吻合,要我稍待幾分鐘,會修正到正確再給我,而我也告訴他慢慢來沒關係。
- 第 2 版他說已通過「3 個模擬測驗」,結果跑出來跟 Gemini 第 1 版一樣,跑到第 3 個月時,第 1 個月就被刪了。
我問了跟 Gemini 差不多的問題,為何模擬結果跟正式執行的結果不一樣?而從 Grok 的回答則是讓我知道,模擬結果是用「Python」跑,等寫正式程式碼時,Python 的執行邏輯未必能轉譯到「PowerShell」。
這樣一來,花那麼多時間調校「模擬測試」,還得另外花時間調校「正式程式碼」的處理邏輯,工作怎麼會有效率呢?何況正式程式碼還可能調不出來,於是最終等到第 4 版程式碼也測不出來後,我決定放棄 Grok。
五、DeepSeek 測試結果
最後是中國研發的 DeepSeek,至少在中文理解會比較強:- AI 網址:https://chat.deepseek.com/
- 版本:DeepSeek-V3.2
- 第 1 次測試很有趣,畫面上顯示完模擬結果後,自己發現怪怪的,重新計算再跑一次,又發現無法吻合,才開始跟我確認某些執行邏輯。
- 這可能說明兩件事:1. DeepSeek 會自省,不像別的 AI 直接秀結果等著我們來糾正。2. DeepSeek 直接把思考過程顯示出來,而非提供檢驗過的內容。
- 第 2 次測試出現其他 AI 常發生的「已刪除月份出現在後續結果」
- 第 3 次測試出現與 Grok 同樣的「第一個月份資料夾永遠被保留」,而且保留版本沒符合設定參數
六、ChatGPT 測試結果
本篇開測前原本覺得 ChatGPT 應該墊底,不過看完 DeepSeek 的表現,決定重新給 ChatGPT 一次機會:- AI 網址:https://chatgpt.com/
- 版本:GPT-5.3
- 測試過程出現常見的「已刪除月份出現在後續結果」、「第一個月份資料夾永遠被保留」
- AI 在測試過程才發現「季」定義問題,要求確認正確定義(但你明明問過了啊...)
- 溝通過程出現跟 DeepSeek 差不多的狀況,改越多次錯越多,而且隔段時間會出現同樣的錯誤「已刪除月份出現在後續結果」
- 我的耐心在某次測試後中止:前 11 個月的結果都正確,但最後第 12 個月的結果錯誤,還出現兩個不存在(已被刪除)的月份,完全無法理解是什麼樣的執行邏輯,可以跑出這樣的詭異結果
最終 ChatGPT 連「測試 1」都無法通過。
七、總結
1. 完善程式碼 雖然 Claude 只提供跑得動的程式碼,執行流程與界面不算完善,但這都小事,結合其他 AI 關於處理流程的提議構想後,再請 Claude 補上就好。最後加上我的細部調整,完整程式碼請見「自動備份雲端硬碟資料夾與版本管理」。 2. AI 比較 根據本篇測試,5 大免費版 AI 的表現為:- Claude > Gemini > Grok > DeepSeek > ChatGPT
- 1 > 0 = 0 = 0 = 0
更多「AI 工具」相關文章:
沒有留言:
張貼留言注意事項:
◎ 勾選「通知我」可收到後續回覆的mail!
◎ 請在相關文章留言,與文章無關的主題可至「Blogger 社團」提問。
◎ 請避免使用 Safari 瀏覽器,否則無法登入 Google 帳號留言(只能匿名留言)!
◎ 提問若無法提供足夠的資訊供判斷,可能會被無視。建議先參考這篇「Blogger 提問技巧及注意事項」。
◎ CSS 相關問題非免費諮詢,建議使用「Chrome 開發人員工具」尋找答案。
◎ 手機版相關問題請參考「Blogger 行動版範本的特質」→「三、行動版範本不一定能執行網頁版工具」;或參考「Blogger 行動版範本修改技巧 」,或本站 Blogger 行動版標籤相關文章。
◎ 非官方範本問題、或貴站為商業網站,請參考「Blogger 免費諮詢 + 付費諮詢」
◎ 若是使用官方 RWD 範本,請參考「Blogger 推出全新自適應 RWD 官方範本及佈景主題」→ 不建議對範本進行修改!
◎ 若留言要輸入語法,"<"、">"這兩個符號請用其他符號代替,否則語法會消失!
◎ 為了過濾垃圾留言,所有留言不會即時發佈,請稍待片刻。
◎ 本站「已關閉自刪留言功能」。