2026年4月20日星期一

用AI解答問題是否一定較efficient

前天寫了用AI做programming是否efficient的文章, 其實還有前傳。

我之前主要用grok來解答一些統計學的問題, 大概是想用一個我未曾學過的統計測試, 來驗證股價是否呈現一些pattern, 如果有學過假設驗證 (hypothesis testing), 則知道先定一個null hypothesis, 計算統計值如什麼Z-value之類, 再根據背底統計分佈 (如normal distribution, t distribution等) 引伸出p-value, 來決定是否否決 (reject)這個null hypothesis。

Grok給出的結果, 大約是S&P500指數是接近可以reject null hypothesis, p介乎0.1與0.05之間, 而日經指數則明顯not reject。

初期我相信grok是給我完滿答案, 它給我caveat及robustness的注腳, 我都驚歎AI的功力。

然後我問多了一個問題, 就是請grok提供一個python program讓我可以重做結果, 或用於其他金融價格驗證, 當然, AI能輕易寫出這些program。

不過問題是, 當我run這個program, S&P500的結果, 由接近可以reject, 變成not reject, 這令我頗意外。(日經指數依然明顯not reject。)

結果把我推向了前日所述的內容, 與AI ptogramming角力了。

說實話, 這是一個決定性結果, 它影響投資理財模型採納的基礎, AI的回答稍有差池, 推論可以差之千里。

以前其實都試過這種情況, 都是用grok, 在投資回報計算方面, 不知道AI是否有作故仔傾向, 想顯示好看的結果討好用家, 結果妄顧事實。

大家用AI, 如果涉及精密計算, 還是小心點。

沒有留言:

發佈留言