1 : 2024/10/13(日) 08:17:42.36
米AppleのAI研究者らは10月7日(現地時間)、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」(LLMにおける数学的推論の限界を理解する)という論文を発表した。
この論文は、LLM(大規模言語モデル)が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。
研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。
(続きは↓でお読みください)
ITmedia
2024年10月13日 08時00分
https://www.itmedia.co.jp/news/articles/2410/13/news070.html
80 : 2024/10/13(日) 08:49:25.58
>>1
LLMは、条件付き確率分布を利用しているだけだから無理なこともあるだろうけど、できることもある
それに、プロンプトを工夫して推論の流れを与えれば、推論を連鎖できるかもしれない
それで投資対効果が得られるなら役立つ、、、、こともある
2 : 2024/10/13(日) 08:18:35.23
4 : 2024/10/13(日) 08:19:40.41
5 : 2024/10/13(日) 08:19:48.49
6 : 2024/10/13(日) 08:19:53.45
AppleはAI開発で完全に後塵を排してるからなあ
7 : 2024/10/13(日) 08:20:12.53
8 : 2024/10/13(日) 08:20:24.91
AIとか言ったってビッグデータを材料に最適解探す参照型でしかないしな
14 : 2024/10/13(日) 08:23:20.00
>>8
人間なんかそれすらしてない
データすらない
47 : 2024/10/13(日) 08:37:56.02
>>8
そんなでも碁とか将棋じゃ人間勝てなくなってるけどな
457 : 2024/10/13(日) 12:38:38.05
9 : 2024/10/13(日) 08:20:31.92
13 : 2024/10/13(日) 08:22:58.50
10 : 2024/10/13(日) 08:21:39.93
11 : 2024/10/13(日) 08:22:34.45
ダメ出しされるとすぐ答えを改めるもんなw
いや正しい答えは正しいのよ
12 : 2024/10/13(日) 08:22:35.54
15 : 2024/10/13(日) 08:23:29.67
創った人すらAIがどうやって答えを導き出しているのか分からないらしいね
30 : 2024/10/13(日) 08:31:14.26
>>15
わからんから知能なのであって、
わかるならただのロジックだからね
16 : 2024/10/13(日) 08:24:37.50
17 : 2024/10/13(日) 08:25:07.33
人間だって他人のモノマネばっかりやんけ(´・ω・`)
18 : 2024/10/13(日) 08:25:32.56
人間の脳と同じように学習させてるならそうやろなとしか
19 : 2024/10/13(日) 08:25:40.62
人間の脳だって同じ様な仕組みなんだから
出来ないことはないだろ
ただ単に、表面的な引っ掛けとかに不正解する
入力サンプルが足りてないだけでは?
70 : 2024/10/13(日) 08:45:10.04
>>19
同じような仕組みじゃないよ
プロンプトをみて返答にどの文字が確率が可能性が高いかを見るを繰り返して
文章作っているだけだから
74 : 2024/10/13(日) 08:46:24.94
>>70
あんたの説明だけ聞くと目茶苦茶しょうもなくみえるけど
そんな仕組みで人間らしいまともな返答ができるのが不思議でしょうがない
75 : 2024/10/13(日) 08:48:14.55
>>74
人間もほとんどは連想ゲームで発話してるって事だよ
推論じゃない
そもそもそんなに考えてる時間もない
97 : 2024/10/13(日) 08:54:58.95
20 : 2024/10/13(日) 08:25:45.51
21 : 2024/10/13(日) 08:26:11.92
22 : 2024/10/13(日) 08:26:46.94
でもまあサルにどれだけ学習させてもサルだし限界は見えてきたっぽい感はあるな
23 : 2024/10/13(日) 08:27:19.38
24 : 2024/10/13(日) 08:27:25.64
27 : 2024/10/13(日) 08:30:09.93
日本発のソフトだったら「似てる」とか「ここはパクりだ」って裁判起こされて早々に潰れてる
28 : 2024/10/13(日) 08:31:00.05
引っかけ問題に対応する思考を学べばo1以降のLLMならいける気がするがな
そういう思考過程を学習させたのが次のOrionじゃないの?
29 : 2024/10/13(日) 08:31:12.64
引っ掛け問題なんて大半の人間だって間違えるやん。
まあ、いずれにしてもllmがまともな仕事に使えるまでにはまだ何年かはかかるだろ
33 : 2024/10/13(日) 08:32:59.77
>>29
ほとんどの人はもう使ってるし、今使えてない人はたぶん今後も無理だと思う
36 : 2024/10/13(日) 08:35:30.17
>>33
人の使い方がわからない奴はAIの使い方もわからないらしいな
AIは無能とか使えねーって言ってる奴は出世させたら駄目な人間
115 : 2024/10/13(日) 09:05:39.62
>>36
俺もそう思う……
能力が低く段取りもヘタクソでたいしたことをしていないヤツほどAIをろくに理解もせず否定する。
あと、自分の仕事が奪われる恐れのあるヤツも否定するw
そういうヤツとはまともに会話にならないw
119 : 2024/10/13(日) 09:08:08.86
>>36
具体的に分かりやすい指示できずにパワハラ指示だけなやつとかを洗い出す判定ツールとしてはいいかもね
31 : 2024/10/13(日) 08:32:31.64
元記事読めばわかるけど、小学生レベルの算数問題でも正答率が低くなるからな
37 : 2024/10/13(日) 08:35:32.13
>>31
そもそもLLMに計算はできない
できるのは計算コードを書き実行すること
それでも計算できているように見えるのは、1+1=2という文章を学習しているからってだけであり、桁が増えたりするだけでできなくなる
32 : 2024/10/13(日) 08:32:58.39
34 : 2024/10/13(日) 08:34:15.30
結局人間の脳にしか出来ないことなんて
何もなかったのか
49 : 2024/10/13(日) 08:38:52.32
59 : 2024/10/13(日) 08:41:45.64
>>49
砂粒や素粒子にも超原始的ながら魂があると?
39 : 2024/10/13(日) 08:35:39.88
むしろ確率的に次に続く文章を予測しているだけで、よくここまで来たな
40 : 2024/10/13(日) 08:36:24.75
フォークト=カンプフ検査(Voight-Kampff Testing)やね
レプリカントか人間かを見分けるテスト
41 : 2024/10/13(日) 08:36:43.55
42 : 2024/10/13(日) 08:36:45.07
43 : 2024/10/13(日) 08:36:46.52
結局、推論ができるなら未来予測ができるはず
結果が出る未来予測を避けてんだから、そりゃ出来てないだろ
46 : 2024/10/13(日) 08:37:48.22
51 : 2024/10/13(日) 08:39:20.77
>>46
実際人間すらまともにできてないことにダメ出ししてるようにしか見えないね
人間だって一人一人ではできないから集合知で判断してるわけで
48 : 2024/10/13(日) 08:38:02.90
55 : 2024/10/13(日) 08:39:53.14
63 : 2024/10/13(日) 08:42:58.63
>>48
全く模しきれてないからじゃね
つーても今のLLMもガワが人間っぽかったらもう情が湧いて機械扱いできなくなると思う
そのへんはあくまで見た目の問題
85 : 2024/10/13(日) 08:50:30.39
>>63
LMは学習モデルだから学習結果のネットワークはできてるけど人間の衝動元となる欲求構造もまねたら人間とほぼ変わらんやろ
93 : 2024/10/13(日) 08:53:25.09
>>85
どうかな…トークンの重み付けや温度あたりもかなり違うシステムかもしれない
特に温度はかなり動的に決定されてるように思う
まあ脳もハードとしてもソフトとしてもまだわかってないことが多いからな
104 : 2024/10/13(日) 08:59:12.52
>>93
知覚の処理や情報処理までは真似ることができてるけど
今のところはそれが限界やね
光合成や肺呼吸も量子力学らしいしまだ何かがそもそも要素的に足りてないんやろ
475 : 2024/10/13(日) 13:00:03.42
53 : 2024/10/13(日) 08:39:49.29
今まで文明や知識をひたすらに文章の形で残してきた人類が凄すぎるんやな
56 : 2024/10/13(日) 08:40:26.73
57 : 2024/10/13(日) 08:41:27.81
AI は知恵遅れ
国際とか未来とか光とか創造とかと同じ臭いがする
67 : 2024/10/13(日) 08:43:49.39
お金もちの表現の自由は売れて許されてそれを批判する自由は許されないのはなんでなの
71 : 2024/10/13(日) 08:45:17.82
試しに嘘つき村の論理クイズを出してみたらトンチンカンな答えが出た
77 : 2024/10/13(日) 08:48:42.98
AIには欲がないから自発的により良くする理由がない
良くなっても悪くなってもAIには関係ない
86 : 2024/10/13(日) 08:50:40.32
人間だったら「こうありたい」がある
AIには無い
どっちでもいい
87 : 2024/10/13(日) 08:51:02.74
プライベートではかなり活用してるけど
仕事では一切使えないっすわ
メール文作成ぐらいしか活用できねぇ