トランスフォーマーを手書きで勉強
トンランスフォーマー(GPTのT)の動きを理解するために、地道に手書きで勉強
これなんだか、滑稽なことだなぁと思いつつ、
こうなった背景は、トランスフォーマーについて、トランスフォーマーを使ってるAIに聞いたから(今回はAnthropic社のClaudeで)
難しい。そこで、
トランスフォーマーの構造を詳しく教えてください
まだ難しい。。。
マルチヘッドを具体的に教えてください
ヘッドは2の倍数で、入力ベクトルはQKVね。
ドット積で、ソフトマックスで合計1にならす。か
具体的にとお願いしたので、pythonの擬似コードで、雰囲気は掴めるけど、やっぱり難しい
トランスフォーマーの動作は、pythonで操作したことがあるけど、
横着せず、本を読みなおし、じっくり学ばねば。ということで、手書きです
トランスフォーマーの説明は、根本は同じでも、本(著者)によってバリエーションがあるので、いろいろ取り込みながら、自分が納得しやすいように整理し、人に説明できるぐらいを目指そうと思います。そのためには、理論と実践のバランスを必要。
さいごに
トランスフォーマーの活用は、今も進化&深化は続いてるので、自分の知識と最新のサービスでは、乖離があるのは当然。でも、イチエンジニアとしては、専門分野でなくても、学び続けようと思いなおしました
この記事が気に入ったらサポートをしてみませんか?