見出し画像

トランスフォーマーを手書きで勉強

トンランスフォーマー(GPTのT)の動きを理解するために、地道に手書きで勉強

これなんだか、滑稽なことだなぁと思いつつ、
こうなった背景は、トランスフォーマーについて、トランスフォーマーを使ってるAIに聞いたから(今回はAnthropic社のClaudeで)

難しい。そこで、

トランスフォーマーの構造を詳しく教えてください

まだ難しい。。。

マルチヘッドを具体的に教えてください

ヘッドは2の倍数で、入力ベクトルはQKVね。

ドット積で、ソフトマックスで合計1にならす。か

具体的にとお願いしたので、pythonの擬似コードで、雰囲気は掴めるけど、やっぱり難しい

トランスフォーマーの動作は、pythonで操作したことがあるけど、

横着せず、本を読みなおし、じっくり学ばねば。ということで、手書きです

トランスフォーマーの説明は、根本は同じでも、本(著者)によってバリエーションがあるので、いろいろ取り込みながら、自分が納得しやすいように整理し、人に説明できるぐらいを目指そうと思います。そのためには、理論と実践のバランスを必要。


さいごに

トランスフォーマーの活用は、今も進化&深化は続いてるので、自分の知識と最新のサービスでは、乖離があるのは当然。でも、イチエンジニアとしては、専門分野でなくても、学び続けようと思いなおしました

この記事が気に入ったらサポートをしてみませんか?