Kawamura Akihiro

最先端のAI、半導体、画期的な製品開発に関する洞察を共有することで、進化に貢献すること…

Kawamura Akihiro

最先端のAI、半導体、画期的な製品開発に関する洞察を共有することで、進化に貢献することを目指しています。ChatGPT、AI全般、半導体、GitHub、Hugging Faceなどから最新の論文やトレンドを収集しています。 フォローやコメントでのご支援をいただければ幸いです。

最近の記事

GPT4ーomuniはwebの写真は表示しない、リンク先をテキストで表示してくれる

GPT4ーomuniはwebの写真は表示しない リンク先をテキストで表示してくれる GPT4omuniはウェブサイトからその店の鰻の写真を持って来て表示しない。 GPT4omuniはウェブサイトの写真を使う事は著作権で禁止されていると 理解しており自分で画像を作って示す。当然本物とは異なる。 リンク先をテキストで表示してくれるのでそれをたどれば良い。 ChatGPT こちらが、浜松の有名なうなぎ屋カネリンのうなぎの写真です。とても美味しそうですね! Me カネリンのうなぎ

    • GPT4oの正式版がまだ正式にリリースされないので現行のGPT4oの実力を試した。これがあればgoogle検索不要ですね。

      これがあればgoogle検索不要ですね。 これ一発でgoogle検索ノックアウトす。 これが私の言う「ドラえもん」です。 このドラえもんは はじめ、「かねりん」のいみがわからなくて 「どういう意味でしょうか? それとも特定の詐欺についてお話していますか?」 というききかえしてきました。 「賢い」 かねりんのうなぎの写真をうまく探せなくて違うものを出してきた 自分でも、間違っていると認識して、突然英語で話しだした。 「かわいい」「おもしろい」と楽しめました。 それ以外の情報

      • [論文解説]NVIDIA DeepStreamのシングルビュー3Dトラッキングを使用した視覚知覚におけるオクルージョンの軽減

        Nvidia技術ブログから 概要 交通監視、倉庫の安全性、小売店の店員分析などのインテリジェント・ビデオ・アナリティクス(IVA)アプリケーションの知覚に関して言えば、最大の課題の1つはオクルージョンである。 例えば、人は構造的な障害物の陰に隠れたり、小売店の店員は棚に隠れて完全に見えなかったり、車は大型トラックの陰に隠れたりします。 この記事では、NVIDIA DeepStream SDKの新機能であるシングルビュー3Dトラッキングが、実際のIVA導入でよく遭遇する視覚知

        • Mac用デスクトップアプリをダウンロードして試した。Microsoftがco-pilotボタン付きパソコンを販売する前にアップルのMacbookにドラエモンボタンをつけてMicrosoftに対抗するしたかに見える。

          ChatGPT MacOSアプリダウンロードしました PlusユーザーにmacOSアプリを配布しています。 クール:ボタン一発で ボイスモードをはじめ、GPT-4oの新しいオーディオおよびビデオ機能により、コンピュータから直接ChatGPTでボイス会話ができるようになりました。 社内で新しいアイデアを出したいとき、 面接の準備をしたいとき、 話したいトピックがあるときなど、 デスクトップアプリの右下にあるヘッドフォンアイコンをタップして音声会話を始めます。 システム要件

        GPT4ーomuniはwebの写真は表示しない、リンク先をテキストで表示してくれる

        • GPT4oの正式版がまだ正式にリリースされないので現行のGPT4oの実力を試した。これがあればgoogle検索不要ですね。

        • [論文解説]NVIDIA DeepStreamのシングルビュー3Dトラッキングを使用した視覚知覚におけるオクルージョンの軽減

        • Mac用デスクトップアプリをダウンロードして試した。Microsoftがco-pilotボタン付きパソコンを販売する前にアップルのMacbookにドラエモンボタンをつけてMicrosoftに対抗するしたかに見える。

          ChatGPT4omuniでGoogleのAI発表会を説明してもらう音声応答で説明させた。曖昧な会話でも突然英語で質問してもOK

          ChatGPT4omuniでGoogleのAI発表会を説明してもらう 音声応答で説明させた。曖昧な会話でも突然英語で質問してもOK Me:Googleの最新のAI発表会でカメラを使ったデモを説明して Googleの最新のAI発表会では、Gemini 1.5という次世代のAIモデルが発表されました。このモデルはマルチモーダルAIで、テキスト、画像、音声、動画などのさまざまな形式の情報を統合的に理解し、処理する能力を持っています。この発表会では、カメラを使用してリアルタイムに場

          ChatGPT4omuniでGoogleのAI発表会を説明してもらう音声応答で説明させた。曖昧な会話でも突然英語で質問してもOK

          ChatGPT 4oを試した。マイクを通じ私が英語でしゃべり、ChatGPT 4が音声で応答してくれた。ビデオをみせて何が録画されているか聞いた。

          ビデオは台湾の故宮博物館です。 何が見えているか理解しているが一発で故宮博物館と認識するのは難しかった。 以下会話 Me: can you see me? ChatGPT I can't see you. I can only interact with you through text. If you have any questions or need assistance, feel free to ask! Me;how can I interact with y

          ChatGPT 4oを試した。マイクを通じ私が英語でしゃべり、ChatGPT 4が音声で応答してくれた。ビデオをみせて何が録画されているか聞いた。

          OpenAI GPT4-o動画のシーンを説明できる. AIの目が人間並に進歩

          GPT4-o でできること 1. 人間に近い感情表現: リアルタイムの会話音声と感情の理解ができる。 2.人間に近い目と脳: リアルタイムで見えている物理世界を表現できる GPT4-o でできないこと 1.時間認識;5分前の物理状況を表現できない

          OpenAI GPT4-o動画のシーンを説明できる. AIの目が人間並に進歩

          OpenAI GPT4-o 発表物理状況を見て判断できるのでドラえもんにちかくなった/声で感情も表現できる

          私はアップルがSiriにOpenAIを採用し 物理状況を見て判断でき、美しい声で感情を表現できる ドラえもん機能を盛り込んでくれるよう期待する。 GPT4-o の特徴 GPT-4oの紹介: ミラ・ムラティがGPT-4oという新しいフラッグシップモデルのChatGPTの発表を行い、無料ユーザーを含むすべてのユーザーに広く利用可能になることを発表しました。このモデルはテキスト、ビジョン、音声の能力を強化し、より速く、効率的です。 新機能と改善点: ChatGPTのデスクトッ

          OpenAI GPT4-o 発表物理状況を見て判断できるのでドラえもんにちかくなった/声で感情も表現できる

          Nvidiaは企業が独自データを学習させる方法を開放/ラージ生成AIにもJetsonロボにも適用可能

          Nvidiaは企業が独自データを学習させる方法を開放 ラージ生成AIにもJetsonロボにも適用可能 上記をPRするためNvidiaは自社サイトに独自データ学習、 Jetsonロボ適用可能を体験できるウエブサイトを設けました。 開発者はブラウザを使用して、[NVIDIA の公式ウェブサイト] (https://ai.nvidia.com/)で Llama 3 を試すことができます。 「春に咲く花は」 と聞いたところ 日本語で 「春に咲く花は、桜やつつじ、すみれ、藤、牡丹

          Nvidiaは企業が独自データを学習させる方法を開放/ラージ生成AIにもJetsonロボにも適用可能

          AppleのOpenELM AIは、デバイスで動くので、外部サーバーへのデータ転送が不要で言語処理を迅速に行います

          AppleのOpenELM AIは、デバイスで動くので、外部サーバーへのデータ転送が不要で言語処理を迅速かつ効率的に行います。これにより応答時間が速くなるだけでなく、クラウドベースのサーバーへの依存を減らすことでデータのプライバシーとセキュリティが向上します。 効率的な言語処理 「OpenELM」利点の一つは、効率的な言語処理である。 ユーザーのデバイスのコンピューティングパワーを活用し、素早いレスポンスを可能にします。 外部サーバーとの常時通信を必要とする従来の言語モデル

          AppleのOpenELM AIは、デバイスで動くので、外部サーバーへのデータ転送が不要で言語処理を迅速に行います

          AIPCチップ開発の状況とAIPC用アプリ開発の状況

          AIPCチップ開発の状況とAIPC用アプリ開発の状況 アップル: M4チップを開発し、38TOPS(1秒間に38兆回の演算)のAI処理能力を有しています。ニューラルエンジンを含む設計で、2017年からiPhoneにニューラルプロセッシング機能を搭載しています。 インテル: Core Ultraチップに独自のNPUを搭載し、34TOPSの性能を持っています。 AMD: 2023年5月にXDNA AIエンジンを搭載したチップを発表し、38TOPSの性能を有しています。 ク

          AIPCチップ開発の状況とAIPC用アプリ開発の状況

          Appleは、チャットボット市場のリーダーをターゲットにした革新的な言語モデル「OpenELM」を開発

          Appleは、チャットボット市場のリーダーをターゲットにした革新的な言語モデル「OpenELM」を導入しました。このモデルは「オープンソース効率的言語モデル」のファミリーの一部で、Appleデバイスで直接動作するよう設計されており、効率とパフォーマンスを向上させています。 設計と効率: OpenELMは、各層に効果的にパラメータを分配する独自のレイヤーワイズスケーリングパラメータアプローチを利用しています。この設計は、精度を向上させるだけでなく、リソース利用を最大化し、計算

          Appleは、チャットボット市場のリーダーをターゲットにした革新的な言語モデル「OpenELM」を開発

          論文:Appleの「Attension」「Transformer」による視覚AI開発状況

          Deploying Attention-Based Vision Transformers to Apple Neural Engine アップルのニューラル・エンジンにアテンション・ベースの視覚トランスフォーマーを導入 https://machinelearning.apple.com/research/vision-transformers 1.はじめに 「Attention」と「Transformer」という用語は、機械学習、特に自然言語処理(NLP)の分野で広く使用

          論文:Appleの「Attension」「Transformer」による視覚AI開発状況

          ピッキングロボをシミュレーションから現実へいかにして現実のギャップに対処するか

          Nvidia技術ブログ By Bingjie Tang and Yashraj Narang ロボットハンドがピースを組み立てる様子を、シミュレーションと実機を並べたビデオ紹介。 シミュレーションは、ロボットが新しいスキルを習得するために不可欠なツールだ。 スキルは、知覚(カメラ画像から世界を理解する)、計画(問題を解決するための一連の行動を策定する)、制御(ロボットの位置や姿勢を変更するためのモーターコマンドを生成する)が含まれる。 ロボット組み立ては、自動車、航空宇宙

          ピッキングロボをシミュレーションから現実へいかにして現実のギャップに対処するか

          アップルのiPadイベントは前菜だったーAIのお披露目は、6月のWWDCで

          私が最も注目したのは、M4のAI搭載したSiriの機能だった。 アップルは2017年のM1からニューラル・エンジンをプロセッサーに搭載している・ 以前からそれがiPhone、iPad、Macのパワーアップに役立っていると誇示してきた。 私はM1 MacBookを購入した理由もニューラルエンジンだ。 しかし、最新のLLM処理にはアプリも含め出てきていない。 お披露目ではM4がAIに優れていることを、1秒間に34兆回の演算が可能であると言及した。 M4のニューラルエンジンは、

          アップルのiPadイベントは前菜だったーAIのお披露目は、6月のWWDCで

          「ChatGPT」から「ドラえもんに」

          オープンエイのCOOであるブラッド・ライトキャップは、ChatGPTは「長期的」なエンゲージメントモデルではないことを明らかにした。 ミルケン研究所の第27回グローバル・カンファレンスでの対話の中で、ライトキャップはAIモデルの未来と、それらが今あるものからどのように進化していくのかに踏み込んだ。 OpenAIに今後1年以内に期待されることについて、ライトキャップ氏はAIの進歩の可能性は計り知れないと述べた。 「現在のChatGPTのような用語ベースの、ほとんどオラク

          「ChatGPT」から「ドラえもんに」