【生成AIニュース】『Claude Vision Object Detection』『MG²』『hertz-dev』『ChatGPT- o1』『Relume』『RenderOS』『CityGaussianV2』『Grounding with Google Search』『Docling』『Claude』『NVIDIAサポート』『Meta Digit 360』『建設業でのClaude with computer』『セキュリティシステム付きカメラ』『四足歩行ロボットによるはしご登り』
まいどです。
本日の生成AIニュース。
■Claude Vision Object Detection
Claude Vision Object Detectionは、Pythonで書かれたツールで、画像内のオブジェクトを検出して可視化するフレームワークです。
Anthropic社のClaude 3.5 Sonnet Vision APIを利用しており、検出したオブジェクトの周りにバウンディングボックス(枠)を自動で描き、ラベルと信頼スコアを表示します。
■MG²
MG²は、テキストによる指示に基づいて高品質な音楽を生成できる、最先端のT2Mの生成モデルです。
クラシックからポップまで、様々な音楽スタイルに対応し、テンポやリズム、メロディーといった音楽要素を細かく指定することも可能です。
メロディーを使用して音楽生成をガイドする機能が特徴的です。
■hertz-dev
音声対話向けのオープンソースのベースモデル「hertz-dev」がリリースされました。
オープンソースでは、このタイプのベースモデルとしては初めての公開です。
「hertz-dev」は会話形式の音声を相互に理解できるように学習されています。
■ChatGPT- o1
ChatGPT-o1の正式版がリリースされたとの情報です。
ただ、これは現状海外の事なので、日本での正式サービスはまだのようです。
■Relume
Relume は、AIの力を活用してウェブサイト作成をより迅速かつ効率的に行えるツールです。
プロフェッショナルなウェブサイトを、特別なスキルや知識がなくても作成できるよう設計されています。
■RenderOS
FLUX.1-schnellを無料で利用できるサイトです。
FLUX.1-schnellで何ができるかを確認するにはいいサイトかと思います。
■CityGaussianV2
CityGaussian シリーズによるガウスを使用した大規模シーン再構築です。
ガウススプラッティングを使用した大規模シーン再構築に関する一連の研究の公式実装を公開しています。
リアルタイムのレンダリング パフォーマンスを実現しながら、トレーニングコストとストレージを大幅に削減しているとの事。
■Grounding with Google Search
Grounding with Google Search が Google AI Studio と Gemini API で利用できるようになりました。
このロールアウトにより、AI アプリを構築する開発者にさまざまなメリットがもたらされます。
■Docling
Doclingは、ドキュメントをAI対応にするための強力なツールです。
PDF、Word文書、PowerPoint、画像、HTML、AsciiDoc、Markdownなど、さまざまなドキュメント形式を処理できます。
■Claude
Claudeが、自身の回答をバックスペースで消して修正するような動作で修正ができるようになったそうです。
■NVIDIAサポート
2024年10月、NVIDIAは同社のGPUディスプレイドライバーに複数の高リスクな脆弱性が存在することを公表しました。
これらの脆弱性が悪用されると、攻撃者がシステムに不正にアクセスし、データを改ざんしたり、システムを制御したりすることが可能になります。
NVIDIA は、このセキュリティ情報で公開されている問題を解決するために、NVIDIA GPU ディスプレイ ドライバーのソフトウェア セキュリティ更新プログラムをリリースしました。
かなり噂になっているので、アップデートを推奨します。
■Meta Digit 360
Meta FAIR(Facebook AI Research)が、ロボット工学と触覚知覚における3つの画期的な開発を発表しました。
Meta Sparsh、Meta Digit 360、Meta Digit Plexusの三つで、具体的には、様々な触覚センサーとタスクに対応できる、汎用的な視覚ベースの触覚エンコーダーと46万枚以上の触覚画像を用いた自己教師学習により、高精度な触覚情報を抽出できる事、人間の指先の感度を凌駕する、高度な人工指先センサーの紹介(これには18種類以上のセンサーを搭載し、詳細な触覚データを収集しているそうです)、ロボットハンドのセンサー接続と相互作用のための標準化プラットフォームになります。
これにより、1ミリニュートンの力を検出できる、人間レベルのマルチモーダル知覚を備えた指先センサーを実現しています。
■建設業でのClaude with computer
Claude with computerを利用し、建設現場の動画を見て、危険な点や、良いと思うこと、対処すべき問題のスプレッドシートを作成するデモだそうです。
現時点ではまだまだ改善点がある事から、研究途中の物になります。
■セキュリティシステム付きカメラ
南アフリカのセキュリティシステムなのですが、かなり過激です。
で、これが実際に車泥棒に使用されたとか……。
ホームセキュリティーですが、もはや軍事施設みたいな感じです。
これには、さすがのアメリカ人も米国では使用できないだろうとコメントしてます。
下記の動画自体は3ヵ月前に発表されたものです。
■四足歩行ロボットによるはしご登り
四足ロボットのはしご登りや階段の上り下りを紹介している動画です。
動画自体は一か月前の物ですが、先日フォックスニュースで紹介されたそうです。
本日は以上となります。
明日は私は仕事の関係で出張なので、もしかしたら更新は出来ないかもしれません(と言いつつ前も更新できましたが)。
明後日も普通に出勤なので遅くはならないと思うのですが、明日の朝は激早なので、今日はもう寝ます。
ちなみに、三連休だったのでいつもより長めに生成AIニュースの過去の物を残してますが(企業の方や会社で見る方用に)、明日(もしくは明後日)にはアーカイブに移行するのであしからあず。
それでは、また。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?