daigo

社内SEです。WEB(PHP、Python、JavaScript、Node.js、Go)、Windowsアプリ(C#)、インフラ、GCPなど特に特にこだわりなく興味があるものに手を出しています。

daigo

社内SEです。WEB(PHP、Python、JavaScript、Node.js、Go)、Windowsアプリ(C#)、インフラ、GCPなど特に特にこだわりなく興味があるものに手を出しています。

マガジン

  • システム

    開発などのメモ

最近の記事

RAGのチャンク作成(PDFからテキスト化するための前処理について)

はじめにChatGPTのRAG(Retrieval-Augmented Generation)モデルの精度を向上させるためには、データの前処理が重要です。特にPDFからテキストを抽出する際、単純なテキスト形式ではなくMarkdown(MD)形式を使用することで、構造化されたデータを提供し、GPTモデルが理解しやすい形式にすることが大切です。 使用したライブラリ pymupdf4llm:PDFからきれいなMD形式のテキストを抽出するためのライブラリ。 langchain_

    • 「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」をローカルPCで実行してみた

      最初に 「GPT-4」を上回る日本語性能を達成した「Llama-3-ELYZA-JP-70B」はメモリが足りなかったため、80億パラメータと軽量ながらも「GPT-3.5 Turbo」に匹敵する日本語性能を達成した「Llama-3-ELYZA-JP-8B」を使って実験しました 目的LLMを動かすためには、非常に高性能なGPUや大量のメモリが必要とされており、普通のPCでは実行することが難しいと考えられていました。しかし最近では軽量でも精度が良いモデルが出てきているので普通の

      • PythonでAzureのGPT-4oをやってみた

        OpenAIのGPT-4oをPythonで実行する情報が少なかったため、自分で試してみた結果をまとめたメモを紹介します。GPT-4oはAzureで提供されていますが、実行方法や利用例についての情報が限られているため、必要なライブラリのインストール方法などを解説します。さらに、実際に実行して得られる結果についてもご紹介します。 1. GPT-4oとは?GPT-4oはテキストだけでなく、言語や画像、音声、動画のすべてを処理できるマルチモーダルモデルです。そのため画像や動画の内容

        • CLIPモデルで画像特徴点の抽出とElasticsearchで類似画像検索

          類似画像検索システムを検討するにあたってCLIP(2021年2月にOpenAIによって公開された,言語と画像のマルチモーダルモデル)を試してみました。 1.Elasticsearchのマッピング定義import jsonfrom elasticsearch import Elasticsearches = Elasticsearch("http://0.0.0.0:9200")# インデックス名index_name = "test_index"# インデックスを削除#res

        • RAGのチャンク作成(PDFからテキスト化するための前処理について)

        • 「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」をローカルPCで実行してみた

        • PythonでAzureのGPT-4oをやってみた

        • CLIPモデルで画像特徴点の抽出とElasticsearchで類似画像検索

        マガジン

        • システム
          20本

        記事

          Dockerコンテナ内のPythonを定期実行させる

          Docker内のPythonをホストのcronで定期実行させる方法 20 * * * * docker exec -i コンテナ名 python main.py 上記を設定しても実行されてない。そのためフルパスで指定してcronを書き換える ※cronのログが無い場合は以下の設定を見直し 正常に実行されたときの書き方例 20 * * * * /usr/bin/docker exec -i コンテナ名 /usr/local/bin/python main.py

          Dockerコンテナ内のPythonを定期実行させる

          開発で使っているVSCodeの拡張機能(PHPとNext.js)

          基本Japanese Language Pack for Visual Studio Code VS Codeのユーザーインターフェース(UI)やメニュー、ツールチップ、エラーメッセージなどを日本語に翻訳するための拡張機能 Git Graph ブランチの視覚化 コミット履歴の表示 マージの表示 ブランチの作成や切り替え コミットの比較 Git History コミットログの表示 コミットの詳細の表示 ブランチやタグの表示 検索機能 PHPLarave

          開発で使っているVSCodeの拡張機能(PHPとNext.js)

          Tauriでデスクトップアプリを作成

          Tauriとは RustのセットアップRustの公式ウェブサイト (https://www.rust-lang.org/) からインストーラーをダウンロードして、インストールする。 Node.jsのインストールNode.jsの公式ウェブサイト (https://nodejs.org/) からインストーラーをダウンロードし、インストールする。 Tauriのインストールyarn add -g tauri プロジェクトの作成※my-appはプロジェクト名 yarn cre

          Tauriでデスクトップアプリを作成

          Dockerの内部IP問題とGPU設定

          GPUを積んだPCでdefaultのruntimeをnvidiaに変更nvidia container toolkitのインストール apt-get install -y nvidia-container-toolkit ※やり方が変わっていそうなので後日確認 /etc/docker/daemon.json { "default-runtime": "nvidia", "runtimes": { "nvidia": {

          Dockerの内部IP問題とGPU設定

          LinuxのsambaとWindowsのActiveDirectoryの連携

          LinuxサーバーのフォルダをWindowsのユーザーごとに管理権限を付与して管理したかったため、Linuxにsambaをインストールし、ActiceDirectoryでドメインのユーザー連携を行った時のメモ name serverの設定 下記のファイルの見直し (あるクラウドだと勝手に書き換わってしまい原因が分かるまでハマった。。。) vi /etc/resolv.conf nameserver XXXX.XXXX.XXXX.XXXX ActiveDirectory

          LinuxのsambaとWindowsのActiveDirectoryの連携

          Airbyte使ってみた

          AirbyteとはAirbyteとは、さまざまなデータソースからデータをデータウェアハウスやデータレイク、データベースに統合することができるオープンソースのデータ統合エンジン。AirbyteはELT(Extract, Load, Transform)EとLの部分で、データソースからデータを抽出して、目的の場所にロードした後に、必要に応じて変換処理を行うことができる。 インストール git clone https://github.com/airbytehq/airbyte

          Airbyte使ってみた

          pandasからpolarsへの書き換え

          CSVの読み込みpandas import pandas as pdfile_path = 'example.csv'encoding = 'utf-8' # 文字コードdelimiter = ',' # デリミタdf = pd.read_csv(file_path, encoding=encoding, delimiter=delimiter, error_bad_lines=False)print(df) polars import polars as pl

          pandasからpolarsへの書き換え

          ChatGPTのプロンプトメモ

          クレーム分類クレーム内容をグループ化して、その改善内容を提示させる 以下を読んだら「YES」と言ってください。​#データや情報:​以下は、某スーパーによせられた消費者からのクレームです。​【クレーム】野菜の値段が高い。魚の鮮度が悪い。肉が硬い。惣菜の種類が少ない。パンがおいしく無い。デザートが美味しい。レジが混んでいる。駐車場が狭い。店員の対応が悪い。店内が汚い。トイレが汚い。空調が効き過ぎている。空調が効き足りない。店内がうるさい。店内が暗い。店内が広すぎて迷う。店内が狭

          ChatGPTのプロンプトメモ

          Electronアプリ開発

          ElectronとはElectronは、ChromiumとNode.jsを組み合わせたクロスプラットフォームのフレームワーク。Web技術を使用してデスクトップアプリケーションを開発することができる。 nodejsをインストール バージョンの確認 node -vnpm -v ※npm Node Package Managerの略で、Node.jsで使用されるパッケージ管理システム。npmでは、JavaScriptのライブラリやツールをパッケージとして管理し、インストール

          Electronアプリ開発

          GoogleスプレッドシートをPythonで操作する

          Google Cloud ConsoleでAPIの有効化 Google Drive API Google Sheets API 認証情報の追加 「APIとサービス」から「認証情報」→「認証情報を作成」 サービスアカウントを選択 ロールは「オーナー」 2.自動作成されたサービスアカウントをメールアドレスをクリック キータブから「鍵を追加」※Jsonタイプ Googleスプレッドシートの共有 Googleスプレッドの共有で、作成されたサービスアカウントのメール

          GoogleスプレッドシートをPythonで操作する

          Laravel10+AdminLite3

          AdminLiteの導入方法 composerでインストール composer require jeroennoten/laravel-adminltephp artisan adminlte:install adminLiteを適用したサンプルテンプレート @extends('adminlte::page')@section('title', 'ページタイトル')@section('content_header')ページごとに表示を切り替えるヘッダー部分@stop@

          Laravel10+AdminLite3

          プロキシサーバー構築

          プロキシサーバーを構築するためOSSのSquidを構築 プロキシサーバ設定プロキシサーバインストール(Squid) apt-get install squid 「Squid」インストール後の起動設定 systemctl start squidsystemctl enable squid プロキシサーバのポート確認 vi /etc/squid/squid.conf http_port 3128 #デフォルトから変更 #設定反映systemctl reload s

          プロキシサーバー構築