株式会社United Code

東京を拠点にWEB開発のフルサービスを提供している会社です。PHP, Go, Type…

株式会社United Code

東京を拠点にWEB開発のフルサービスを提供している会社です。PHP, Go, TypeScript等を得意としています。

最近の記事

NLTKのVader Lexiconで感情極性スコア

NLTKとは?NLTK(Natural Language Toolkit)は、Pythonで利用できる、自然言語処理(NLP)のためのライブラリの一つです。 Vader Lexiconとは?VADER(Valence Aware Dictionary and sEntiment Reasoner)Lexiconは、特にソーシャルメディアテキストなどのオンラインコミュニケーションに適用するために設計された感情分析のための辞書です。 この記事では、NLTKのVader Lex

    • BigQuery ML

      BigQuery MLとは?Google Cloud の BigQueryで、機械学習モデルの構築を SQL を使って直接実行できる機能です。これによりデータを移動することなく、大量のデータに対して機械学習モデルをトレーニングし、予測を行うことができます。 この記事では、BigQueryにデータセットを作成して、MLモデルを作成してみます。始める前にGoogle Cloud プロジェクトの作成、課金の有効化、BigQuery APIの有効化が必要になります。 詳しい手順

      • カルマンフィルター

        カルマンフィルターとは?カルマンフィルターは、不確実性を伴う動的システムの状態を推定するためのアルゴリズムです。このフィルターは、ノイズのある観測データと数学的なモデルを組み合わせて、システムの真の状態をできるだけ正確に推定することを目指します。 この記事では、filterpyライブラリを使ってカルマンフィルターを実装してみます。実際に測定値にランダムなノイズが加わっている状況を想定し、カルマンフィルターでそのノイズを除去しながら真の位置を推定します。 インストール p

        • KerasでTransfomerモデルによる時系列データの分類をしてみる

          KerasでTransfomerモデルを構築し、時系列データの分類を行います。 下記のサンプルを参考にしています。 ライブラリのインポート import numpy as npimport kerasfrom keras import layers データの読み込み def readucr(filename): data = np.loadtxt(filename, delimiter="\t") y = data[:, 0] x = data[:

        NLTKのVader Lexiconで感情極性スコア

          CMA-ES (Covariance Matrix Adaptation Evolution Strategy)

          CMA-ESとは?CMA-ESは、最適化問題、特に連続関数の最適化に用いられる進化的アルゴリズムの一種です。 この記事では下記のパッケージを利用して、CMS-ESを実施して最適化を行ってみます。 インストール pip install cma 最適化を行う関数を定義 def rosenbrock(x): return (1 - x[0])**2 + 100 * (x[1] - x[0]**2)**2 最適化を行う関数を定義します。 今回は、最適化アルゴリズム

          CMA-ES (Covariance Matrix Adaptation Evolution Strategy)

          ブラウン運動(Brownian motion)

          ブラウン運動とは?ブラウン運動(Brownian motion)は、液体や気体中で微小な粒子が見せるランダムな動きのことを指します。機械学習の文脈では主に確率過程やランダムウォークのアナロジーとして使用されることが多いです。 2次元のブラウン運動をシミュレート このシミュレーションでは、正規分布に基づいたランダムな変化をX方向とY方向の両方に適用し、それを累積してブラウン運動の軌跡を作成します。 import numpy as npn_steps = 1000x_ste

          ブラウン運動(Brownian motion)

          Negative Log-Likelihood

          Negative Log-Likelihoodとは?Negative Log-Likelihood(負の対数尤度)は、統計学や機械学習でモデルの適合度を評価するためによく使用される指標です。特に、確率モデルがデータをどれだけうまく説明しているかを測るために利用されます。 Pythonで、Negative Log-Likelihoodを計算してみます。 正規分布からサンプリングしたデータをもとにパラメーター(平均と標準偏差)を推定してみます。 正規分布からデータのサンプリン

          Negative Log-Likelihood

          LDA(線形判別分析)

          LDA(線形判別分析)とは?LDA(線形判別分析)は、統計学および機械学習において使用される手法で、クラス間の分離を最大化するような方法でデータを低次元に射影することによって、クラス識別や次元削減を行うものです。 この記事ではscikit-learnライブラリに実装されているLinearDiscriminantAnalysisクラスを利用して線形判別分析を行ってみたいと思います。 データセットの読み込み from sklearn.datasets import load

          LDA(線形判別分析)

          MDS(多次元尺度構成法)

          MDS(多次元尺度構成法)とは?MDS(多次元尺度構成法、Multidimensional Scaling)は、様々なアイテム間の類似度や距離をもとに、アイテム間の関係を視覚的に表現する統計手法です。 この記事ではシミュレーション用にデータを用意し、scikit-learnライブラリに実装されているMDSクラスを利用して視覚化を行ってみたいと思います。 シミュレーション用のデータ 今回は東京、大阪、札幌、福岡の都市間の距離を元にMDSを使用してマッピングしてみたいと思い

          MDS(多次元尺度構成法)

          Kerasでセンチメント分析

          Kerasでセンチメント分析を行ってみます。 下記のサンプルを参考にしています。 ライブラリのインポート import osos.environ["KERAS_BACKEND"] = "tensorflow"import kerasimport tensorflow as tfimport numpy as npfrom keras import layers 映画レビューのテキストデータセットのダウンロード !curl -O https://ai.stanford.

          Kerasでセンチメント分析

          ディッキー・フラー検定(DF検定)

          ディッキー・フラー検定(DF検定)とは?ディッキー・フラー検定(DF検定)は、時系列データがどのような統計的性質を持っているかを調べるためのツールです。この検定の目的は、時系列データが時間とともにその特性が変化するか(非定常)、それとも基本的に一定の状態を保つか(定常)を見分けることです。 この記事では、ディッキー・フラー検定を発展させた拡張ディッキー・フラー検定(ADF検定)を実際に行ってみたいと思います。 ライブラリのインポート import numpy as n

          ディッキー・フラー検定(DF検定)

          遺伝的アルゴリズム(Genetic Algorithm, GA)

          遺伝的アルゴリズム(Genetic Algorithm, GA)とは? 遺伝的アルゴリズム(Genetic Algorithm, GA)は、自然選択や生物の進化を模倣したアルゴリズムの一種です。 遺伝的アルゴリズムは以下のステップで進行します: 初期個体群の生成:ランダムにソリューションの初期集団を生成します。 適応度の評価:各ソリューションの適応度を評価します。 選択:適応度に基づいて、次世代に引き継がれる個体を選択します。 交叉(クロスオーバー):選択された個体

          遺伝的アルゴリズム(Genetic Algorithm, GA)

          False Discovery Rate(FDR)

          False Discovery Rate(FDR)とは?False Discovery Rate(FDR、偽発見率)は、多重比較の問題を扱う統計的手法で多数の仮説検定を行う際に、誤って「有意」と判断される偽の発見の割合を制御することを目的としています。これは、特に生物学的または医学的研究において、多数の変数に対して同時に仮説検定を行う場合に重要です。 $$ FDR=\frac{偽の発見数}{発見数} $$ ここで、「発見数」とは仮説検定で統計的に有意と判断されたケースの総

          False Discovery Rate(FDR)

          シルエットスコア(Silhouette Score)でクラスタリング効果を評価する

          シルエットスコア(Silhouette Score)とは?シルエットスコア(Silhouette Score)は、クラスタリングの効果を評価するために使用される指標の一つです。このスコアは、各データポイントがどの程度適切にクラスタリングされているかを数値で示します。具体的には、ク ラスタ内の凝集度とクラスタ間の分離度を用いて計算されます。 シルエットスコアは -1 から 1 の範囲で、1 に近いほどクラスタリングの品質が高いことを示します。スコアが 0 に近い場合は、クラス

          シルエットスコア(Silhouette Score)でクラスタリング効果を評価する

          UMAP(Uniform Manifold Approximation and Projection)

          UMAPとは?UMAP(Uniform Manifold Approximation and Projection)は、高次元データの次元削減のための機械学習の手法です。特に、大規模なデータセットに対して高速に実行でき、データの構造を維持しながら次元を減らすことが可能です。同じ次元削減のための手法であるt-SNEと比較して、UMAPはより速い計算時間とより良い大域的構造の維持が特徴です。 インストール pip install umap-learn データセット データ

          UMAP(Uniform Manifold Approximation and Projection)

          CUSUM(累積和)手法を使った異常検出

          CUSUMとは?CUSUMは「累積和 (Cumulative Sum)」の略で、統計的プロセス制御手法の一つです。主に製造業などの品質管理や監視の分野で利用されます。 この記事では、CUSUM手法を使った異常検知を実施してみます。 データセット CUSUMによって、どのように変化を検出するかを確認するために意図的に平均がシフトする区間を設けたデータセットを生成します。 import numpy as npnp.random.seed(42)# 初期の平均mu = 0

          CUSUM(累積和)手法を使った異常検出