見出し画像

OpenAI-TranslatorでGemini1.5FlashAPIを利用して、長文でも無料で翻訳をする方法(翻訳以外にコード解説や要約、自分で作成したアクションも可能)

※OpenAI-Translatorは中国系の方が開発されているOSSであり、その点に懸念を持つ方には使用はおすすめできません。


何故翻訳アプリが必要なのか

今や、ChromeやEdgeには英日翻訳機能が付いていて、翻訳性能も十二分なものになって、今更翻訳アプリなんて不要と言いきっても良いわけだが、Firefoxには英日翻訳機能はまだない。
更にいうと、まだChromeやEdgeにもpdfの翻訳機能はないため、役立つ余地はあるといえる。
様々な翻訳apiなどもあるわけですが、残念ながら無料使用分に相応の制限があり、上限にかかってしまう心配があります。
また、みらい翻訳では5000字Deeplでは1500字の制限があり、長文をまとめて翻訳する用途には向きません(有料プランはもちろん別ですが)。

Google狂気の実質AI使い放題

OpenAIに大幅に先手を取られたうえ、このAIを出したら世界に大きな問題が起きるので出せないというようなビッグマウス的な噂の流布があったにもかかわらず、出てきたBardががっかり性能だったことや、Geminiデビュー時のプロモ映像が編集された誇張表現を含んだ上に、性能でもGPT4の後塵を拝したことで、評価が冴えないGeminiシリーズなわけですが、4月の多言語アップデートを経て、特に日本語性能は向上しており、他のLLMに引けを取らないものになりつつあります。
Bard時代の不評を挽回し、利用データを収集したり、AIの利用方法を開発して欲しいという思惑もあるのでしょうが、Geminiは登場時からhttps://aistudio.google.com/で、無料で使用可能という戦略を打ってきました。
現在は残念ながらトップモデルであるGemini1.5Proは1日50回という制限ができてしまいましたが、以下の画像の通りGemini1.5Flashは実質無料です。

Google狂気の実質AI使い放題

一分に15回も一般的な使用では届きませんし、100万トークンは書籍が10冊ぐらい入ってしまうようなトークン数です。
それが1日1500回も使用可能という、出血大サービスです。出血するのはGoogleだけでなく、他のAIプロバイダーも一緒ですが。
要はこの実質無料のGemini1.5FlashAPIを利用して、LLMに翻訳をやってもらおうという算段なわけです。
当初は自前でなんかアプリ作るかなー、でも面倒だなーと思ってそのままだったのですが、某所のディスコでopenai-translatorリンクが貼られてたのを見て、導入したらこれでいいじゃんとなったわけです。
なお、APIが将来有料になることも有りえますので、その点はご注意ください。当面は大丈夫だと思いますが。

インストール方法

https://github.com/openai-translator/openai-translator

こちらのページがプロジェクトのページとなります。
Chromeのエクステンションとして使用し、ブラウザ以外では使用しないのであれば


こちらからインストールして使用してください。

Firefoxにも拡張がありますが、現在アップデートされておらず動作もしませんでしたが、一応URLを貼っておきます。

以下、windows用のインストール方法の案内になります。他のOSS利用の方は元の案内に従ってインストールしてください。

https://github.com/openai-translator/openai-translator/releases

このページにアクセスし、最新のリリースからshow all xx assets(xxは数値でRelease v0.4.17であれば20)をクリックし、OpenAI.Translator_0.4.17_x64-setup.exe(0.4.17はバージョン番号なのでバージョンによって異なる)をダウンロードしてください。
ダブルクリックしてインストールしようとすると、止められるので自己責任で許可をしてインストールしてください。
挙動的にウィルス対策ソフトに止められることも有りえます。その場合も自己責任で許可をしてください。
現時点では大丈夫だと思いますが、何かを仕込まれていても一切責任は取れませんので、あくまで自己責任でお願いします。

実行と設定について

インストールできていれば実行は普通のwindowsアプリと変わりません。

すべてのアプリなどから、OpenAI Translaterを選択して実行してください。

画面

実行するとこのようなウィンドウが開くと思うので、左下の歯車マークから設定に入ります。(初期設定では日本語となっている部分は簡体中文になっていると思います)設定はスクロールできます。

言語設定

最初は簡体中文

初期設定では言語設定が簡体中文になっていますので、一番上の簡体中文となっているところをクリックして、日本語を選択しましょう。

日本語選択
日本語に

そうするとこのように日本語になります。

デフォルトのサービスプロバイダ

デフォルトのサービスプロバイダ
Geminiを選択

翻訳に使用するサービスプロバイダを選択します。今回は実質無料で使用できるGeminiを選択しますが、自身が使用したいものを選択しても構いません。

API URL

API URL

自動入力されると思いますがされなかった場合は、以下のURLを入力してください。

https://generativelanguage.googleapis.com

Gemini API Key

Gemini API Key

Google AI Studioにアクセスして、APIキーを取得してください。アカウント取得がまだの方は取得してください。

Get API key

左上にあるGet API key をクリックしてください。

APIキーを作成

APIキーを作成をクリックするとAPIキーが発行されるので、OpenAI Translaterの設定に戻ってGemini API Keyの所にコピペしてください。
APIキーは他の人と共有したりしないように気をつけてください。

請求先アカウント

デフォルトでは設定されておらず課金されることはないはずですが、気になる方はお支払い情報を設定をクリックし、課金情報が設定されてないことを確認してください。

APIモデル

APIモデルをクリックするとAPIキーを使用して利用できるモデルの一覧が表示されます。

モデル一覧

他にもモデルが表示されますが、gemini-1.5-flash-latestを選択してください。
これで基本的に利用できるようになりますが、他の設定も紹介します。

デフォルトアクション

デフォルトアクション

OpenAI Translaterに送ったtext情報をデフォルトでどう処理するかを選べます。

翻訳を設定

Nopは何もせずに、textを送るだけです。
それ以外はその名の通りに実行してくれます。

デフォルトのターゲット言語

デフォルトのターゲット言語
日本語を選択

翻訳などで最終的に出力する言語ですので日本語に設定すると良いでしょう。

言語検出エンジン

言語検出エンジン
Googleを選択

Bingでも問題ないと思いますが、自分はGoogleを選択。翻訳時に送る言語が何語か自動で判別してくれます。

テーマとフォントサイズ

テーマとフォントサイズ

好きなものを選択してください。ダークとライトテーマかシステムに従うかしか有りません。
フォントサイズは指定サイズより小さくなるようです。適宜サイズを変更してください。

テキストが選択されているときにアイコンを表示

テキストが選択されているときにアイコンを表示

Clip拡張機能というのがありますが、これはセキュリティー上自分はおすすめしません。Clipboard上のTextを自動で送ってしまうのであまりよくありません。
範囲選択したときに出てくるOpenAIのグルグルマークをクリックして、送るのが安全かと思います。

自動翻訳

自動翻訳
提出を押さなくて済む

自動翻訳をチェックしておくとEnterキーを押したり、提出ボタンをクリックしないでもOpenAIのグルグルマークをクリックした時点で、翻訳が開始されます。Gemini1.5Flashが実質無料でほぼ使用制限がないことから、これはチェックを入れといていいかと思います。他の有料APIを使用するときなどは外しておきましょう。API死のリスクがあります。

固定位置

固定位置

これをチェックしておくとOpenAIのグルグルマークをクリックした場所の右下にウィンドウが出現するのではなく、記憶した位置にウィンドウが出現するので位置を修正する手間が省けますので、チェックを入れておくと良いと思います。

テキスト入力エレメント内での選択可能

テキスト入力エレメント内での選択可能

これをチェックしておくと、送られたテキスト情報から更に選択して翻訳させることなどが出来ます。基本的にチェックを入れといて問題ないかと思います。

起動時の実行や統計情報の収集

起動時の実行や統計情報の収集

このあたりはお好みでどうぞ。

設定の保存

保存

最後に右下の保存を押すことを忘れずに

システムトレイアイコンとOCR機能

システムトレイアイコン
ショートカット

システムトレイアイコンからぐるぐるマークを左クリックでウィンドウがアクティブに、右クリックで上の画像のメニューが出ます。

Check for Updates…はアップデート確認で、アップデートできます。
Settingsは設定画面を開いてくれます。
OCRをクリックすると、画面のスクリーンキャプチャと同様にマウスの左クリックからのドラッグで範囲選択が出来、その中の文字情報をOCRしてtextとして送ってくれ、翻訳開始してくれます。
Showはウィンドウをアクティブに、Hideは最小化、Pinは最上面に固定。PinがUnpinにかわるので、それで解除可能。
Quitは終了します。

プロキシ設定は使用してないので割愛

TTS機能の設定

TTS機能の機能の設定

入力ボックスで選択された単語を読み上げるはその通り、選択した単語の発音をしてくれます。英語の発音の勉強に良いかも知れません。自動翻訳をオンにしとくと選択した単語が送られますので、意味もわかって良いかも知れません。
プロバイダーはEdge TTSとSystemdefaultが選択できますが、Edge TTSで良いと思います。MicrosoftEdgeのonlineTTSなので特に問題はないかと思います。
レートは音声の速度です。お好みで。
ボリュームは音量なのでこれもお好みで。
音声は様々な言語から男性声や女性声が選べます。お好みのものを選択してください。

書く設定

書く設定

残念ながら自分の環境下では文字化けしてうまくいきませんでしたが、一応何某かの変換はされていましたので、簡体中文からの英語変換とかならうまくいくのかも知れません。

ショートカット設定

その名の通りショートカットキーの設定です。好きに設定してください。

使用方法:翻訳をする

翻訳したい文字をドラッグして選択

翻訳したい文字をドラッグして選択すると右下にOpenAIのグルグルマークが表示されます。これをクリックすると翻訳ウィンドウがアクティブになり、

翻訳ウィンドウ

この画像のように自動で翻訳が開始されます。
自動で翻訳されたくない場合は、設定で自動翻訳のチェックを外しましょう。

使用方法:要約をする

要約ボタン

右上のアイコンの真ん中の要約ボタンを押すと、先ほど送ったtext(英語)を日本語で要約してくれます。

推敲と分析機能は使用してないので割愛

自分は使用してないので説明できません。

使用方法:コードを説明する

コードを説明する

コードを貼り付けるとコードレビューしてくれます。(コードは以下のページのコードです)

コードが送信されるので、当たり前ですが仕事で開発中のコードなどを送るのはやめましょう。

翻訳ウィンドウのボタンの解説

入力ウィンドウ左下ボタン

入力ウィンドウの左下のボタン

は左から
OCRを画像入力ボタン:これは画像を選択するとその全てにOCRをがされて、text変換されて入力がされます。英語の書籍など読むときに使えるでしょう。
真ん中の3つのボタンは単語コレクションに関係するようですが、単語がコレクションされたことがなく、実際の機能が確認できませんでした。
右の電球アイコンはBig Bangボタンで以下のような記事作成が出来るようなのですが、単語がコレクションされないので検証できませんでした。

Big Bangできない…
入力ウィンドウ右下ボタン

入力ウィンドウの右下ボタン

は左から
スピーカーボタン:入力されているtextの読み上げ
真中のボタン:入力ウィンドウのtextをクリップボードにコピー
消しゴムボタン:入力をクリア

出力ウィンドウの右下ボタン

出力ウィンドウの右下ボタン

は左から
リジェネレイトボタン:出力を再生成するボタンです。
スピーカーボタン:出力されているtextの読み上げ
右のボタン:出力ウィンドウのtextをクリップボードにコピー

アクションマネージャー

アクションマネージャー

右上の三点リーダーをクリックするとアクションマネージャーを選択できます。

アクションマネージャー

このような画面が開き、メインウィンドウでの順番をドラッグアンドドロップで変えることが出来ます。デフォルトの5つは削除はできないようです。
右上の作成をクリックすると

編集画面

このような編集画面が表示され、アイコンやプロンプトを編集できます。試しに以下のようなものを作成してみました。

詩人アクション

右下の提出ボタンを押すと以下のように追加されます。

詩人アクションを追加

右上の☓ボタンで閉じてください。

右上に詩人ボタンが追加される


翻訳の詩

入力ウィンドウに翻訳と入力して作成されたのが上の通りの詩です。
設定したプロンプト通りに作成してくれています。
このアクション機能がある意味最大の目玉と言って良いかも知れません。

まとめ

OpenAI-Translatorはその名前の通りに翻訳ができるだけでなく、LLMを利用した様々な機能が利用可能です。
要約や推敲、コードレビューと行った最初から付いている機能や、OCR機能なども有り、かなり便利なアプリです。
秀眉と言っていいのはアクションマネージャーによるアクションの追加機能で、これを使えば様々な機能を追加できます。
Gemini1.5Flashが実質無料というGoogle狂気の出血大サービスを利用して、是非使い倒しましょう。

表紙画像はStableCascadeで「gemini, flash, translator」という、適当なプロンプトをそのまま突っ込んでできた画像です。


この記事が気に入ったらサポートをしてみませんか?