はじめに:AIの眼をうまく使えば、仕事と生活が大転換する
◇AIによる画像認識機能をついに普通の人が使えるようになった
「パタン認識」とは、画像や声などを、AI(人工知能)が認識することです。例えば、写真に写っているのが犬なのか猫なのかを判別する(画像認識)、あるいは人間が話している言葉を理解する(音声認識)。
この技術が実用化すれば、社会は大きく変わります。例えば、画像認識によって自動車の自動運転が可能になることや、音声認識によって、企業のコールセンターが無人化できることなどです。
パタン認識は、人類の長い間の夢でした。しかし、実現できませんでした。それが、最近急速に進展しています。
この分野で世界の最先端を走るのは、Googleです。2012年6月に、「ニューラルネットワークのディープラーニングによって猫の顔を識別した」と発表しました。
それから6年半しか経っていませんが、すでスマートフォンで利用できる段階になってきています。
音声認識は、すでに検索、テキスト入力、自動翻訳などで広く使われています。そして最近では、ついに画像認識機能がスマートフォンで提供されるようになりました。
グーグルレンズがそれです。
Googleが作製するスマートフォンであるPixel 3で利用可能になり、最近では、Pixel 3以外のアンドロイド端末やiPhoneでも利用可能になっています。
このマガジンでは、それをわれわれが仕事や生活にどのように応用できるかを述べ、具体的な使い方の提案を行ないます。
◇今回できるようになったこと
ここで、コンピュータの使い方の変遷を、下の表のようにまとめてみましょう。
1と2は、従来からの利用法です。いずれも、キーボードから入力します。
1では、それがテキストとしてコンピュータが処理できる形になります。ワードプロセッサなどの利用がこれに当たります。
2では、入力したキーワードを含むウェブサイトが表示されます。
3よ4は、ここ数年来可能になっている音声入力方式です。
3では、スマートフォンなどに向かって話しかけると、テキストが出力されます。
4は音声検索です。スマートフォンなどに話しかけると、ウェブサイトが表示されます。スマートスピーカーに話しかけると、答えを音声で返してくれます。
今回可能になった方式が、5と6で示されています。入力されるのは、写真です。
5は、コンピュータが物などのイメージを撮影し、撮影されたのと同じ対象や概念などが含まれているウェブサイトを表示する機能です。それによって、対象物が何かを知ったり、詳しい情報を得ることができます。
6は、文字イメージ(印刷された文字やURLなどの記号)をコンピュータが認識し、それらをテキストに変換する機能です。テキストになれば、メールで送ったり、翻訳したり、編集したり、計算したり、URLによってサイトを開いたり、することが自由にできます。
◇強いのは、短い文字列の認識
Googleレンズの機能は、大きく2つに分けて考えると、分かりやすいでしょう。
第1は、カメラが撮った映像が何であるかを識別することです。このマガジンでは、第1章でこれについて述べています)(各記事へのリンクは、AIの眼を駆使する「超」仕事法(目次)にあります)。
第2は、書籍などに印刷されている文字を判読することです。このマガジンでは、第2章以下でそれについて述べています。
これらの各々について、現在のグーグルレンズの能力はどの程度のものでしょうか?
写真画像の判別能力については、バラの花をバラと認識することはできます。しかし、普通、知りたいのはバラの種類です。ところが、その問いに答えてくれるまでにはなっていません(第1章の2)。
人間の顔も識別します。とくに、欧米の俳優は、かなり正確に認識します。ところが、政治家はだめです。現代の政治家だと、トランプやオバマであっても認識できません(第1章の3)。
この機能については、まだ実用段階には達していないと考えざるを得なません。商品の識別もできるのですが、それは文字情報に頼って行なっている場合が多いようです(第1章の4)。
◇どのように活用するか:「使い方」が重要
グーグルレンズがすでに大きな実用価値を持つのは、文字の認識です。とりわけそれほど長くない文字や文章の認識です。これについては、すでに実用段階に達しています。
この機能をうまく利用することによって、仕事の能率を大きく上げることが可能になっています。
このマガジンは、つぎのように、いくつかの具体的な使い方の提案を行なっています。
◇紙の書籍が生き返る
グーグルレンズは、紙の書籍を簡単にテキスト化します。
翻訳したい文章があれば、Google翻訳にシームレスにかけて、和訳できるようになっているので、外国語の書籍を読むのがきわめて楽になりました。
中国語、韓国語、ロシア語などの新聞記事や文献も簡単に読めます(ただし、翻訳は必ずしも正確ではありません)。また、音声で読み上げてくれます。これらの機能について、第れら5章の1,2,3で述べています。
・勉強に使えます。とくに、独学の強力なアシスタントとなります。
◇資料やデータの整理に大きな意味を持ちます
・まず、グーグルレンズを活用すると、新聞記事の切り抜き作業から解放されます。これについて、第2章の1,2で述べます。
・グーグルレンズは、名刺を撮影して、そこから名前、電話番号、メールアドレス等を自動的に識別して抽出し、アドレス帳にシームレスに登録します。
「メール」というボタンを選択すると、メール作成画面が開き、読み取った相手のアドレスが入力された状態になっています。したがって、本文を入力するだけで、直ちに発信することができます。これについて、第3章での1,2で述べています。
・領収書の情報をテキストに変換することはできます。ただし、ここから支払先や金額のデータを自動的に抜き出す機能は、現在はありません。したがって、領収書の整理のためには工夫が必要です。これについて、第3章の3で述べています。
・グーグルレンズは、URLを簡単に読み取ります。従ってQRコードは不要になるでしょう。
ハイパーリンクと同じような機能を、新聞や紙の書籍が果たせるようになります。
また、「URLを提示して、それを読み取ってもらい、サイトに誘導する」ということを、誰でも簡単に実行できるようになります。
このように、URL読み取り機能の応用範囲は広範です。これについて、第6章の2,3,4で述べています。
以上をまとめると、下の表のようになります。
◇AI時代の「超」整理法が必要になっている
第4章では、これを整理法の観点から考えます。
以上のような利用を行なっていると、写真を大量に保存することになります。それを秩序づけるためのシステムの構築が必要です。
つまり、AI時代の『超」整理法が必要になっているのです。これが、第4章で論じているテーマです。
◇将来の発展に期待する
グーグルレンズの機能には、今後、改善が加えられ、能力が向上していくでしょう。
画像からのデータ抽出機能は、現在ではまだ満足できる水準ではありません。しかし、今後、多数のアプリが登場するでしょう。
将来は、手書きの文字であっても判読してくれるようになるでしょう(現在でも、きれいに書いた手書き文字は、判読します)。そうなれば、用途はさらに大きく広がるでしょう。
こうした機能を個人や零細企業が利用することによって、事務能率が向上することが期待されます。それは、社会をフラット化していくうえで、大きな意味を持つことになるでしょう。
(注)note記事へのリンクのうち、(**)を付したものは、準備中のため、現在は閲覧できません。順次、公開の予定です。
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
この記事が気に入ったらサポートをしてみませんか?