見出し画像

GA technologiesを支える技術やデータの一部を公開してみた話

 Note 初投稿になります。株式会社GA technologies、AI Strategy Center(以下AISC)室長の稲本と申します。

 本記事では、我々AISCが開発したプロトタイプの一部を公開するTechLabというサイトを12月12日にリリースしたので、その紹介を行いたいと思います。プロトタイプ開発の狙い、各プロトタイプの紹介、事業インパクト、公開の狙いについて述べていきます。

 尚、AIという名前はついていますが、我々はAI技術については手段の一つに過ぎないと捉えており、その利用にはあまり拘っておりません。むしろ、AISCの守備範囲は研究開発全般で、いまだにアナログな業務が多い不動産の事業会社で広くテクノロジーを用いたソリューションを提供し、事業に貢献することを目指しています。


AISCの業務とプロトタイプについて

 AISCは研究開発組織なので、新たな技術の調査をしたり、要素技術を開発したりといった、一般的な研究開発組織同様の業務も行っていますが、それに加え、事業貢献を見据えた以下の様な活動も行っています。

 日々ビジネス現場のメンバーと向かい合って、1. 解決すべき課題を探し、2. 解決策を提案、3.解決策を実装し、4. 現場に浸透されるまでを担います。その後、うまくいけばプロダクトに採用されて本格的に事業に貢献できます。このように書くと1. ~4.は一本道のプロセスに見えるかもしれませんが、AISCの担当範囲において、1. ~4.の各プロセスが不確実な場面が多いので、実際には、行ったり来たりを繰り返します。

 そういった中で重要となってくるのがプロトタイプです。課題と解決策の仮説を検証するためには、ビジネス現場へのヒアリングが不可欠ですが、解決策について、形を見られるもの、実際に動かせるものがあると、現場メンバーの解決策に対する理解の解像度が上がり、より精度の高い仮説検証を行うことができるので、無駄に終わってしまう研究や開発を減らすことが出来ます。

 因みに、仮説検証は早ければ早いほど良いので、プロトタイプの開発では「デザインに拘らない」ということに拘っています。弊社取締役によると、Googleでは「Be scrappy」という言葉が良く使われるそうです。簡単に利用できる技術の寄せ集めで、まずはとにかく作って試そう、という意味だそうで、我々の思想にも近いなと思っています。プロトタイプは解決すべき課題、その解決策に対する仮説が正しいのかを検証するのが目的なので、それ以外については最小限で作ることに拘りを持っています。私自身の社会人キャリア20年は常にプロトタイプ開発とともに生きてきたので、その他に拘りが幾つかあるのですが、長くなりそうなので、今回はここまでとします。

各プロトタイプの説明

 ここからは、具体的にいくつかのプロトタイプにフォーカスを当てて、開発の背景と機能について説明していきましょう。

販売図面読み取り

 販売図面とは不動産業界で流通している図面の事です。例えば、多くの不動産業者が利用するREINSと呼ばれる流通データベースには、家賃や住所といった様々なテーブルデータと合わせて、この販売図面も格納されています。

 一般には知られていないことですが、不動産業界ではこの販売図面が最も信頼できる情報とされています。REINSに存在するテーブルデータと販売図面のデータとに齟齬があった場合には、販売図面が優先されるのが慣習です。こういった状況であることも手伝って、販売図面には様々な詳細情報を記載するが、テーブルデータに入力する内容は最小限にしているという不動産業者もいらっしゃいます。

 そのため、信頼できるデータを利用するためには、図面から情報を抽出する技術はとても大切となります。しかし、流通している販売図面は非定型フォーマットで、不動産業者は日本に10万社以上あると言われており、すべてのフォーマットを登録することも不可能なので、一般的なOCR(Optical Charactor Recognition)技術だけでは情報の抽出が不可能となります。

図1. 販売図面のイメージと間取り図

 以上の背景を受けて、AISCで開発した販売図面読み取り技術は、様々なフォーマットの販売図面に記載された最大100項目が、92%の精度で読み取れます。図のように販売図面には間取り図が記載されていることが多いですが、風呂・トイレが別なのか、独立洗面台なのかを画像認識により判断することもできます。(参考記事

全国賃料推定 

 弊社が取り扱う投資用不動産業界では、以下の式で示される収益還元法と呼ばれる手法で販売価格が査定されることが多いです。

販売価格 = (①家賃 - ②支出) x 12 ÷ (③想定利回り)

 ②支出とは毎月定額で発生する出費を示し、そこには管理費や修繕積立費、一階の庭利用料等といったその他費用が含まれ、主にマンションの管理組合によって決められている額なので、我々は操作できません。

 又、③想定利回りとは、この物件を購入いただいたお客様にどの程度のリターンがあるのかを示す指標となる数字ですが、こちらも我々は自由に設定できません。不動産投資はローンで購入し、手出しが少ないことが魅力の一つですので、銀行から融資の降りる利回りを設定しなくてはならないからです。GA tecnologiesでは物件の条件に応じて利回りが一意に決まるルールが存在します。

 さて残った①家賃ですが、地域や物件スペックによって相場が異なる中で、現実的に借り手がつく額を推定しなくてはならず、スキルと経験が必要な難しい作業となります。しかも、求められる精度は非常に高いです。例えば適正な家賃が8.5万円で、支出が1万円、想定利回りが4%の物件の場合、(8.5-1) x 12 ÷ 0.04 = 2,250万円が適正販売額になりますが、推定誤差が6%出てしまって、家賃を8万円で査定してしまった場合、同様の計算をすると2,100万円となります。たった5,000円の査定ずれが150万円の販売価格差につながるので、精度はとても重要です。

 以上の背景を踏まえて、AISCでは賃貸流通データに基づいて賃料を予測するAIを内作しており、MER(誤差中央値)が1.88%(東京都・神奈川県・千葉県・埼玉県領域)と、業界でトップクラスの高精度を達成しています。山間部など流通がほとんどない領域において良い精度は出ませんが、日本全国どこでも賃料を予測することが出来るのも特徴です。

建物基盤検索

 建物基盤データベースは弊社におけるマンションのマスタデータベースとなっています。日本全国のマンションは東京カンテイ社によると約16万棟存在すると言われておりますが、建物基盤データベースではそのうち14万棟を広くカバーしています。

 弊社ではこのデータベースを基盤として、取引で取得した様々な"深い"データを蓄積しています。不動産の取引には大量の書類を収集して、収集した書類を参照し、Web調査、現地調査、役所調査等を経て、大量の深い情報を取得し、その情報を使って大量の書類を作成しなくてはなりません。取引の際に収集した書類と調査により得られた、深い情報を建物基盤データベースで格納し、別の取引で再利用ができるので、次回の取引では効率的に書類を作成できることになります。

 例えば同じ部屋であれば、わかりやすく多くの情報が再利用できますが、同じ建物、同じ地域で利用できる情報もあります。どういう条件で、どういった書類・情報が再利用できるのかも含めて整理してあるので、適切に情報が再利用できます。各種書類と深い情報の収集は高コストなので、再利用は極めて重要です。

 加えて、データの再利用のため障壁となっているのが建物名の揺れとなります。架空の建物名を利用して、業界で良く見られる建物名の揺れの例を示します。

  1.  六本木マンション 101: 標準的だが部屋番号がついている

  2. Roppongi mansion(3F):アルファベット表記

  3. 六本木マンシヨン: 小さいヨが大きく表記される

 これらの揺れを解消するために、全角半角変換や、正規表現で不要文字を削除するルールを作ったり、カタカナとアルファベットの対応付けを記録した辞書を作ったりして対応しています。特に辞書の作成は気の遠くなるような地道な作業ですが、弊社ではコツコツとアップデートを繰り返しています。

図2. 物件名名寄せの仕組み

 国土交通省が推進している不動産IDなどが普及すれば、こういった名寄せの苦労はしなくてよくなるのですが、普及には時間がかかる事が予想されるので、当面の間、物件名名寄せ技術は重要であり続けると思われます。

 なお、残念ながら今回のプロトタイプで、いわゆる”深いデータ”を公開しているわけではありません。物件名を検索し、データの広さと物件名名寄せ技術を体験して頂ければ幸いです。

住所パーサー

 住所パーサーは住所の表記ゆれを吸収する機能と、与えられた住所を緯度経度に変換する機能を提供しています。

 緯度経度の情報はオープンデータに基づいており、具体的には国土交通省:街区レベル位置参照情報デジタル庁:アドレス・ベース・レジストリの情報を利用しています。一般的に、都道府県・市区・大字・小字・丁目・番地・号という順に住所の粒度は細かくなりますが、国土交通省のデータには(番地)までの粒度の緯度経度しか登録されていません。一方で、デジタル庁のデータは(号)までを含むすべての粒度の緯度経度が登録されています。ただ、デジタル庁のデータは、日本全国すべての地域をカバーできているわけではありません。

 どの地域でどの粒度の住所に対する緯度経度情報があるのかを図示したものが以下の図になります。(GA technologies調べ。見やすさのために、沖縄諸島、小笠原諸島、北方領土等を除いてあります。)緑が完全な粒度の住所に対して緯度経度が振られた領域。黄色が番地まで、赤が丁目までとなっています。

図3. 緯度経度情報の粒度(日本全国)

 弊社のターゲットである東京都心と大阪都心に注目すると、東京都港区以外は既に緑になっているので、我々の業務にとっては既にほぼ十分な緯度経度情報が公開されていることになります。デジタル庁の皆さんに感謝です。ありがとうございます。今後の拡充にも期待しています。

図4. 緯度経度情報の粒度(東京都)
図5. 緯度経度情報の粒度(大阪府)

 住所を緯度経度に変換することが出来れば、住所間の位置関係、特に距離を簡単に求めることが出来ます。不動産物件を仕入れる際には、騒音の発生源となる学校や病院、臭気の発生源となるガソリンスタンドであったり、お墓やパチンコ店、ラブホテル、暴力団事務所、事故物件など、取り扱いに細心の注意が必要な施設があったりするので、周辺にそういった施設の有無を明らかにすることはとても重要です。今回はデータの権利の都合で一般公開はしませんでしたが、社内にはそういった施設を瞬時に確認できるツールを提供しており、仕入れ時の物件選定や、重要事項説明書の作成に利用されています。

 なお、住所表記の揺れについては、geolonia社が公開してくださっているオープンソースを利用して吸収しています。素晴らしいオープンソースを提供して下さっているgeolonia社に感謝です。

事業へのインパクト

 ここまでに説明した技術・データは、査定業務の効率化や書類作成の効率化を実現するものでありますが、本章では、実際に社内プロダクトに採用されて、どの程度の事業インパクトを起こしたのかについて述べたいと思います。少し古い資料ですし、AISCが開発した技術だけで構成されているプロダクトではないので少し乱暴ですが、弊社GA technologiesが公表している具体的な数字に基づいて、説明したいと思います。

 弊社が物件を仕入れる際に利用しているプロダクトSupplier By RENOSY(旧 Tech Supplier)には上で説明した査定効率化、書類作成効率化の技術が採用されています。

図6. 2018年GA technologies成長可能性に関する資料より抜粋

 上記資料によれば、物件を1件仕入れるのに必要な23時間から7.8時間と15.2時間削減したことになります。一方で、弊社が2022年10月期に仕入れた戸数は4,500戸です。つまり、4,500(戸/年)x15.2(時間/戸) = 68,400(時間/年)の業務が削減できたことになります。月間換算で5,700(時間/月), 一人月を160(時間/人月)とすると5,700(時間/月) / 160(時間/人月) ≒ 35.6人となります。

 AISCが開発した技術が搭載された仕入れシステムがなければ、今より35.6人多くの人員がいないと、この件数は捌けなかったわけです。一般に使われる一人当たりの経費100(万円/人月)を仮定すると、 100(万円/人月) x 35.6(人) = 3,560(万円/月) ≒ 4.3(億円/年)のインパクトという事もできると思います。

 弊社が提供するRENOSYマーケットプレースでは、売り買いを通じた一気通貫の不動産投資の体験を提供しておりますが、取引にかかる費用の抑制は、お客様の体験をよりリーズナブルなものにすると信じています。

 具体的に公開されている情報をベースにしたかったので、あえて2018年の情報から現在の貢献額を算出しましたが、この額は下限だと思ってください。2018年以降も継続的に研究開発が進んでるのはもちろんですし、仕入れ件数には波があって、ピーク時では600~700件取引している事実(上記の記述は平均375件/月換算)を考えると、より多大な10,000時間 60人程度という試算も社内にはあります。今後についても、弊社の取引量があれば、1件当たりの改善インパクトが小さな技術開発にも投資できるので、今後も他社にできない継続的な改善を続けていきます。

 今回紹介したプロトタイプに使われる技術は、必ずしも高度なものではありませんが、そういった技術でも適切な適用先を探して、うまく組み合わせれば上記のような事業インパクトを生み出すことが可能だという事が伝わっていれば幸いです。

何故公開するのか?

 今回TechLab公開を決めた主な理由は、より良い採用を実現したかったためです。論文や学会発表以外で、我々が作っているソフトウェアを具体的に見て、その背景にある思想を今回の記事などを通じて公開することで、採用候補者への興味付けになれば良いと思っています。また採用候補者にとっても、どのような仕事を行うのかが具体化されるので、ミスマッチを防げるのではないかと考えています。

 もう一つの目的はコラボレーションです。我々が作ったプロダクトは、社内向けのTechLabですべて公開されており、グループ社員が自由に利用することが出来ます。我々が所属するGA technologiesには事業範囲が異なる様々なグループ会社が存在しますし、一気通貫で不動産業に関わっている会社なので、多様な業務を行う部署があります。その結果、とある部署のために作ったプロトタイプが、一番使われているのは別の部署だったという場面も多いですし、「そんなことが出来るのだったら、うちの部署のこういう課題も解決してほしい」というお声がけを頂くことも多いです。

 同様に、これまでにいくつかの企業様に限定公開した結果、コラボレーションが生まれています。その一つがSYLA社からプレスリリースされたこちらのNewsだったりします。今回の公開から、さらにいくつかのコラボレーションが生まれることを願っています。

 因みに、開発費・維持費についてご懸念される方もいらっしゃるかもしれませんが、おそらくどちらも皆さんが想定されているよりもかなり小さな額となっています。これは我々が採用しているWeb technologyに依るところが多いのですが、紙幅の都合上、今回は割愛し、別の機会で触れたいと思います。

最後に

 今回公開したプロトタイプは社内向けTechLabに公開されている物の中で、データの権利的に公開できるもの、他社様でも活用可能なものに絞っています。APIは公開していませんし、利用回数にも制限を付けているので、業務での大規模利用は難しいかもしれませんが、ぜひ一度触ってみてください!

※「TechLab」のご利用にはGoogleのアカウントが必要です。


この記事が気に入ったらサポートをしてみませんか?