「Googleスプレッドシートから見た！」Excel 14の新関数 -11 TEXTBEFORE / TEXTAFTER つづき

mir

2023年2月26日 10:50

Excelに追加された 14の新関数を Googleスプレッドシートからの視点で検証する記事も 11回目 。

Excel 14の新関数シリーズの最終回です。

14の新関数の最後の 2つ。テキスト操作系の TEXTBEFORE、TEXTAFTER を前回に続いて検証していきます。

関数の特徴
Excelでのメリット、デメリット、活用　← 前回ここまで
Googleスプレッドシートの機能、関数との違い
Googleスプレッドシートでは無い機能をどう補うか

この流れで検証きました。

シリーズ前回の記事

EXCEL 14の新関数 TEXTBEFORE / TEXTAFTER

区切り文字の前を取り出すのが　TEXTBEFORE関数
区切り文字の後を取り出すのが　TEXTAFTER関数

こちらの2つのExcel 新関数、Excel上での動きの基本や使い方、活用例は前回たっぷり書いたので、今回は Googleスプレッドシート視点で検証してきます。

Googleスプレッドシートの機能、関数との違い

TEXTBEFORE / TEXTAFTER に該当する関数は残念ながら Googleスプレッドシートにはありません。

しかし、Googleスプレッドシートには Excelにはない文字列を取り出す最強の関数があります。

それが REGEXEXTRACT関数 です。

文字列操作系最強関数 REGEX3兄弟

ExcelとGoogleスプレッドシート、互いに関数の輸入・逆輸入を繰り返し、当初あった Googleスプレッドシートの関数における優位性はだいぶ薄れてきました。

Googleスプレッドシートの 最強関数四天王、FILTER、SORT（SORTBY）、UNIQUE、そして今回 SPLIT（TEXTSPLIT）が EXCELでも使えるようになり、EXCEL は一行数式で出来ることが格段に広がりました。

でも、いまだにExcelには無い Googleスプレッドシートオンリーの最強関数が幾つかあります。

代表となるのは QUERY関数で、どちらかというとこの最強集計関数に目がいきがちですが、もう一つ（3つ） REGEX3兄弟という文字列操作系最強関数が存在します。

REGEX3兄弟とは、文字通り REGEXから始まる3つの関数で 正規表現を使って超柔軟な文字列処理が実現できる Googleスプレッドシートにしかない関数です。

■REGEX3兄弟　いずれも正規表現が使える
※ REGEX3兄弟は mirが勝手にそう呼んでるだけです

REGEXMATCH ・・・三男
最強の文字列一致検索関数

REGEXEXTRACT　・・・　次男
最強の文字列抽出関数

REGEXREPLACE　・・・　長男
最強の文字列置換関数

今回は TEXTBEFORE / TEXTAFTER の代替なので、文字列を抽出する REGEXEXTRACT の出番となります。

難点は 正規表現が、ひじょーに初心者殺しで可読性が低いという点。

Googleスプレッドシートでは無い機能をどう補うか

TEXTBEFORE / TEXTAFTER の代表的な特徴

指定した区切り文字の前（後ろ）を取得できる
区切り文字は複数指定できる
スピル対応（複数セルを処理できる）
マイナスで後ろから〇番目の区切り文字といった指定ができる
〇番目の区切り文字といった、自由な指定ができる

これらを全て満たすことを考えると、とんでもなく複雑で長い式になりそうなので、「やりたいこと」に合わせて上で紹介した REGEXEXTRACT関数をベースに式を作って対応するのが良さそうです。

ケースごとに検証していきましょう。

ケース1. 区切り文字（1つ）の前、もしくは後ろを取得したい

いちばんシンプルな基本形ですね。

このような・区切りの前（後ろ）を取り出したい場合、Googleスプレッドシートで対応するにはどうすればよいでしょうか？

幾つか方法がありますが、まずは複数の関数を組み合わせず一つの関数で対応できる REGEXEXTRACT関数を使ってみましょう。

区切り文字・の前を取り出す
=REGEXEXTRACT(A2,"^(.*?)・")

区切り文字・の後ろを取り出す
=REGEXEXTRACT(A2,"・(.*)$")

Googleスプレッドシート

正規表現の説明に突入すると、とても1回では終わらないので解説はサクっといきます。

^(.*?)・
　^ 文頭から
　^.*?・ 文頭からなにかしらの文字の０文字以上の繰り返しで、
　　　最後が・となる最小のマッチ
　^(.*?)・　上記の・を含まない部分　→　つまり・の前の部分

・(.?)$
　$ 文末
　・.*$ 文末前の・から始まるなにかしらの文字の
　　０文字以上の繰り返しの（最大）マッチ
　・(.*)$　上記の・を含まない部分　→　つまり・の後ろの部分

Googleスプレッドシートの関数における正規表現は、残念ながら正規表現の 先読みや後読みが使えない(NOT SUPPORTED) ってことで、カッコをつけて キャプチャグループをつくることで必要な部分だけを取り出しています。

正規表現を使ったことない人にとっては、もうなんだかわからんですよね？　

専門用語はあまり気にしないでください。

一応、Googleスプレッドシートにおける正規表現と正規表現が使える関数は、まいどお馴染み 「いきなり答える備忘録」さんがまとめてくれています。

正規表現の貪欲（最大マッチ）、怠惰（最小マッチ）をざっくり理解する

上の関数解説の「最小のマッチ」という部分は、

貪欲マッチ（最大マッチ）　大食いマッチともいう　
　→　条件にマッチするなるべく長い文字列

　↕

非貪欲マッチ（最小マッチ）　怠惰なマッチともいう
　→　条件にマッチするなるべく短い文字列

という意味なんですが、貪欲とか大食いとか怠惰って・・・。
七つの大罪か！って思いますよね。

簡単にいうと今回のようなケースで区切り文字・が、複数あった場合は、

=REGEXEXTRACT(A2,"^(.*?)・")　・・・最小マッチ指定（？をつける）

とすると、一つ目の・ の手前を返して、

=REGEXEXTRACT(A2,"^(.*)・")　・・・貪欲マッチ指定（?をつけない）

の場合は 最後の・ の手前を返すってことです。

↑ こんな感じ

今回は TEXTBEFORE の挙動と揃える為、1つ目の区切り文字にヒットする最小マッチの記述にしています。

注意：区切り文字がメタ文字の場合はエスケープを

REGEXEXTRACT で処理する際の注意点として、区切り文字が正規表現におけるメタ文字（例えば . や * 半角カッコなど）の時は、エスケープ処理が必要ってのがあります。

\ をつけることでメタ文字を通常の文字として扱えます。

別解：SPLITで処理する場合

どうしても正規表現は苦手・・・。っていう人は、SPLITを使う方法でもいいいでしょう。

1つ目の区切り文字・の前を取り出す
=INDEX(SPLIT(A2,"・"),,1)

１つ目の区切り文字・の後ろを取り出す
=INDEX(SPLIT(SUBSTITUTE(A2,"・","_",1),"_"),,2)

前は、SPLITして１つ目をINDEXでとるだけなんで簡単ですね。

一方、後ろは 区切り文字が複数登場するケースを考慮すると面倒です。ここで役立つのがレガシーな置換関数 SUBSTITUTE です。

Googleスプレッドシートでの関数による置換処理は、正規表現の使える REGEX３兄弟の長兄（ラオウ的ポジション）、 REGEXREPLACE が圧倒的に便利すぎるんで、ついそっちを使っちゃいますが、まだまだEXCELでは SUBSTITUTE の出番も多いです。

SUBSTITUTE関数のメリットは、置換対象の文字に対して 〇回目に登場したものだけ置換する、といった指定が出来る点。

SUBSTITUTE(A2,"・","_",1)

これで、対象の文字列の１つ目の・だけ、文字列に登場しない _ に置換してからSPLITで _ で区切ることで、文字列が２つに区切られることになります。あとは後ろ（２つ目）を INDEXで取り出せばOK。

複数の関数を組み合わせる必要がありますが、こちらの方がわかりやすいかもですね。

ケース2. 区切り文字の複数指定、スピル対応

ケース1で使用した REGEXEXTRACT関数 を使った指定区切り文字の前（後ろ）を取り出す方法は、区切り文字の複数指定や、複数セルの一括処理（スピル）にも使えます。

REGEX3兄弟は Arryaformulaと組み合わせてスピル対応できる ってのも最強の理由の一つです。

A2:A6のセルから、一つ目の・または･で区切った前を取り出す
=Arrayformula(REGEXEXTRACT(A2:A6,"^(.*?)[・･]"))

A2:A6のセルから、一つ目の・または･で区切った後ろを取り出す
=ARRAYFORMULA(REGEXEXTRACT(A2:A6,"[・･](.*)$"))

Googleスプレッドシート

まず区切り文字の複数指定ですが、A列に適当に並べたゲームタイトルのうち、よーく見ると

信長の野望･新生

だけ、・が全角ではなく半角の･というのがわかります。。まぎらわしい！

この・の全角、半角両方を区切り文字として指定する為に

[・･]

という書き方で指定しています。これは正規表現における 1文字の複数指定（または）を意味します。

1文字ではない複数指定（または）の記述は | を使うのですが、これは TEXTSPLITの回で少し触れています。

画像の6行目のように空白セルを対象としたり、区切り文字が見つからない場合は、 #N/A エラーになるので、これは IFERRORあたりでエラー時の処理を追記した方がよいでしょう。

別解：スピル対応は出来るが区切り文字複数パターン対応が厳しい

ケース1と同じく、ケース2も正規表現を使わない別解を書いておきましょう。

A2:A6の 1つ目の区切り文字・または ･の前を取り出す
=INDEX(SPLIT(A2:A6,"・･"),,1)

TEXTSPLITの回で触れましたが、GoogleスプレッドシートのSPLITは区切り文字を連続で記載するだけで 複数区切り文字指定となります。（ただし単文字に限る）

なので、前を取り出す場合は比較的簡単です。

ちなみにスピル対応の方ですが、INDEX関数自体が配列を返せる関数である為、Arrayformulaを使う必要がありません。INDEXだけでスピらせることができるので簡潔に記載が可能です。

ただし、これはあくまでも 1番目の区切り文字の「前」を取り出すときだけ使える式です。

複数区切り文字指定で後ろを取り出したり、〇番目の区切り文字の前を取り出したい場合は通用しません。

複数区切り文字に対しては

SUBSTITUTE(SUBSTITUTE(A2,"・","_",1),"･","_",1)

このように SUBSTITUTEを2重（入れ子）にして処理できそうにも思えますが、区切り文字の並びによっては 2つ _ に置換され その後のSPLITで _ で分割した際に 3つに分割されてしまう恐れがあります。

これだとただしく　1つ目の・または･で区切った後ろを取り出すことができませんし、 2番目の・または･で区切った前を取り出す際も期待する結果とならないケースが出てきます。

複数区切り文字指定 のケースは正規表現の使えるREGEXEXTRACTを使った方が無難と言えます。

ケース3. 最後に登場する区切り文字の前（後ろ）を取得したい

EXCELの TEXTBEFORE / TEXTAFTER なら、第3引数に -1を指定するケースです。

A2:A6のセルから、最後の・または･で区切った前を取り出す
=TEXTBEFORE(A2:A6,{"・","･"},-1)

A2:A6のセルから、最後の・または･で区切った後ろを取り出す
=TEXTAFTER(A2:A6,{"・","･"},-1)

EXCEL

非常に完結に書けますし、もちろんスピル対応可能。

Googleスプレッドシートで代替する場合、これも REGEXEXTRACT でいけます。

A2:A6のセルから、最後の・または･で区切った前を取り出す
=Arrayformula(REGEXEXTRACT(A2:A6,"^(.*)[・･]"))

A2:A6のセルから、最後の・または･で区切った後ろを取り出す
=ARRAYFORMULA(REGEXEXTRACT(A2:A6,".*[・･](.*?)$"))

Googleスプレッドシート

あまり需要なさそうですが、最後の区切りの前を取り出す場合は、正規表現部分の最小マッチを最大マッチ（貪欲マッチ）に変えれば良いだけです。

つまり

"^(.*？)[・･]"

から？をとって

"^(.*)[・･]"

とするだけ。

一方需要がありそうな 最後の区切りの後ろを取り出す場合は、

".*[・･](.*?)$"

このように前に .* の貪欲マッチを追記することで [・･](.*?)$ は最小マッチとすることができます。

動きとしては文頭からサーチしていくため先に記述した .*の大食いが強く作用するので、(.*?)$"の ?を省略して

".*[・･](.*)$"

としても、結果としては同じになります。

なんか絵文字（アスキーアート）が並んでるみたいｗ

別解：SPLIT + INDEX では最後の区切り文字の後ろ取得ができない → LAMBDヘルパー関数で対応

最後の区切り文字の前を取得は使うケースがあまりないので、後ろを取得だけ別解を入れておきます。

なんとなく SPLIT+ INDEX で分割した後の最後（一番左）を取得すれば良さそうですが

Googleスプレッドシートには、 -1で後ろからという指定ができる関数が（現時点では）ないのと、SPLIT + INDEX だと区切り文字の数がバラバラのセル範囲を対象とする場合、一括で一番後ろの区切り文字の後ろを取得が出来ません。（一つの大きな長方形範囲とみなしてしまう為）

※本来はこの記事の公開時点 2023/02/25 では、Googleスプレッドシートの最新輸入関数 CHOOSECOLSが使える想定でしたが、一度使えたのに不具合があった為停止されてしまいました。

仕方がないので、1セルずつ分割 → 分割した要素数を取得 → 最後の要素を取得 を繰り返す LAMBDAヘルパー関数を使用します。

今回の場合は BYROW、 MAPでもどちらでもOK

=MAP(A2:A6,LAMBDA(v,LET(arr,SPLIT(v,"・･"),INDEX(arr,,COLUMNS(arr)))))

Googleスプレッドシート

ヘルパー関数内で 最新関数 LETを使って、SPLIT で分割した結果を arrと置いています。COLUMNS(arr)が分割後の配列の横の長さ、つまり最大値なのでINDEXでそれを指定することで一番後ろが取得できます。

ケース4. 〇番目の区切り文字の前（後ろ）を取得したい

実はこれが一番面倒（複雑）なので、最後にもってきました。

たとえば 3番目の・･の前（後ろ）を一括で取得したい場合

A2:A6のセルから、3番目の・または･で区切った前を取り出す
=Arrayformula(REGEXEXTRACT(A2:A6,"^((?:.*?[・･]){2}.*?)[・･]"))

A2:A6のセルから、3番目の・または･で区切った後ろを取り出す
=Arrayformula(REGEXEXTRACT(A2:A6,"^(?:.*?[・･]){3}(.*?)$"))

Googleスプレッドシート

複雑さが増してきましたね。

後を取り出す式の方がわかりやすいので、そっちから解説しましょう。

今回 3番目の後ろを取り出したいので、文頭から

何らかの文字列（または空白）・（または･）何らかの文字列（または空白）・（または･）何らかの文字列（または空白）・（または･）

このような繰り返しの後ろを取り出したいってことになります。
これを正規表現で表すと

"^(.*?[・･]){3}"

となります。

※{3}は直前の文字もしくはグループを 3回繰り返すという意味

ただ、これだとカッコ内がキャプチャグループ扱いで取り出す対象となってしまいます。

これをキャプチャしないグループ化する為の記述が

(?: ここに正規表現)

になります。

これを踏まえると前を取り出す方は

こうなるのがわかりますね。前を取得する場合は、対象となる3番目の区切り文字を含めないようにする為、2回繰り返しとその後ろという正規表現にしています。

〇番目の区切り文字の前（後ろ）を取得する式を汎用性あるものにする

この〇番目の区切り文字の前（後ろ）を取得する式を汎用性あるものにすれば、かなり TEXTBEFORE / TEXTAFTER の代替式といえるものに近づきますね。

■TEXTBEFORE 代替式
セル範囲から指定した区切り文字の〇番目の前を取り出す

=LAMBDA(text,delimiter,instance_num,Arrayformula(REGEXEXTRACT(text,"^((?:.*?["&delimiter&"]){"&instance_num-1&"}.*?)["&delimiter&"]")))(A2:A6,"・･",3)

■TEXTAFTER 代替式
セル範囲から指定した区切り文字の〇番目の後を取り出す

=LAMBDA(text,delimiter,instance_num,Arrayformula(REGEXEXTRACT(text,"^(?:.*?["&delimiter&"]){"&instance_num&"}(.*?)$")))(A2:A6,"・･",3)

LAMBDA の引数を TEXTBEFORE / TEXTAFTER の引数に揃えたんで長くなってますが、汎用性のある式になったんじゃないでしょうか？

もちろんこのまま 名前付き関数 にもできます。

ただ、この式は以下に対応していません。

対象のテキストが改行を含んでいるケース
区切り文字が 2文字以上の文字列のケース
instance_num をマイナス指定で後ろから〇番目としたいケース

これらも REGEXEXTRACT関数で処理できますが、ケースごとに個別に正規表現を作っていくしかないです。

もしかすると、これ以外のケースでもエラーや誤抽出になるかもしれません。

正規表現は、バグ（エラーが発生するケース）を見つけにくいってのも難点です。

※このケースが考慮できていない、この使い方だとエラーが出るといったものが見つかりましたらお知らせください。

Q. カッコ内の文字を取り出してみよう

最後に TEXTBEFORE / TEXTAFTERの応用問題を Googleスプレッドシートでチャレンジしてみましょう。

なお、この問題は エクセルの神髄さん Twitterお題を参考にさせていただきました。

【エクセル問題】※かっこつけてんじゃないよ編
A1セルの文字列から、複数の括弧（）内の文字列を取り出して横に展開してください。
※括弧は全角半角問わない。
※括弧が正しく対になっていることを基本として、括弧が正しく対になっていない場合の結果については特に限定しません。 pic.twitter.com/7BoKXK1PgR
— エクセルの神髄 (@yamaoka_ss) November 4, 2022

Office製品には（エクセル）（ワード）そして（パワポ）があります。

A1に入った画像のような文章から カッコの中の文字だけ 横に展開するように1つの式で抽出したい。

※括弧は全角カッコとする。（←ここだけ少し簡単にしました）
※括弧が正しく対になっているものとする

Excelでの回答はエクセルの神髄さんを参考に。

これをGoogleスプレッドシートで処理できそうでしょうか？

まずは考えてみてください。

↓↓↓
回答は以下
↓↓↓

A. カッコ内の文字を取り出してみよう

いくつか方法がありますが、まずは REGEXEXTRACT関数を使う方法からいってみましょう。

A1. REGEXEXTRACT関数で抽出する

=LET(x,SPLIT(A1,"（"),FILTER(REGEXEXTRACT(x,"^(.*?)）"),REGEXMATCH(x,"）")))

SPLIT、FILTER、REGEX3兄弟の三男 REGEXMATCH、さらに最新輸入関数のLETまで使ってますｗ

文字列抽出の最強関数 REGEXEXTRACT ですが、正規表現にマッチした 最初の文字列のみを抽出する（仕様となっており、マッチする複数の文字列を全て抽出したい場合は使いにくい、という弱点があります。

そこで

先に SPLITで（　で文字列を 4つに分割。
それを LETで xと置いて
REGEXMATCH で）を含むを条件に合致するセルから
REGEXEXTRACT で文頭から）の手前までの文字列だけを取り出したものに
FILTERで絞り込み。

こんな処理手順でカッコ内の文字を抽出しています。

A2. REGEXREPLACE関数でカッコ内の文字だけを残す

=SPLIT(REGEXREPLACE(A1,"(?:^|）).*?（(.*?)）.*?(?:$|（)","_$1_"),"_")

正規表現は複雑ですが、REGEXREPLACE と SPLIT の2つの関数で処理する方法です。

REGEXEXTRACT関数では難しい複数のマッチする文字列を抽出したい場合、最初に分割する方法回答1で使った方法以外に、REGEXREPLACE関数を使う方法があります。

要は取り出したい文字列以外の邪魔な部分を、区切り文字に置き換えちゃうという方法です。

Office製品には（エクセル）（ワード）そして（パワポ）があります。

↓　REGEXREPLACE(A1,"(?:^|）).*?（(.*?)）.*?(?:$|（)","_$1_")

_エクセル_ワード_パワポ_

キャプチャグループで取り出したものは $1 という記述で利用することができます。これを活用しています。（キャプチャグループが複数ある場合は $2、$3としていきます）

最後に SPLITで分割すれば OK。

A3. 正規表現なし SPLIT + Query で取り出す

=TRANSPOSE(Query(ARRAYFORMULA(SPLIT(TRANSPOSE(SPLIT(A1,"）")),"（",,false)),"select Col2 where Col2 is not null"))

正規表現を使わない方法も紹介しておきましょう。

これも手順が多いです

SPLITで）で分割
TRANSPOSEで縦並びに変換
Arrayformula + SPLIT(空白除去なし）で、（で分割
抽出したいワードは全て 2列目にはいる
Queryで 2列目で空白ではないものだけに絞り込み
TRAPSPOSEで横並びに変換

こんな処理をしています。参考までに。

Excelの応用問題を、TEXTBEFORE / TEXTAFTER のない Googleスプレッドシートでチャレンジしてみました。

TEXTBEFORE / TEXTAFTER なくてもいいけど、あればやっぱり便利だなと思いますね。

EXCEL 14の新関数シリーズ終了です

全11回、3か月くらいこのシリーズやってきましたが、ようやく今回で 14の新関数シリーズも終了です。長かったー。

久しぶりに Excel（オンラインの方）を結構触ったんで、色々発見もあって自分も楽しめました。

Excel14の新関数シリーズは、Googleスプレッドシートには無い Excelの新関数を Googleスプレドシート視点で検証するってテーマだったんですが、2月月初旬に、なんと14の新関数の配列操作系関数を中心に Googleスプレッドシートにも新関数が追加（輸入）されちゃいましたｗ

LAMBDAのタイミングで輸入されなくて、もう輸入ないかと思われた LETも登場。

じゃあ、次はこれを取り上げよう！って思ってたんですが・・・。
先週くらいから 配列操作系の関数が停止中なんですよね。。

あれ、Googleスプレッドシートの配列操作系新関数、TOROW,CHOOSEROWS,VSTACK,WRAPROWSあたりが全部使えなくなってる？？LETは使えるのに。
— mir (@mir_for_note) February 20, 2023

というわけで、来週の休日更新 noteは状況次第で内容考えます。

この記事が気に入ったらサポートをしてみませんか？

「Googleスプレッドシートから見た！」Excel 14の新関数 -11 TEXTBEFORE / TEXTAFTER つづき

EXCEL 14の新関数 TEXTBEFORE / TEXTAFTER

Googleスプレッドシートの機能、関数との違い

文字列操作系最強関数 REGEX3兄弟

Googleスプレッドシートでは無い機能を どう補うか

ケース1. 区切り文字（1つ）の前、もしくは 後ろを取得したい

正規表現の 貪欲（最大マッチ）、怠惰（最小マッチ） をざっくり理解する

注意：区切り文字がメタ文字の場合はエスケープを

別解：SPLITで処理する場合

ケース2. 区切り文字の複数指定、スピル対応

別解：スピル対応は出来るが区切り文字複数パターン対応が厳しい

ケース3. 最後に登場する区切り文字の前（後ろ）を取得したい

別解：SPLIT + INDEX では 最後の区切り文字の後ろ取得ができない → LAMBDヘルパー関数で対応

ケース4. 〇番目の区切り文字の 前（後ろ）を取得したい

〇番目の区切り文字の 前（後ろ） を取得する式を 汎用性あるものにする

Q. カッコ内の文字を取り出してみよう

A. カッコ内の文字を取り出してみよう

A1. REGEXEXTRACT関数で抽出する

A2. REGEXREPLACE関数で カッコ内の文字だけを残す

A3. 正規表現なし SPLIT + Query で取り出す

EXCEL 14の新関数 シリーズ終了です

Googleスプレッドシートでは無い機能をどう補うか

ケース1. 区切り文字（1つ）の前、もしくは後ろを取得したい

正規表現の貪欲（最大マッチ）、怠惰（最小マッチ）をざっくり理解する

別解：SPLIT + INDEX では最後の区切り文字の後ろ取得ができない → LAMBDヘルパー関数で対応

ケース4. 〇番目の区切り文字の前（後ろ）を取得したい

〇番目の区切り文字の前（後ろ）を取得する式を汎用性あるものにする

A2. REGEXREPLACE関数でカッコ内の文字だけを残す

EXCEL 14の新関数シリーズ終了です