マガジンのカバー画像

エンジニアたちの「やってみた!」

47
さまざまなツールやライブラリを使って、朝日新聞のエンジニアたちが「やってみた」エントリを紹介します! 朝日新聞に登場したデータ活用や頭をやわらかくするクリエイティブなコンテンツま…
運営しているクリエイター

記事一覧

LLMによる日本語タイポ修正ベンチマーク

LLMによる日本語タイポ修正ベンチマーク

こんにちは。メディア研究開発センター(通称M研)の田口です。

昨年6月末にこんな記事を書きました。このときはgpt-35-turbo、text-davinci-003を使っていて今読み返すと隔世の感ですね…

現在も要約関連のことをやっているのかというと、最近のメインの業務は「Typoless」という校正支援AIサービスの開発に従事しています。AI校正機能からその他解析API群の整備・運用まで幅

もっとみる
LLMは文分類を抽象的に学ぶことはできるか?

LLMは文分類を抽象的に学ぶことはできるか?

メディア研究開発センターの新妻です。
LLMのブーム、すごいっすよね。
(この記事においては、LLMは大規模なdecoder onlyな言語モデルを指して使います。)
自分も最近は継続事前学習とか頑張ってます。

NLPには文分類(sentence classification)という基礎的なタスクがあります。
具体的なタスクで言えば、含意関係認識や感情解析などの与えられた文に対して限られた選択肢

もっとみる
GPT-4oは画像の座標情報を理解しているのか?

GPT-4oは画像の座標情報を理解しているのか?

こんにちは。朝日新聞社メディア研究開発センターの嘉田です。

早速ですが、みなさんはGPT-4oを使っていますか?
GPT-4oは画像認識精度も上がっていて日本語OCRもできる!と評判ですが、バウンディングボックスも出力できるのか?そもそもGPT-4oは画像の座標情報をどの程度扱えるのだろうか?と疑問に思い、検証することにしました。

検証方法正しい座標を出力できるか、与えた座標を理解できているか

もっとみる
LLMを使ったかな漢字変換

LLMを使ったかな漢字変換

こんにちは。メディア研究開発センターの山野です。私は普段は音声処理や自然言語処理やそれらの技術を使ったプロダクト開発などに従事しています。
さて今回は朝日新聞記事データを使ったニューラル仮名漢字変換について簡易な実験をしたのでその結果を共有します。

はじめに多くの問題を解くことができるLLMですが、ひらがな列Xをかな漢字混じり文Yへ変換する仮名漢字変換については、単語の読み方とその表記の関連性を

もっとみる
【LLM】Few-shot推論は言語化の壁を越えられるか

【LLM】Few-shot推論は言語化の壁を越えられるか

こんにちは。メディア研究開発センターの川畑です。

みなさん ChatGPT 使ってますか?便利ですよね。何か訊いたら大概のことは正確に教えてくれますし、論文等の文書もわかりやすくまとめてくれたりと万能な存在です。

そんな便利な ChatGPT もとい LLM (large language model) ですが、その知識を引き出すためには質問や指示をキチンと言葉にしなければいけません。ちゃんと

もっとみる
LLMは本当になんでも得意なの?TSUNAの文字数コントロールを検証

LLMは本当になんでも得意なの?TSUNAの文字数コントロールを検証

朝日新聞社メディア研究開発センター 田森です。

ゴールデンウィークがいよいよ始まりますね。メディア研究開発センターも4月には新年度を迎えワチャワチャしていましたが、月末になりようやく落ち着きを見せてきました。

ようやく、ようやく、要約。ということで、今回のテックブログは自然言語処理における要約タスクとLLMの最近について書いてみたいと思います。このブログは、NLP2024のワークショップ「生成

もっとみる
SAR衛星画像で能登半島地震の被災状況を把握する初めてのトライ

SAR衛星画像で能登半島地震の被災状況を把握する初めてのトライ

はじめに地震や、台風などの自然災害が発生した時に、一番重要なのは被害状況を迅速に把握することです。それによって、迅速かつ適切な救援や、復旧、生活再建活動を行うことができます。災害地の状況を迅速に把握するために、衛星画像を解析した結果を利用することができます。

朝日新聞社メディア研究開発センターの福沢です。令和6年1月1日16時10分に、日本の石川県の能登半島地下16kmで発生した最大震度7の内陸

もっとみる
焼酎を飲むのは九州の人ばかり?オープンデータでお酒の消費の地域差を分析!🍶

焼酎を飲むのは九州の人ばかり?オープンデータでお酒の消費の地域差を分析!🍶

こんにちは。福岡生まれの石井です。
4月で入社3年目になります。

最近、焼酎が飲めるようになりました。
焼酎はお酒の中でも大人なイメージで、クセも強いかなあと思っていたのですが、友人の勧めで試しにソーダ割で飲んでみたところ、すっかりハマってしまいました。
幼少期に、ふざけて祖父の飲む焼酎の匂いを嗅がせてもらっていたから独特な香りへの抵抗がなかったのでしょうか(もちろん当時は飲んでいません)。

もっとみる
桜だより〜関西地方の開花推移〜

桜だより〜関西地方の開花推移〜


こんにちは。メディア研究開発センターの河﨑です。
春ですね。大都会東京の花粉の多さに慄きながら、日々過ごしています。
(私の大好きな故郷大阪よりも花粉が多いそうで、、やってられないです)

新聞社に入社したので、学生の頃より新聞を読む機会が増えました。
新聞には「その日の情報」がとてもたくさん載っています。
今日の新聞を見ることで、今何が起こっているかがわかる。
過去の新聞を見れば、その時何が起

もっとみる
音声認識のアノテーションを効率的に行うための取り組み

音声認識のアノテーションを効率的に行うための取り組み

あけましておめでとうございます。メディア研究開発センターの山野です。そういえばイブラヒモビッチに憧れてジャンピングボレーシュートを真似した結果、着地に失敗し靭帯を損傷したこともありました。

動機さて、メディア研究開発センターでは音声認識[1]や音声認識結果の可読性を向上[2]させるための研究を行なっています。そのような研究をするためには多くの高品質なデータが必要であることが一般的には知られていま

もっとみる
今日からはじめるAI文芸実践入門:クリスマスとお正月の間の空白をテーマにした音楽をつくる

今日からはじめるAI文芸実践入門:クリスマスとお正月の間の空白をテーマにした音楽をつくる

はじめにみなさん、こんにちは。メディア研究開発センターの浦川です。私は普段、自然言語処理(書き言葉から話し言葉まで、日常生活で普通にヒトが使う言葉をコンピュータで扱うこと)に関する研究開発に従事しています。これまでに、自動で記事の見出しを生成する「TSUNA」や、短歌を生成する「短歌AI」などに携わってきました。

さて、本連載では「〈言葉〉による表現を計算機とともにおこなう人へ向けて、今日から実

もっとみる
街にもクマは現れる!宮城県「アーバン・ベア」の出没地点を可視化しました

街にもクマは現れる!宮城県「アーバン・ベア」の出没地点を可視化しました


はじめにこんにちは。メディア研究開発センター(M研)の石井です。
現在は主にデータジャーナリズムなどを担当しています。

メディア研究開発センターでは、自然言語処理をはじめとした人工知能研究などに取り組む一方、記者の問題意識と、M研の技術を掛け合わせた「データジャーナリズム」にも力を入れています。
今回は、その中の一つの事例として「アーバン・ベア 動くクママップ」をご紹介します。

近年、「アー

もっとみる
最近公開された日本語LLMを要約生成タスクで検証してみる

最近公開された日本語LLMを要約生成タスクで検証してみる

こんにちは。メディア研究開発センター(M研)の田口です。

最近、大規模言語モデル(以下、LLM)に関するニュースが毎日のように出ています。直近約1ヶ月の間にもOpenAIのAPIのアップデートが発表されたり、日本語のLLMが公開されたりしました。

少し前(といっても4月末)に「ChatGPT/OpenAI API/LLM活用事例~NewsPicksと朝日新聞の合同勉強会を公開」でLTをしました

もっとみる
ジオコーディングツールは難しい住所をどこまで解析できるのか

ジオコーディングツールは難しい住所をどこまで解析できるのか

おはようございます。メディア研究開発センターの新妻です。

つい先日、日本の住所を扱うことの難しさがインターネットで話題になってましたね。
日本の住所は、県、市区町村、町名、字、番地…と書き方のルールが一見存在しているように見えて、ルールをはみ出るような例外が非常に多く、ルールで処理するのが比較的難しいという問題があります。
(※日本の住所以外はルールに基づいているからこう言っているのではなく、筆

もっとみる