朝日新聞社 メディア研究開発センター

朝日新聞社の研究開発チーム(通称「M研」)です。このブログでは、社内の技術者たちが、日…

朝日新聞社 メディア研究開発センター

朝日新聞社の研究開発チーム(通称「M研」)です。このブログでは、社内の技術者たちが、日々のお仕事や研究開発しているテーマ、実験的な「やってみた」記録などを、時に真面目に、時にゆるっと発信していきます。

マガジン

  • エンジニアたちの「やってみた!」

    さまざまなツールやライブラリを使って、朝日新聞のエンジニアたちが「やってみた」エントリを紹介します! 朝日新聞に登場したデータ活用や頭をやわらかくするクリエイティブなコンテンツまで……新たなアイディアが生まれるかも!?

  • 連載:今日からはじめるAI文芸実践入門

    〈言葉〉による表現を計算機とともにおこなう人へ向けて、今日から実践できる内容を紹介する連載「今日からはじめるAI文芸実践入門」のマガジンです。

  • M研のおしごと

    メディア研究開発センター(旧ICTRAD、旧メディアラボ研究チーム)のメンバーのエントリが読めるマガジンです。

  • 新聞社のエンジニアのおしごと

    なかなか知られていない「新聞社のエンジニア」の仕事について、「中の人」たちがご紹介します!

  • イベント系記事まとめ

    朝日新聞社の技術系イベントに関する記事を集めました。採用関連イベントレポートをはじめ、社外イベント・展覧会への参加などに関する記事がまとめてチェックできます。

最近の記事

LLMによる日本語タイポ修正ベンチマーク

こんにちは。メディア研究開発センター(通称M研)の田口です。 昨年6月末にこんな記事を書きました。このときはgpt-35-turbo、text-davinci-003を使っていて今読み返すと隔世の感ですね… 現在も要約関連のことをやっているのかというと、最近のメインの業務は「Typoless」という校正支援AIサービスの開発に従事しています。AI校正機能からその他解析API群の整備・運用まで幅広くやっています。Typolessについては昨年末にPdMがnoteを書いている

    • モノに関わる職業をLLMで分析!

      今回やったこと ・Azure OpenAI Serviceのapiで、gpt-4oを使用  ・プロンプトの工夫(結果をpythonのリスト形式で出力したい)  ・画像認識 ・pythonで関係図を作る(ネットワークグラフ) はじめに後輩ができました、2年目の河﨑です。 夏になり、M研にも新入社員が配属されてきました。 朝日新聞社の技術職の新入社員は、4月に入社してから5ヶ月間の技術者研修を受けます(手厚い!)。 ネットワークの基礎に関する講義を受けたり、システム構築実習

      • LLMは文分類を抽象的に学ぶことはできるか?

        メディア研究開発センターの新妻です。 LLMのブーム、すごいっすよね。 (この記事においては、LLMは大規模なdecoder onlyな言語モデルを指して使います。) 自分も最近は継続事前学習とか頑張ってます。 NLPには文分類(sentence classification)という基礎的なタスクがあります。 具体的なタスクで言えば、含意関係認識や感情解析などの与えられた文に対して限られた選択肢からラベルを付与するようなタスクです。 この文分類については、既存のBERTな

        • GPT-4oは画像の座標情報を理解しているのか?

          こんにちは。朝日新聞社メディア研究開発センターの嘉田です。 早速ですが、みなさんはGPT-4oを使っていますか? GPT-4oは画像認識精度も上がっていて日本語OCRもできる!と評判ですが、バウンディングボックスも出力できるのか?そもそもGPT-4oは画像の座標情報をどの程度扱えるのだろうか?と疑問に思い、検証することにしました。 検証方法正しい座標を出力できるか、与えた座標を理解できているか、物体間の位置関係を理解できているか、という観点で確認するべく、下記の3つの方法

        LLMによる日本語タイポ修正ベンチマーク

        マガジン

        • エンジニアたちの「やってみた!」
          47本
        • 連載:今日からはじめるAI文芸実践入門
          10本
        • M研のおしごと
          74本
        • 新聞社のエンジニアのおしごと
          35本
        • イベント系記事まとめ
          8本

        記事

          LLMを使ったかな漢字変換

          こんにちは。メディア研究開発センターの山野です。私は普段は音声処理や自然言語処理やそれらの技術を使ったプロダクト開発などに従事しています。 さて今回は朝日新聞記事データを使ったニューラル仮名漢字変換について簡易な実験をしたのでその結果を共有します。 はじめに多くの問題を解くことができるLLMですが、ひらがな列Xをかな漢字混じり文Yへ変換する仮名漢字変換については、単語の読み方とその表記の関連性を学習する必要があり、現時点(2024年7月8日)ではLLMでもうまく解くことがで

          【LLM】Few-shot推論は言語化の壁を越えられるか

          こんにちは。メディア研究開発センターの川畑です。 みなさん ChatGPT 使ってますか?便利ですよね。何か訊いたら大概のことは正確に教えてくれますし、論文等の文書もわかりやすくまとめてくれたりと万能な存在です。 そんな便利な ChatGPT もとい LLM (large language model) ですが、その知識を引き出すためには質問や指示をキチンと言葉にしなければいけません。ちゃんと指示を言葉にする、というのは一見すれば簡単なことですが、何度もチャットしていると

          【LLM】Few-shot推論は言語化の壁を越えられるか

          LLMのTraceabilityについて素人が考えてみた

          はじめにメディア研究開発センターの村瀬です。よろしくお願いします。 今回のブログはLLMやDeep Learningについて初学者の私がLLMのTraceabilityについて考えてみたという内容でお送りします。 発端 私が急にLLMのTraceabilityについて考え出したのは天啓があったから….ではなく、メディアとしてLLMが生成した物を見極める力が必要ではないかと考えためです。”LLMの生成物の判別”というキーワードで調べていくうちにLLMのTraceabilit

          LLMのTraceabilityについて素人が考えてみた

          『AIは短歌をどう詠むか』という本

          はじめにみなさん、こんにちは。メディア研究開発センター(M研)の浦川です。私は普段、自然言語処理(書き言葉から話し言葉まで、日常生活で普通にヒトが使う言葉をコンピュータで扱うこと)に関する研究開発に従事しています。これまでに、自動で記事の見出しを生成する「TSUNA」や、短歌を生成する「短歌AI」などに携わってきました。 さて、本日は6月20日に講談社現代新書として発売される『AIは短歌をどう詠むか』という本についてご紹介します。 こんな本です本書は、〈短歌AI〉が短歌を

          『AIは短歌をどう詠むか』という本

          【Presented by AWS Japan】 DynamoDB勉強会を開催してもらいました

          こんにちは!朝日新聞社メディア研究開発センターの嘉田です。 今回は、先日AWSさんに開催していただいたDynamoDB勉強会についてご紹介します。 経緯弊センターではAWSを使って様々なプロダクトを開発しています。 私が研究開発に携わっている社内向け音声書き起こしシステムもAWSをフル活用しており、AWSのソリューションアーキテクトや営業の方々には日頃からお世話になっています。 過去には音声書き起こしシステムについてAWSブログやオンラインセミナーなどでご紹介させていただき

          【Presented by AWS Japan】 DynamoDB勉強会を開催してもらいました

          LLMは本当になんでも得意なの?TSUNAの文字数コントロールを検証

          朝日新聞社メディア研究開発センター 田森です。 ゴールデンウィークがいよいよ始まりますね。メディア研究開発センターも4月には新年度を迎えワチャワチャしていましたが、月末になりようやく落ち着きを見せてきました。 ようやく、ようやく、要約。ということで、今回のテックブログは自然言語処理における要約タスクとLLMの最近について書いてみたいと思います。このブログは、NLP2024のワークショップ「生成AI時代の自然言語処理における産学官の役割と課題」で発表するにあたり、調査した内

          LLMは本当になんでも得意なの?TSUNAの文字数コントロールを検証

          SAR衛星画像で能登半島地震の被災状況を把握する初めてのトライ

          はじめに地震や、台風などの自然災害が発生した時に、一番重要なのは被害状況を迅速に把握することです。それによって、迅速かつ適切な救援や、復旧、生活再建活動を行うことができます。災害地の状況を迅速に把握するために、衛星画像を解析した結果を利用することができます。 朝日新聞社メディア研究開発センターの福沢です。令和6年1月1日16時10分に、日本の石川県の能登半島地下16kmで発生した最大震度7の内陸地殻内地震で、建物の倒壊や津波の被害、それに地盤の隆起、火災の被害などが発生しま

          SAR衛星画像で能登半島地震の被災状況を把握する初めてのトライ

          焼酎を飲むのは九州の人ばかり?オープンデータでお酒の消費の地域差を分析!🍶

          こんにちは。福岡生まれの石井です。 4月で入社3年目になります。 最近、焼酎が飲めるようになりました。 焼酎はお酒の中でも大人なイメージで、クセも強いかなあと思っていたのですが、友人の勧めで試しにソーダ割で飲んでみたところ、すっかりハマってしまいました。 幼少期に、ふざけて祖父の飲む焼酎の匂いを嗅がせてもらっていたから独特な香りへの抵抗がなかったのでしょうか(もちろん当時は飲んでいません)。 そういえば、焼酎というと生産地がかなり九州に寄っている印象ですよね。 もしかした

          焼酎を飲むのは九州の人ばかり?オープンデータでお酒の消費の地域差を分析!🍶

          桜だより〜関西地方の開花推移〜

          こんにちは。メディア研究開発センターの河﨑です。 春ですね。大都会東京の花粉の多さに慄きながら、日々過ごしています。 (私の大好きな故郷大阪よりも花粉が多いそうで、、やってられないです) 新聞社に入社したので、学生の頃より新聞を読む機会が増えました。 新聞には「その日の情報」がとてもたくさん載っています。 今日の新聞を見ることで、今何が起こっているかがわかる。 過去の新聞を見れば、その時何が起こっていたかわかる。 ここで思い出しました。大学の時、ソメイヨシノの満開日につ

          桜だより〜関西地方の開花推移〜

          AWS Inf2によるモデル推論―コンパイルから速度比較まで

          こんにちは。メディア研究開発センター(通称M研)の田口です。今回はAWSのInf2インスタンスを使ったモデル推論の方法を紹介します。 AWS Inf2とはAWS Inf2とは、AWSが提供している推論特化型のInf1インスタンスの後継です。 Inf1については下記のテックブログで、BERTベースの系列ラベリングモデルを例にモデル推論の流れを説明しています。 M研内ではさまざまなタスクで事前学習済みモデルを利用した推論を行っています。リアルタイムで処理したい場合はGPUイ

          AWS Inf2によるモデル推論―コンパイルから速度比較まで

          朝日新聞社技術職(特にM研)への就職をご検討の皆様向けまとめページ(2023-24)

          朝日新聞社メディア事業本部メディア研究開発センター(M研)の田森です。 このnoteは、少しでも弊社、特にM研への就職にご興味がある方に向けて、最近の活動をまとめたものです。ご参考になれば幸いです。 そもそもM研とは?朝日新聞社には現在、約30年、1000万記事がデジタルデータ化されています。M研はこの膨大な言語資源や、その他日々の活動で生み出されていく音声データ、画像データなどの資源を用いて、社内業務の改革や新しいビジネスの開発を進めています。下記のページに詳しく書かれ

          朝日新聞社技術職(特にM研)への就職をご検討の皆様向けまとめページ(2023-24)

          はじめての特許出願【デジタルアーカイブの取り組み】

          こんにちは。メディア研究開発センター(M研)の嘉田です。 いきなりですが… 私の発明、特許を取得しました! ということで、今回のテックブログでは、M研の仲間2人とともに生み出した発明の内容と、特許取得までの道のりをご紹介します。 ちなみにM研発の発明は過去に2件の特許を取得しているので、本件で3件目となります👇 校正:https://www.j-platpat.inpit.go.jp/c1800/PU/JP-2019-016140/86DB7FCA375F25A73DAD

          はじめての特許出願【デジタルアーカイブの取り組み】