朝日新聞社 メディア研究開発センター

朝日新聞社の研究開発チーム(通称「M研」)です。このブログでは、社内の技術者たちが、日…

朝日新聞社 メディア研究開発センター

朝日新聞社の研究開発チーム(通称「M研」)です。このブログでは、社内の技術者たちが、日々のお仕事や研究開発しているテーマ、実験的な「やってみた」記録などを、時に真面目に、時にゆるっと発信していきます。

マガジン

  • M研のおしごと

    メディア研究開発センター(旧ICTRAD、旧メディアラボ研究チーム)のメンバーのエントリが読めるマガジンです。

  • 新聞社のエンジニアのおしごと

    なかなか知られていない「新聞社のエンジニア」の仕事について、「中の人」たちがご紹介します!

  • エンジニアたちの「やってみた!」

    さまざまなツールやライブラリを使って、朝日新聞のエンジニアたちが「やってみた」エントリを紹介します! 朝日新聞に登場したデータ活用や頭をやわらかくするクリエイティブなコンテンツまで……新たなアイディアが生まれるかも!?

  • 連載:今日からはじめるAI文芸実践入門

    〈言葉〉による表現を計算機とともにおこなう人へ向けて、今日から実践できる内容を紹介する連載「今日からはじめるAI文芸実践入門」のマガジンです。

  • イベント系記事まとめ

    朝日新聞社の技術系イベントに関する記事を集めました。採用関連イベントレポートをはじめ、社外イベント・展覧会への参加などに関する記事がまとめてチェックできます。

最近の記事

AWS Inf2によるモデル推論―コンパイルから速度比較まで

こんにちは。メディア研究開発センター(通称M研)の田口です。今回はAWSのInf2インスタンスを使ったモデル推論の方法を紹介します。 AWS Inf2とはAWS Inf2とは、AWSが提供している推論特化型のInf1インスタンスの後継です。 Inf1については下記のテックブログで、BERTベースの系列ラベリングモデルを例にモデル推論の流れを説明しています。 M研内ではさまざまなタスクで事前学習済みモデルを利用した推論を行っています。リアルタイムで処理したい場合はGPUイ

    • 朝日新聞社技術職(特にM研)への就職をご検討の皆様向けまとめページ(2023-24)

      朝日新聞社メディア事業本部メディア研究開発センター(M研)の田森です。 このnoteは、少しでも弊社、特にM研への就職にご興味がある方に向けて、最近の活動をまとめたものです。ご参考になれば幸いです。 そもそもM研とは?朝日新聞社には現在、約30年、1000万記事がデジタルデータ化されています。M研はこの膨大な言語資源や、その他日々の活動で生み出されていく音声データ、画像データなどの資源を用いて、社内業務の改革や新しいビジネスの開発を進めています。下記のページに詳しく書かれ

      • はじめての特許出願【デジタルアーカイブの取り組み】

        こんにちは。メディア研究開発センター(M研)の嘉田です。 いきなりですが… 私の発明、特許を取得しました! ということで、今回のテックブログでは、M研の仲間2人とともに生み出した発明の内容と、特許取得までの道のりをご紹介します。 ちなみにM研発の発明は過去に2件の特許を取得しているので、本件で3件目となります👇 校正:https://www.j-platpat.inpit.go.jp/c1800/PU/JP-2019-016140/86DB7FCA375F25A73DAD

        • 音声認識のアノテーションを効率的に行うための取り組み

          あけましておめでとうございます。メディア研究開発センターの山野です。そういえばイブラヒモビッチに憧れてジャンピングボレーシュートを真似した結果、着地に失敗し靭帯を損傷したこともありました。 動機さて、メディア研究開発センターでは音声認識[1]や音声認識結果の可読性を向上[2]させるための研究を行なっています。そのような研究をするためには多くの高品質なデータが必要であることが一般的には知られています。そこで我々は、独自で構築したデータ収集・アノテーション基盤を活用し、アノテー

        AWS Inf2によるモデル推論―コンパイルから速度比較まで

        マガジン

        マガジンをすべて見る すべて見る
        • M研のおしごと
          朝日新聞社 メディア研究開発センター
        • 新聞社のエンジニアのおしごと
          朝日新聞社 メディア研究開発センター
        • エンジニアたちの「やってみた!」
          朝日新聞社 メディア研究開発センター
        • 連載:今日からはじめるAI文芸実践入門
          朝日新聞社 メディア研究開発センター
        • イベント系記事まとめ
          朝日新聞社 メディア研究開発センター

        記事

        記事をすべて見る すべて見る

          今日からはじめるAI文芸実践入門:クリスマスとお正月の間の空白をテーマにした音楽をつくる

          はじめにみなさん、こんにちは。メディア研究開発センターの浦川です。私は普段、自然言語処理(書き言葉から話し言葉まで、日常生活で普通にヒトが使う言葉をコンピュータで扱うこと)に関する研究開発に従事しています。これまでに、自動で記事の見出しを生成する「TSUNA」や、短歌を生成する「短歌AI」などに携わってきました。 さて、本連載では「〈言葉〉による表現を計算機とともにおこなう人へ向けて、今日から実践できる内容を紹介する」というテーマのもと、毎回異なる文章表現や技術を取り上げた

          今日からはじめるAI文芸実践入門:クリスマスとお正月の間の空白をテーマにした音楽をつくる

          漢数字を洋数字に変換したいだけなのに

          はじめにはじめまして、メディア研究開発センターの河﨑です。 大学は農学系の学部で、大学4回から修士2回までの3年間は、ソメイヨシノの満開日についてずっと考えていました。 M研に入れてもらえてラッキー、ハッピーって感じだったのですが、右も左も(もはや前も後ろも)わからない状態でてんやわんやの毎日です。 (強強の先輩方に助けられながらなんとか生きています。内定者、就活生の皆様期待して大丈夫です。) 今回は、私が配属されて最初のタスク「音声書き起こし文の最適化」の一部分「漢数字

          漢数字を洋数字に変換したいだけなのに

          EMNLP 2023に参加した話

          はじめにこんにちは。メディア研究開発センターの川畑です。普段は自然言語処理に関する研究開発業務を行っています。 先日シンガポールにて開催された EMNLP 2023 (自然言語処理分野の主要国際会議の一つです) に論文が採択されたので現地参加してきました。 今回の記事では現地の様子や面白そうな論文、採択論文の紹介をしていきます。 数字で見るEMNLP 2023投稿件数は明確に数字では書かれていませんでしたが、昨年と比べて1,000件弱増加していたようです。昨年の EMNLP

          今日からはじめるAI文芸実践入門:AIが「学校の怪談」で繋ぐ平成と令和

          はじめにみなさん、こんにちは。メディア研究開発センターの浦川です。私は普段、自然言語処理(書き言葉から話し言葉まで、日常生活で普通にヒトが使う言葉をコンピュータで扱うこと)に関する研究開発に従事しています。これまでに、自動で記事の見出しを生成する「TSUNA」や、短歌を生成する「短歌AI」などに携わってきました。 さて、本連載では「〈言葉〉による表現を計算機とともにおこなう人へ向けて、今日から実践できる内容を紹介する」というテーマのもと、毎回異なる文章表現や技術を取り上げた

          今日からはじめるAI文芸実践入門:AIが「学校の怪談」で繋ぐ平成と令和

          音声合成を使った音声認識のためのデータ作成とその結果

          こんにちは、メディア研究開発センターの山野です。最近よく聞くポッドキャストはダブルヒガシさんの「はちくちダブルヒガシ」です。 動機音声認識のモデル構築は一般的に音声とその書き起こしのペアデータセットを必要とします。そのようなデータセットを一から構築することは、大変コストがかかる作業になります。 今回は音声合成を使った人手を介さない(≒コストのかからない)データセットの構築と実験をしたので、その結果を共有しようと思います。 データセット入力文 JNCデータセットからラン

          音声合成を使った音声認識のためのデータ作成とその結果

          【AI校正】 Typolessを紹介させてください by 開発者

          Noteに記事を投稿するのは久方ぶりになりました、M研の倉井です。 なぜ久しぶりになってしまったのか、それは今回お話しする「Typoless」の開発にいそしんでいたからです! … 言い訳ですね笑 というわけで今回はM研が開発・公開した 「朝日新聞社の文章校正AI Typoless」 について、どんなことができるのか、また将来的にどんなことができるようになるのか、お伝えできればと思います。 TypolessはズバリこんなものTypolessは文章校正のWebサービスです。こ

          【AI校正】 Typolessを紹介させてください by 開発者

          【バズる記事を推論!】非公開データを用いた自然言語処理コンペティション2023

          今回の記事では、11/18〜19にかけて開催されたメディア研究開発センター主催「バズる記事を推論」コンペの様子をお届けします。2021年から始めて3回目の今回ですが、自然言語処理コンペでの腕試しや朝日新聞社の技術職に興味のある総勢16名の学部生、大学院生の方達にご参加いただきました。 どんなコンペ? さて、今回のコンペは朝日新聞デジタルで公開された記事が Twitter (現X) 経由でどれだけ多くの人に読まれたかを、記事の見出しや本文、記事のジャンル、記事の写真などといっ

          【バズる記事を推論!】非公開データを用いた自然言語処理コンペティション2023

          大容量ファイルのアップロードってどうやるの?【署名付きURL×マルチパートアップロード】

          こんにちは。メディア研究開発センター(M研)の新美です。 最近イベント用のグッズでTシャツを購入しましたが、肝心のイベントのチケットが外れて日の目を浴びられないことが確定したため少しやさぐれております。 さて、そんなやさぐれ女が今回ご紹介するのは署名付きURLを用いた大容量ファイルのアップロード方法についてです。私が開発に携わっている社内向け文字起こしサービス「YOLO」では、長時間の録音ファイルや動画ファイルなど大容量のファイルのアップロードが求められるようになってきまし

          大容量ファイルのアップロードってどうやるの?【署名付きURL×マルチパートアップロード】

          アンケートクイズ作成ツール「QuzillA」

          こんにちは、メディア研究開発センターの村瀬です。今回は、私が開発に携わっているアンケートクイズ作成ツール「QuzillA」の紹介をいたします。 QuzillAQuzillAはアンケートクイズを簡単に作成でき、WEBサイトへ埋め込んだりクイズページを公開することができるサービスです……この響きに聞き覚えがある方は相当なメディア研究開発センターファンです。そう、何を隠そう以前ご紹介したQukkerのサービス名がリニューアルしたものです。以下のnoteが以前ご紹介したQukker

          アンケートクイズ作成ツール「QuzillA」

          巷にあふれる情報を一括管理したい!

          いつもM研テックブログをご覧いただきまして、ありがとうございます。朝日新聞社メディア研究開発センター(M研)の田森です。 このテックブログも全体で100号目、私も勤続20年目となりました。弊社でR&D活動を初めてちょうど10年、私にとっては切りのいい数字が並びます。いまではこのテックブログも、弊社のR&Dもいろいろと成果も出てきています。振り返ると、まさに「connecting the dots」の世界だと思っています。 今後も、メディアにおけるR&Dの活動とはどうあるべ

          巷にあふれる情報を一括管理したい!

          【エンジニアは読書すべきか?】新卒エンジニアが1年半で本を37冊読んで学んだこと

          はじめにこの記事は、1年半で本を37冊読んだエンジニアが、身をもって知った読書の効果を伝える記事である。後半は私が読んだ本の全リストと学びを掲載した。誰かが本を好きになってくれることを祈って。 本に関する記事を書いたきっかけ 嬉しいことに、新人2名が部署にやってきて、私がこのセンターに入って1年になったと気づいた。 ありがたいことに、この1年間で研究からUIUXリサーチ、小さなチームのリーダーなど、いろいろ経験させてもらった。これからはフロントやAWSもがっつり触る予定だ

          【エンジニアは読書すべきか?】新卒エンジニアが1年半で本を37冊読んで学んだこと

          野球選手写真の自動選別プロセス

          はじめに初めまして。メディア研究開発センター(M研)の福沢と申します。 2022年12月に朝日新聞社に中途入社しました。これまで主に画像処理や画像認識の研究開発に携わってきましたが、現在はマルチモーダル基盤モデル(Foundation Model)の構築手法について研究しています。 今回、社内業務の効率化を図るために、全国高等学校野球選手権大会(全国高校野球選手権大会)の地方大会で弊社の記者が試合現場で撮影した大量の選手写真から、販売可能な写真を自動で選別するプロセスを検証

          野球選手写真の自動選別プロセス