朝日新聞社 メディア研究開発センター

朝日新聞社の研究開発チーム(通称「M研」)です。このブログでは、社内の技術者たちが、日々のお仕事や研究開発しているテーマ、実験的な「やってみた」記録などを、時に真面目に、時にゆるっと発信していきます。

朝日新聞社 メディア研究開発センター

朝日新聞社の研究開発チーム(通称「M研」)です。このブログでは、社内の技術者たちが、日々のお仕事や研究開発しているテーマ、実験的な「やってみた」記録などを、時に真面目に、時にゆるっと発信していきます。

    マガジン

    • エンジニアたちの「やってみた!」

      さまざまなツールやライブラリを使って、朝日新聞のエンジニアたちが「やってみた」エントリを紹介します! 朝日新聞に登場したデータ活用や頭をやわらかくするクリエイティブなコンテンツまで……新たなアイディアが生まれるかも!?

    • M研のおしごと

      メディア研究開発センター(旧ICTRAD、旧メディアラボ研究チーム)のメンバーのエントリが読めるマガジンです。

    • 新聞社のエンジニアのおしごと

      なかなか知られていない「新聞社のエンジニア」の仕事について、「中の人」たちがご紹介します!

    • イベント系記事まとめ

      朝日新聞社の技術系イベントに関する記事を集めました。採用関連イベントレポートをはじめ、社外イベント・展覧会への参加などに関する記事がまとめてチェックできます。

    • 連載:今日からはじめるAI文芸実践入門

      〈言葉〉による表現を計算機とともにおこなう人へ向けて、今日から実践できる内容を紹介する連載「今日からはじめるAI文芸実践入門」のマガジンです。

    最近の記事

    類似事例を使って要約モデルの性能を向上させる

    こんにちは。メディア研究開発センター(M研)の田口です。 今回は、自然言語処理のトップ会議であるACL2022で採択された “Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data”の内容と、その手法を日本語の見出し生成タスクで実験した結果を紹介したいと思います。 訓練データは思っている以上に価値がある?”Tr

    スキ
    4
      • アノテーションツール「Label Studio」のご紹介【無料でどこまでできる?】

        こんにちは。メディア研究開発センター(M研)の嘉田です。今回は私がよく使うアノテーションツール「Label Studio」についてのお話です。 機械学習におけるアノテーションとは、モデルを訓練するための教師データを作成する作業のことです。以前にM研の杉野さんからアノテーションツールprodigyについてのご紹介がありましたので、ぜひこちらの記事もご覧ください! Label StudioとはLabel StudioはHeartexという会社が提供しているオープンソースのアノテ

        スキ
        3
        • 社内向け文字起こしサービス「YOLO」のご紹介

          はじめにメディア研究開発センターの山野です。 そろそろコーヒーを砂糖・ミルクなしで飲めるようになりたいお年頃(もうすぐ30歳)です。 さて、約2年ほど前から社内向けの文字起こしサービスを開発しており、最近大型のアップデートをしたこともあり、これまで行ってきたことを一部紹介させていただきます。 サービス名早速ですが、このサービスは社内でYOLOという名前で親しまれています。 (”YOLO”は物体検出の手法で有名ですね、またネット上でもスラングで使われているそうです) 「ファ

          スキ
          13
          • 【NLP Competition 2022】今年も開催、バズる記事予測コンペ【自然言語処理】

            今回のテックブログでは、この秋開催された自然言語処理コンペティションの模様をお届けします。大学生・大学院生を対象とし、今年で5回目となるこのコンペ。様々なバックグラウンドの参加者17名が2日間、競い合いました。 非公開データを使って、よく読まれる記事を予測!10月15日(土)〜16日(日)の2日間、オンラインにて開催された「NLP Competition for Students -2022 Autumn-」は、朝日新聞社メディア研究開発センターが主催する自然言語処理コンペ

            スキ
            2

          マガジン

          マガジンをすべて見る すべて見る
          • エンジニアたちの「やってみた!」
            朝日新聞社 メディア研究開発センター
          • M研のおしごと
            朝日新聞社 メディア研究開発センター
          • 新聞社のエンジニアのおしごと
            朝日新聞社 メディア研究開発センター
          • イベント系記事まとめ
            朝日新聞社 メディア研究開発センター
          • 連載:今日からはじめるAI文芸実践入門
            朝日新聞社 メディア研究開発センター

          記事

          記事をすべて見る すべて見る

            GA4移行のためにGTMのタグ情報収集ツールを作成した話 GoogleAnalytics/GoogleTagManager

            メディアデザインセンターの山本剛史と申します。普段はWebメディアのアクセス解析や、ABテストによる改善検証など、サイトグロースを担当しています。 朝日新聞社のWebメディアとしては朝日新聞デジタルが有名ですが、それ以外にも多様なWebメディアを運営しています。そうした多様なメディアの運営を行っているのがメディアデザインセンターです。 今回、メディアのアクセス解析で利用しているGoogle Analytics(GA)のGA4移行に伴い、タグ管理ツールのGoogle Tag

            スキ
            24

            【Text-to-Image】AI画像生成で桃太郎を4コマ画像要約してみた【DALL・E 2/Midjourney/StableDiffusion】

            はじめにこんにちは。メディア研究開発センター所属の新美です。 私は小さい頃から大の漫画好きでして、学生時代、歴史の勉強はほとんど漫画で覚えていました。活字だけで読むよりも漫画などでイラストと一緒に読む方が頭に入るんですよね。(新聞社に勤めている身としてはいかがなものかと思われますが) そんなわけで全ての読み物に挿絵がついていたり、文章を画像で要約してくれたらいいのにな〜と昔から思っていたのですが、なんとAIで実現できる未来がすぐそこまできているかもしれないのです。そこで、今話

            スキ
            29

            人流オープンデータを使って時系列変化を可視化してみた

            こんにちは。M研の尾崎です。世の中にはいろんなオープンデータが公開されていますが、大手携帯電話会社のスマホアプリなどからの位置情報を匿名化/統計加工したデータを使って、人の流れがどのように変化しているかがわかる人流データが公開されています。新型コロナウイルス感染症の拡大で、感染を抑える一つの有力な政策として、人流を制限することが挙げられました。こういった人流データの分析がなされ、飲食店の時短営業要請などの施策が行われたのは、記憶に新しいと思います。この記事では簡単なツールを使

            スキ
            8

            【AWS SAA】Solution Architect Associateとってみた【勉強方法】

            こんにちは。M研の村瀬です。私事ですが、3月にAmazon Web Service(以下AWS)の認定資格Solution Architect Associate(以下SAA) を取得しました。今回は資格取得までに私がやったことや、やっておいて良かった事などなどを皆さんに共有したいと思います。このブログが誰かのSAA取得の一助になりますと幸いです。 AWS 認定資格Solution Architect Associate とは AWSは言わずと知れたクラウドサービスです。

            スキ
            8

            【検証】校正支援ツールTyE「文脈を踏まえた誤り検知」の実力とは?

            はじめに こんにちは。M研の杉野です。 今年2022年春にお披露目した「校正支援ツールTyE」について、皆さんはもうご存知でしょうか?このテックブログの公開前チェックでも毎回使っており、なかなか頼もしい働きをしているので、多くの方にその実力を知っていただきたいと思っていました。 そこで今回は、他のツールとの比較も交えながら、TyEが得意とするところを中心に紹介してみたいと思います。 TyEってなあに? TyEは、入力文の文法的な間違い箇所を検知する校正支援ツールです。

            スキ
            3

            OpenTelemetryについて

            松原です。最近チーム内でオブザーバビリティ(可観測性)に真剣に取り組んでいこうという動きがあり、今回は比較的新しいツール/コミュニティである「Open Telemetry」を中心に、オブザーバビリティ周辺について書きます。 オブザーバビリティ(可観測性)とは 予期せぬ出来事が発生したときに原因の追求を行うことが出来る能力がオブザーバビリティとなります。 オブザーバビリティを得るためには オブザーバビリティ3本柱である「メトリクス」「トレース」「ログ」を収集することによ

            スキ
            5

            yabaiとskhdで爆速ウィンドウ操作環境を構築してみた

            はじめにこんにちは。 メディアラボチームで新規事業に取り組んでいる市野です。 PCを利用する上で避けられないウィンドウ操作 (アプリケーションを開いたときに表示されるあれです) 。表示されたあとに、適切なサイズに変更したり、他のウィンドウと被らないように位置を変更することも多いのではないでしょうか。 これって地味に時間がかかる細かい作業ですよね、、、 もし、マウスを使わずにキーボードショートカットだけで適切な位置・サイズに変更できたら、、、 もし、なんならキーボードす

            スキ
            16

            Tesseract v4に特定のフォントを学習させる ~ 画像のデノイジング処理を添えて ~

            メディア研究開発センターの倉井です。 最近Tesseractを使ってOCRをしたいことがあったのですが、新たにフォントを学習させたい場合など、いくつか初見では難しい設定をする必要があったので、備忘録的に残したいと思います。 合わせて元の画像のノイズをopenCVを使って取り除き、綺麗にする方法も共有したいと思います。 なお、検証に当たって大いに参考にさせていただいたWebページのリンクを最後にまとめています。 TesseractをインストールするTesseractは記事執

            スキ
            6

            恥ずかしい誤字脱字に効く!校正支援ツール「TyE」

            メディア研究開発センター(M研)の田森です。 今回は、M研で開発中の校正支援ツール「TyE(たい)」の紹介をしたいと思います。ネーミングは先に開発した「TSUNA(つな)」の兄弟分、ということでお察しください。 こちらのウェブサイトでも、情報を更新していきます。 TyEとはTyEができることはシンプルで、日本語で書かれた文の「誤っていそうな箇所」を指摘します。APIで提供しているので、様々なアプリケーションやサービスに適用できます。下記の例は、作成中のデモ画面でのチェッ

            スキ
            24

            震度図自動生成をnode.jsで書いた。

            今回のテックブログは、地震が起きた時の報道で使われる「震度図」の自動生成のお話がメインではなく、node.jsでデータを画像化するお話です。 メディア研究開発センターの赤澤が書きます。 本記事をまとめるならば「d3.jsでSVGを作り、sharpで画像変換せよ」以上です。 さて…‥‥。 このような震度図を朝日新聞社は3年前まで手動で作っていました。気象庁が発表した震度情報をデザイン部がグラフィックツールを使って職人芸で超高速で作っていたのです。 今回はそれを自動化した

            スキ
            4

            オープンデータ分析してみたら、「日本を少し変えちゃった」話

            朝日新聞社デジタル機動報道部でデータジャーナリズムの取り組みに携わっている山崎です。もともとエンジニアとして入社した背景を武器に、データの分析やそのビジュアライゼーションを記事の執筆に活かしています。 今回はちょっとこちらのNoteにお邪魔して、4月に朝日新聞デジタルで配信がスタートした、オープンデータ分析による大型連載(←自分で言うな)「みえない交差点」のテクニカルな部分を紹介したいと思います。 1.そもそもどんな連載?分析の元データとなったのは、警察庁がオープンデータ

            スキ
            77

            NLP2022に参加しました(後編)

            今回のテックブログは、前回に続き言語処理学会第28回年次大会(NLP2022)の参加報告をお届けします。前編は「要約・言語生成」、後編の今回は「Transformerの解釈性・Webサービス開発への応用可能性」に関する論文で気になったものをご紹介していきます。 はじめにメディア研究開発センターの新妻です。 普段は自然言語処理に関わる研究開発や、ジャーナリズムのためのデータ分析に携わっています。 これまでに書いたnoteの記事には、次のようなものがあります。 それでは、N

            スキ
            6