FC2ブログ

子供の落書き帳 Remix

15/4/13:ひと月に一度更新するブログになってしまっている

スポンサーサイト
--/--/--(--) --:--:--

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
  1. --/--/--(--) --:--:--|
  2. スポンサー広告

デブサミ2018 自然言語処理・機械学習を活用したファクトチェック業務の支援
2018/02/19(月) 00:28:55

2018年2月15日 Developers Summit 2018にて
【15-A-3】自然言語処理・機械学習を活用したファクトチェック業務の支援(小宮 篤史 [スマートニュース])
内容メモ。現場での実況ツイートを元に一部修正。

Devsumiセッションのページ
「自然言語処理・機械学習を活用したファクトチェック業務の支援」 #devsumiA #devsumi - Togetter
講演者のSpeakerDeckはあるけど講演のスライドは上がっていない。
Presentations by KOMIYA Atsushi // Speaker Deck


ファクトチェック・イニシアティブ、東北大学の乾・岡崎研究室、スマートニュースらが共同でファクトチェック支援システムを運用している。

背景


フェイクニュースとは:意図的に虚偽の言説が含まれている情報
2016年アメリカ大統領選挙で蔓延した
ファクトチェック:事実として正確かどうか検証すること
「この発言は事実に照らして真です、嘘です」とか

フェイクニュースとファクトチェックは対にして語られがちであるが、しかし
ファクトチェックの対象となりうるのはフェイクニュースに限られない
・報道機関のニュース
・政治家や有識者の発言
・ネットメディア(医療系まとめサイトとか……)
・SNSで一般人の投稿内容
 例として最近の台湾地震、募金関連のツイートがある→Buzzfeed 台湾の地震を受けた寄付金デマ 本人は誤り認め、謝罪「インターネットの怖さを痛感した」

ファクトチェックの内容
正しいか、間違っているか を判別するだけがファクトチェックではない
・対象の言説は何か?一部か全体か?
・検証結果
・結果に至った根拠

ファクトチェックの国内外の現況


海外
・snopes 1990年~
・politifact など
・crosscheck フランスとイギリス
日本
・GoHoo 草分け的な存在
・朝日新聞は割りと力を入れ、特設記事を掲載
・2017年衆議院選挙 FIJ ファクトチェックプロジェクト

ファクトチェックの工程


発信情報 いろいろな媒体から人が発信した情報
↓  機械で検索・フィルタリング
探索情報 機械的に捕捉された情報
↓  人力  
端緒情報 ファクトチェックの対象となりえない、必要性がないものを除外したもの
↓  人力
ファクトチェック記事

探索情報→端緒情報の割合が非常に少ない。
探索情報が1000あっても、端緒情報は数件
絞込に人手がかかるのが課題

ファクトチェック・イニシアチブ


活動方針の一つに、ファクトチェッカーを支援する仕組み作りがある
ファクトチェック業務をテクノロジーで支援して効率化を図ろう
プロジェクト内での各機関の役割
東北大学:自然言語処理、機械学習でアルゴリズム開発
smartnews:システムの構築運用

テクノロジ系の先行事例
check
GitHubにのissueみたいな感じで複数のチェッカーがコミュニケーションを取る コラボレーションツール
Google検索結果に「ファクトチェック結果 FALSE」とか出てくる
claimbuster 文章に対してファクトチェックの価値の有無を判断

ファクトチェック支援システムの構成


ツイートのうち、URL言及・リプライを収集する
探索情報は1日数千件発生する
まず「確認する価値のあるorない探索情報」を判別できればいいよね
テキストを入力して、端緒情報の可能性を表す確率を出力する機械学習ができれば良いよね
記事(URL)ごとにツイートを名寄せ?集約する方針
ファクトチェックの結果は次回の学習に回す

※あとで画像を入れる

ツイートに対する前処理
記事タイトル除去:一部省略する人いるし完全一致では不可。編集距離を見つつ除去
ハッシュタグ除去
形態素解析MeCab、原形に変換
新聞社名などをストップワードとして除外処理
word2vec embedding
モデル学習
学習はLSTM →softmax
フレームワークはkeras, TensorFlow
論文が公開される予定なので、詳細は論文を参照


web console ファクトチェッカー向けに提供 UIが大事
collector TwitterAPIからツイートを取得
 「嘘」「フェイク」とかで検索して常時取得
 新聞社アカウントに対するリプライを取得
Learner 各種モデル構築
Predictor アルゴリズム変更に備えて予測部分を切り離す

インフラはGCP、Docker、kubernates
現在、実証実験をしつつ改善しているフェーズ
FIJに対して参加・支援をよろしくね!
参加・支援するには – ファクトチェック・イニシアティブ
  1. 2018/02/19(月) 00:28:55|
  2. 未分類
  3. | トラックバック:0
  4. | コメント:0

コメント


管理者にだけ表示を許可する

トラックバック

トラックバック URL
http://luvtome.blog5.fc2.com/tb.php/636-a331c8b7
この記事にトラックバックする(FC2ブログユーザー)

FC2Ad

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。