“このプロジェクトでは、毎月約20テラバイトの英語テキストをWebから抽出しました。「無意味なメニュー」「エラーメッセージ」「重複があるページ」を削除する際には、ターミナルの句読点で終わるテキスト行のみを保持したりしました。”
マイニュースに代わりフォローを今後利用しますか