バイドゥは2010年8月31日、ネット上の掲示板やブログに書かれた文章を時系列に整理した「Baidu ブログ・掲示板時間軸コーパス」を公開した。どんなキーワードがいつごろ頻出していたかを調べるのに有用なデータだ。例えば「モーニング娘。」という言葉は2000年~2004年ごろに多く使われ、2009年以降は「AKB48」の出現率が上がっているといったことが分かる。同社によれば、時間軸に沿った言語現象の移り変わりを対象としたコーパスの公開は、ほかに例がないという。
コーパスとは、大規模な言語データベースのこと。今回バイドゥが公開したコーパスは、同社が収集(クロール)したネット上のデータのうち、掲示板への書き込みおよびブログの本文を、それが書き込まれた時間によって並べたものだ。2000年1月から2010年7月までの期間を対象に、1カ月単位でデータが集計されている。
このデータを分析することで、特定のキーワードがいつごろ多く使われ、いつごろ使われなくなったかといったことが明らかになる。複数のキーワードの傾向を比較することも可能だ。例えば「ワールドカップ」と「オリンピック」なら、オリンピックというキーワードの方が多く登場しているという。
このコーパスは、教育や研究の目的ならば無償で利用可能。営利目的での利用はできない。なお同社は今後も、さまざまなコーパスを公開していく予定という。
(日経パソコン 八木玲子)
[PC Online 2010年8月31日掲載]
AKB48、モーニング娘。、Baidu、コーパス
さらば番組表、ようこそSNS (2/10)
国内ソーシャル3社に変調の兆し、事業モデルに弱点 (2/9)
2012年2月10日付 (2/9)
覚えきれないならメモやツールを賢く活用 (1/22)
組織超えた「情報共有」が鍵、高まるハッカー需要 (2011/12/21)
・スマホ決戦、サムスン追うLG
・日比谷総合設備、オフィスの既設照明を7割節電
・凸版、スマホで機器の保守・管理情報
・ゼリア新薬、くる病治療薬を承認申請へ
・キングジム、香港に販売子会社…続き