OpenRefine:オープンソースが支えるデータ処理の新しいかたち

OpenRefine: Data Workflow via Open Source Collaboration

OpenRefine――オープンソース協働の力を示す、進化し続けるデータツール

OpenRefineは、非常に強力なデータ処理ツールですが、それ以上の存在でもあります。それは、オープンソースによる協働がもたらす変革の可能性を体現しているプロジェクトでもあるのです。もともとはMetaweb社によってクローズドソースとして開発され、その後GoogleやWikidata向けに発展したOpenRefineは、今や世界中の研究者、ジャーナリスト、ボランティアの貴重なツールとして広く使われています。

調査報道を支援したり、スコットランドの魔女狩りデータベースのように歴史を記録したりと、その用途は多岐にわたります。

今回は、OpenRefineのプロジェクトマネージャーであるマルタン・マグディニエ氏にインタビューし、このプロジェクトの進化、直面してきた課題、成功事例、そして今後の展望について伺いました。


■ OpenRefine誕生の背景と、進化の軌跡

Q:OpenRefineが誕生した動機、これまでの進化について教えてください。また、印象的な成功事例があれば共有してください。

OpenRefineがどこでどのように役立っているかを把握するのは実はとても難しいんです。というのも、ユーザーは大抵ローカル環境で使うため、私たちに報告されることはあまりありません。ただし、研究論文やSNSなどで公開されるケースもあります。

中でも印象的だったのは、2018年に発覚したDanske Bankのマネーロンダリング事件の調査報道で、OpenRefineが使用されたという報告でした。また、「Data Harvest」というカンファレンスの参加者からは、他の調査報道でも多く使用されていると聞きました。

個人的には、スコットランドの魔女狩りに関するプロジェクトも非常に尊敬しています。彼らは歴史的な魔女狩りの実態を記録し、OpenRefineの優れたチュートリアルまで制作してくれました。Wikidataとの連携を学ぶ上で、私は今でもこのチュートリアルを入門教材として推薦しています。


■ プライバシーとオープンソースの両立

Q:強力なデータ操作機能と、ユーザープライバシーのバランスはどう取っていますか?

数年前、プロジェクトに法的な正当性を持たせるため、財政的なスポンサーを探し始めました。その過程でSoftware Freedom Conservancy(SFC)に申請した際、知的財産に関するコードレビューが行われました。

その結果、OpenRefineが依存していたorg.jsonというJavaライブラリが問題視されました。このライブラリは「JSONライセンス」で公開されており、「このソフトウェアは“善”のために使うべし」という文言があるため、いくつかの団体ではオープンソースライセンスとは認められていませんでした。

この問題の解決には、ライブラリの除去とJSON処理の全面的な書き換えが必要でしたが、それにより多くのプラグインとの互換性が失われることになりました。それでも、これによりOpenRefineはBSDライセンスに完全準拠することとなり、大きな前進となりました。

最終的にSFCには別の理由で受け入れてもらえなかったものの、Code for Science & Societyという組織に受け入れてもらい、この長く険しいプロセスを完了できました。


■ 多様なコミュニティへの支援と参加

Q:OpenRefineのコミュニティとの関わり方、サポート体制について教えてください。

OpenRefineのユーザーは地理的にも職種的にも多様なので、1つの場所にすべてのユーザーが集まるわけではありません。フォーラムは広く門戸を開いていますが、現在は英語のみ対応で、Discourseというプラットフォームに不慣れな人もいます。

そのため、私たちメンバーはDiscord、Telegramグループ、ウィキ、各種イベントや研修など、さまざまなチャネルで活動しています。また、年2回ユーザーアンケートを実施しており、2024年の結果も公開中です。最近では、ツール内に通知機能を設け、より多くのユーザーの声を直接聞けるように工夫を始めました。


■ 最近の成果とこれからの展望

Q:最近の成功や、今後の開発計画について教えてください。

Google Summer of CodeOutreachyといったインターンシッププログラムへの参加は非常に有意義でした。優秀なインターンが意味あるプロジェクトに取り組み、コードベースを改善してくれるだけでなく、私たち自身のドキュメントや導入プロセスの改善にもつながっています。

ただし、インターン終了後に貢献者として継続的に関わってもらうことは難しく、資金のあるプロジェクトと関係していない限りは継続性が課題です。


■ 有益だった連携・パートナーシップ

Q:特に成果のあった連携やパートナーシップがあれば教えてください。

Wikimediaコミュニティとの連携は、OpenRefineにとって大きな転機となりました。当初はFreebase向けに設計されていましたが、Freebaseの終了後、Wikidataとの連携によって、データアップロードのインフラとして重要な役割を担うことになりました。

この統合により、Wikidata、Wikibase、Wikimedia Commonsなどに何百万ものデータが貢献されるようになり、OpenRefineに新たなユーザーをもたらし、プロジェクトの活性化につながりました。


■ 他のオープンソースとの連携と貢献方法

Q:他のOSSとの連携や、貢献者に期待することはありますか?

OpenRefineへの貢献は、ツールの使用経験があると、より効果的で意味のあるものになります。多くの人はインターンや学業を通じて関わりますが、ユーザー視点があることで改善すべき点が見えてきます。

私たちのドキュメントでは、まずは基本的な使い方を学ぶようにと勧めています。また、ぜひフォーラムで「はじめまして」と挨拶し、貢献の動機を教えてください。それがあるだけで、私たちからのサポートが格段にしやすくなります。

私自身も他のプロジェクトに貢献した際の体験を記録し始めていて、OpenRefineに新しく参加してくれる方からも、そのようなフィードバックをぜひ聞かせてほしいと思っています。改善すべき点はたくさんありますが、皆さんの目線から新たな発見があるかもしれません。

About Max Roveri:

Massimiliano "Max" Roveri is a writer, blogger, editor and social media manager. He started writing on the internet in the late '90s and he went back to the digital media in 2009. Since 2014 he lives in Ireland and, since 2015, he has been part of the LPI Italy team. He is professionally involved in cultural mediation projects, with an event management side, and in education projects as a professional and as a volunteer as well.  With a background in humanities and philosophy, he loves to address the ethical and social aspects of Open Source, with an approach that nods to Gregory Bateson and Robert M. Pirsig. Photo: uphostudio

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です