• twitter
  • facebook
出版部

「正規表現」を使ってデータを加工してみよう 【文学・歴史資料のデジタル加工入門1】(木越 治)

【はじめに】

コンピュータと付き合うようになって30年以上が経過した。はじめてコンピュータを買ったのは、忘れもしない昭和60年(1985)の秋。マシンは、NECのベストセラー機PC9801VM2。NECのサイトに載っているデータによると定価415,000円とある。B4用紙も印刷できる大きなプリンタと併せると百万円近くしたと思う。

もちろん私費で買えるわけもなく、勤務先の特別配分研究費が廻ってきたのをこれ幸いに購入したのである。いまも現役で毎年バージョンアップを続けているワープロソフト「一太郎」の最初のバージョンが出たばかりの頃である。一太郎の歴史のサイトを見ると、「恋に落ちて」(小林明子)や「ミ・アモーレ」(中森明菜)がヒットし、「阪神タイガースが初の日本一」になった年とある。バブル直前の頃である。もちろん、Windowsの登場以前で、MS-DOS全盛の時代である。MS-DOSというのは、いまのWindowsのシステムツール(10の場合。7ではアクセサリーのなかにあったはず)に含まれている「コマンドプロンプト」である。ここでどんなことができるかについては、下記のサイトが参考になる。

これだけは覚えておきたいWindowsのコマンドプロンプトの使い方(@IT)
http://www.atmarkit.co.jp/ait/articles/1502/13/news147.html

いずれ、このコマンドを使ってどんな作業をすると便利かについても解説したいと思うが、当時は、コンピュータを立ち上げると、まずこの画面があらわれ、このあと、自分でコマンドを打ち込まなければコンピュータはなにもしてくれなかったのである。「一太郎」を動かすために何度「jxw」という立ち上げコマンドを打ち込んだことか……。もっとも、その前に、「一太郎」のシステムフロッピーディスクを上のドライブに、文書用ディスクを下のドラブに入れておかなければならなかったのであるが……。

しかし、この時期に、かなり熱中して勉強したことが、いまの私のコンピュータテクノロジーの財産になっている。それらのなかには、いまでも有用な知識が少なからず含まれており、そのノウハウを上手に生かしていけば、いまでも楽に作業をすすめられることが多いのではないか、というのが、この連載コラムの趣旨である。

かつてのPCはマニアのものだったから、パソコン通信でメールリストのような集団を作り、互いに情報を交換したりしたものであるが、いまはそういう文化も廃れてしまった。

この連載では、そういう時代に話題になったり、勉強したりしたことなどを含め、コンピュータを使ううえで、こうしたら楽にできるよ、というような事例を紹介していくことにしたい。特に、いまは、Web上から各種のデータを入手できる時代になったが、それらを、単にコピー&ペーストして取り込んでも使いにくいことが多い。また、量的に膨大になることも多いから、そういうときに、ここで紹介するようなテキストデータの処理方法を用いて使いやすく整形・加工する方法を知っていると、のちのちいろんな意味で有益にちがいないのである。

できるだけ、一般的な例を取り上げていくつもりだが、話の都合上、ある程度、OSやソフトウエア(いまはアプリと言う方が普通かもしれない)に依存する部分が出てくるので、そういう部分については、つとめてくわしく述べるようにしたいと思っている。