• twitter
  • facebook
文学・歴史資料のデジタル加工入門

フリーウェアの話と前回の別解 【文学・歴史資料のデジタル加工入門2】(木越 治)

【前回コラムの別解:便利なBOX範囲選択(矩形選択)】

前回、名列データを数字部分と名前部分に区切るときには「正規表現」を使えばとても簡単にできるという説明をした。しかし、正規表現を使うより手間はかかるが、この作業をエディターの操作だけでやることが可能である。

今回はそのことを説明したいと思うが、以下を読む前に、読者がお使いのエディターやワープロソフトで「BOX範囲選択」(これは、秀丸エディターでのよび方)の方法を確認しておいていただきたい。

注「BOX範囲選択」というのは、何行もある文字列データから、四角い範囲を指定する機能で、「矩形選択」ないし「四角選択」という方が一般的かもしれない。ちなみに、Word、一太郎では「Alt」キーを押しながら選択したい範囲をマウスでドラッグすればよい。

まずは、もとのデータを再度掲載しよう。

============================
1石原 勇次郎
2山本 小百合
3蜷川 友一郎
4基山 隆一
5春山 さおり
6神戸 惣一郎
7根津 幸太
8綿貫 市朗
9木島 順平
10溝口 甫
11水田 広司
12水村 里江
============================

この原データの、一桁の数字の1~9の部分だけを「BOX選択」機能を使って反転させると下記のようになる。

image003

この状態で、コピーを実行し、新しい別の画面に貼り付けると、

image005

こういうふうに一桁の数字部分だけがコピーされる。このファイルを name2.txt としておいてから、

置換前 \n

置換後 ,\n

という置換を実行する。

image007

この置換にある「\n」 は改行マークをあらわしているので、各行末に「,」を付けよという命令になる。

実行すると各行末に「,」がつくので、今度は、名前の部分を同様にBOXコピーし、name2.txtに貼り付ける。そのあと、数字が二桁になっている部分を同様に処理していく、という手順である。

BOX範囲指定を使うことと、数字部分を桁数ごとに分けるのが作業のポイントである。