松屋ジェネレータジェネレータ
作ったのは、松屋ジェネレータtoshi-a.hatenablog.comのようなものですが、松屋のウェブページからデータを取ってきて、ジェネレータのためのデータも自動生成させています。ソースコードは以下。
部分ごとに解説します。
open('index.html'){|file|
file.each_line {|line|
if (line =~ %r!\A\<noscript\>\n\z!)..(line =~ %r!\A\</noscript\>\n\z!) then
if m = %r!\A\<li\>\<a href\=\"\/menu\/([^/]+)\/!.match(line) then
dirnames << m[1]
end
end
}
}
index.html から各メニューへのリンクの情報を取り出しています。最初は REXML で解析しようとしたのですがvalidでないということでエラーになるので諦めました。
begin
Dir.mkdir 'menu'
rescue Errno::EEXIST
STDERR.write "directory already exist: ignored\n"
end
path_base = Pathname('menu')
dirnames.each {|dirname|
sub_path = path_base + dirname
begin
sub_path.mkdir
rescue Errno::EEXIST
STDERR.write "directory already exist: ignored\n"
end
}
ダウンロード先にするためのディレクトリを作っています。
dirnames.each {|dirname|
ofile_path = path_base + dirname + 'index.html'
url_str = "http://www.matsuyafoods.co.jp/" + ofile_path.to_s.gsub(Pathname::SEPARATOR_PAT){'/'}
pid = spawn({}, ['/usr/bin/fetch', 'fetch'], '-o', ofile_path.to_s, url_str)
Process.waitpid pid
sleep(10+rand(10))
}
各サブメニューのHTMLを fetch で取ってきます。
menus = []
Dir.glob('menu/*/index.html').each {|path|
open(path){|file|
file.each_line {|line|
if m = %r|\A\<h4\>(.+)\<\/h4\>\<\!\-\- [1-9][0-9]* \-\-\>\n\z|.match(line) then
menus << m[1]
end
}
}
}
やはりad hocな感じでメニュー文字列を取り出します。一番長いのは「肉カレーうどん(プレミアム牛めし使用)ミニプレミアム牛めしセット」でしたが、そんなメニューが実在するのですね。
bigram = {}
menus.each {|menu_str|
last_char = :START
menu_str.each_char {|c|
bigram[last_char] ||= {}
bigram[last_char][c] ||= 0
bigram[last_char][c] += 1
last_char = c
}
bigram[last_char] ||= {}
bigram[last_char][:FIN] ||= 0
bigram[last_char][:FIN] += 1
}
全てのメニュー(文字列)について、「ある文字の次に、別のある文字が現れるのはいくつか」をカウントします。順方向のバイグラムという奴です。
本格的な自然言語処理では、ここで事前処理を頑張るわけですが、ここでは手抜きをして、生データのまま、次の生成に使ってしまいます。
rand_gen = Random.new
loop {
current_char = :START
loop {
next_hash = bigram[current_char]
total = next_hash.values.inject :+
r = rand_gen.rand total
keys = next_hash.keys.sort_by! {|c|
if c == :FIN then
Float::INFINITY
else
c.ord
end
}
keys.each {|k|
r -= next_hash[k]
if r < 0 then
current_char = k
break
end
}
break if current_char == :FIN
print current_char
}
puts
}
分析の逆で、「この文字の次に現れる文字はこれとこれとこれで、確率は...」というデータにもとづいてメニュー文字列を生成しています。実際に生成させてみると、たとえば次のような感じになります。
オリジナルカレミニ牛めしポンソージエッグW定食
おろし
きつねうどんミアム牛めし
肉カルビ丼
大根お子
きつねうどん
肉使用)
プレミアム牛皿<選べる小鉢>
豚汁変更
ブラス
オリルチキム牛肉カレーグセット
焼鮭
お新香
とろろし
納豆(プレミニラウング定食
プレートマト
とろたま
オリジルチキンバーうどん
きつねうどん(関西風だし)<選べる小鉢>
ビ焼肉カレーグセット
生野菜100000000%使用)
プレミナ豚テト
みそ汁
肉使用)
ビビ焼鮭
ミナ豚テト券
ミニ牛めし
焼肉定食
プラ焼定食
オリジナルチセット
大根お子
肉使用)ミアムカレンソーうどん(関西風だし
冷やっこ<選べる小鉢>
ネギ付)
焼きつねうどん(プレーうどん(プレミアム牛めしセット券
とろたまト
ビビビ焼肉使用)<選べる小鉢>
ソーセッグW定食
ビビ焼肉カレーうどん(関西風だし)
アム牛めし)ミニプレーグセー
定食
牛めしプレミアムチキムチキン酢牛めしセーグ定食
プレー
カッコの特別扱いとかをしていないので、対応していないカッコがちょっと不気味ですね。あと100000000%とかいう変なパーセントが出ています(逆に "生野菜10%使用" とかいうと残り90%はなんなんだ、という感じですね)。