gem:Yomu 抽取文字的


#1

很簡單使用

⑴Gemfile 加入,bundle install
⑵require 之後,直接使用

yomu = Yomu.new 'sample.pages'
text = yomu.text

就可以讀到文字,我是有配合把資料存成 txt 檔…

require "yomu"
a = Dir["**/*.doc","**/*.pdf","**/*.ppt"]
a.each do |list|
  tmp = list.slice(0..-5)
  tmp1 = "#{tmp}.txt"
  open(tmp1, "w") do |f|
    f << Yomu.new(list).text.gsub("\t","")
  end
end

就可以把目錄下的所有的 pdf, doc, ppt 轉成 txt 文字…
他會存在同個 pdf, doc, ppt 的目錄下…

之後我再用linux 指令把 txt copy 出來(不知怎在上面用 ruby 寫~只好用 linux 指令)

find . -name "*.txt" -exec copy {} destination-folder \;

這對要把資料變成 cms 的蠻好用的~
不過有些檔案有 prase error…捉不出來…
有錯誤的 msg 應該要去 debug 看什~不過大部份都有轉出來就沒先細部研究了…

分享一下給大家