ページ

2012年6月15日金曜日

◆SharePointサイトのクロール対象にPDFファイルを追加する

SharePointで検索処理をするためには予めクロール処理を行う必要がある。
WordやExcelなどのOfficeドキュメントは最初から検索してくれるようだがファイルの種類によっては、対応するフィルターを追加する必要がある。
以下のドキュメントを基にPDFファイルをクロール対象にする手順を纏めてみた。
Microsoft SharePoint Server 2010 自習書シリーズ | TechNet

  1. 「サーバー全体の管理」から「アプリケーションの全般設定」をクリック。
    image
  2. 「ファーム検索管理」をクリック
    image
  3. 「Search Service Application」をクリック
    image
  4. 「ファイルの種類」をクリック
    image
  5. 「新しいファイルの種類」をクリック
    image
  6. 「ファイル名拡張子」に「PDF」と入力し「OK」ボタンをクリック
    image
  7. IFilterのインストール
    PDFファイルの中身をクロールするためにAdobe社が提供しているPDF用のフィルタープログラム(IFilter)をインストールする。
  8. IFilter用のレジストリー値の確認
    • レジストリーエディタの起動
      「Win + R」で「ファイル名を指定して実行」を開き「regedit」と入力し「OK」ボタンをクリック。
      image
    • レジストリ1
      HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\14.0\Search\Applications\{site GUID}\Gather\Portal_Content\Extensions\ExtensionList
      ※{site GUID}のところは、環境別に生成された任意のIDが入っています。
      image
      ExtentionListの値の中に”pdf”があることを確認します。もしなければ、値を追加します。
      リスト一覧を見渡し、まだ使われていないID番号を確認します。(この場合は48)
      値はレジストリエディタ右側のウィンドウで右クリックをし、「新規」から「文字列値」を選びます。
    • レジストリ2

      Filter値の確認をします。
      HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\14.0\Search\Setup\Filters\.pdf
      を開きます。
      image
      値が下記のようになっていることを確認します。
      <REG_SZ> Default = <value not set>
      <REG_SZ> Extension = pdf
      <REG_DWORD> FileTypeBucket = 1
      <REG_SZ> MimeTypes = application/pdf

    • レジストリ3
      HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\14.0\Search\Setup\ContentIndexCommon\Filters\Extension\.pdf
      値が ”{E8978DA6-047F-4E3D-9C78-CDBE46041603}”である必要があります。違う値が入っている場合は、この決められた値に変更します。
      image
      ※他の拡張子の「種類」を見ると、すべて「REG_MULTI_SZ」になっているので合わせたいところだがGUIからは変更できないようだ。
      そこで、以下のPowerShellコマンドにて変更。
      New-Itemproperty "HKLM:\SOFTWARE\Microsoft\Office Server\14.0\Search\Setup\ContentIndexCommon\Filters\Extension\.pdf" "(default)" -propertytype MultiString -value {E8978DA6-047F-4E3D-9C78-CDBE46041603}
  9. DOCICON.XMLファイルの編集
    • アイコンの追加
      アイコン画像を入手します。PDFファイルに関しては、Adobe社がアイコンを用意しています。
      http://www.adobe.com/misc/linking.html#pdficon
      17×17サイズのアイコンを選択し、右クリックし、名前を付けて画像を保存します。本書は名前を”PDF16.GIF”としてローカルに保存します。
    • アイコンの保存先
      C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\14\TEMPLATE\IMAGES
    • C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\12\TEMPLATE\XML\DOCICON.XMLファイルをメモ帳で開く。
    • マッピングキーを追加します。<ByExtention>属性内の任意の場所に下記の値を追加します。
      <Mapping Key="pdf" Value="pdf16.gif"/>
      image
  10. サービスの再起動とIISの再起動

    [スタート] から [ファイル名を指定して実行] をクリックし、 “cmd” と入力し、起動します。下記コマンドを順に実行します。
    net stop osearch14
    net start osearch14
    iisreset

  11. クロール処理を実行し、PDFが検索されるか確認する。

0 件のコメント:

コメントを投稿

私が最近チェックした記事