テキストから都道府県・市区町村、番地、氏名、電話番号、身分証番号などの構造化情報をスマートに抽出し、データ入力とクリーニングに使用します。
氏名、電話番号、住所(都道府県・市区町村)を含むテキストを貼り付けると、主要な情報を自動で抽出します。
住所テキストを貼り付けて解析を開始してください
住所、氏名、電話番号、身分証番号が混在する非構造化テキストを手動で分割するのは、時間がかかりミスも発生しやすくなります。本ツールは、内蔵の住所データベースと正規表現の照合ルールにより、テキスト内の構造化フィールドを自動的に識別して抽出します。ここで処理される「配送先住所」とは、行政区画、詳細住所、個人識別情報を含む連続したテキストを指し、出力結果は、都道府県、市区町村、区・県、番地、郵便番号、氏名、携帯電話番号、身分証番号などの個別のフィールドに分割されます。
Q:入力テキストの順序に指定はありますか?
A:厳密な順序の指定はありません。例えば「張三 13800138000 北京市朝陽区建国門外大街1号 110105199001011234」と「北京市朝陽区建国門外大街1号 110105199001011234 張三 13800138000」のどちらでも正しく解析されます。
Q:香港・マカオ・台湾や海外の住所も解析できますか?
A:できません。本ツールは主に中国大陸の行政区画データベースと携帯電話番号・身分証番号の規則に基づいて解析を行っており、中国大陸地域の配送先住所にのみ適用されます。
入力テキストには十分な情報(都道府県・市区町村など)が含まれていることを確認してください。「○○路○○号」のように簡略化されすぎていると、解析に失敗したり精度が低下したりする可能性があります。本ツールはローカルで処理を行うため、入力データがアップロードされたり保存されたりすることはありません。身分証番号と携帯電話番号については、ツールが形式の検証を行いますが、その真正性を確認することはできません。一括処理を行う場合は、1件ずつ操作してください。
解析の精度を高めるため、入力時はできるだけ情報を完全な状態に保つことをお勧めします。典型的な入出力の例は以下の通りです。入力「広東省深圳市南山区科技園科技南十二路 李四 13800138000 440301199001011234 518057」の場合、出力には都道府県「広東省」、市区町村「深圳市」、区・県「南山区」、番地「科技園科技南十二路」、氏名「李四」、携帯電話番号「13800138000」、身分証番号「440301199001011234」、郵便番号「518057」が含まれます。ECサイトやCRMシステムにおける住所データのクリーニングでは、まず本ツールを使用して非標準の住所テキストを標準化し、その後に住所の検証や地域別の統計を行うことができます。