本文详解如何正确提取 html 表格中带小数的数字字符串(如 "10.00"),并将其可靠转换为整数,避免直接类型转换导致的截断错误(如 `(int)"10.00"` 得到 10 而非预期的 10)。
在使用 preg_match_all() 从 HTML 中提取数值时,一个常见误区是:正则未使用捕获组,导致匹配结果包含完整 HTML 标签(如 10.00 )。此时 $match[0] 数组中存储的是带标签的字符串,而非纯数字——直接对
修改正则表达式,在数字部分添加括号形成捕获组(Capture Group),使目标值存入 $matches[1]:
// 示例 HTML 片段 $html = '
| 10.00 | 10.00 | 10.00 | 1.00 | 12.00 |

$cleaned = array_map(function($s) {
return (int) (float) strip_tags($s);
}, $matches[0]);核心原则是:先分离(capture),再转换(cast)。通过正则捕获组确保 $matches[1] 中的数据为干净的数字字符串,再经 floatval() → (int) 或 intval() 安全转为整数。这既规避了 HTML 标签干扰,又避免了浮点字符串直接强转的陷阱,是处理此类 Web 抓取数据的标准实践。